感知器算法(Perceptron Algorithm)

基本思想: 通过迭代调整权重向量寻找能分隔不同类别数据点的超平面
特点:
- 属于线性分类算法 - 实际应用效果有限, 通常被更先进的算法取代 - 无法处理非线性可分数据

指数族分布(Exponential Family)

数学定义

概率密度/质量函数形式:
\[p(x|\eta) = b(x) \exp\left(\eta^T T(x) - a(\eta)\right)\]

参数说明:

符号 名称 说明
\(x\) 随机变量 观测数据点
\(\eta\) 自然参数 决定分布形式的参数向量
\(T(x)\) 充分统计量 包含参数全部信息的函数(在CS229课程中常简化为$ x $)
\(b(x)\) 基函数 与参数无关的基础测量函数
\(a(\eta)\) 对数归一化因子 确保概率积分为1的归一化项, 满足 $a() = b(x)(^T T(x))dx $

b(x)与参数无关 非常重要 ### 重要性质 1. 凸优化特性: 在自然参数空间中对数似然函数是凹函数, 保证MLE有全局最优解 2. 矩计算: - 期望: $ [T(x)] = $ - 方差: $ [T(x)] = $ 3. 统一表示: 涵盖常见概率分布(见下表)

常见分布对应表

数据类型 分布类型 典型应用场景
连续值(实数域) 高斯分布(Gaussian) 回归问题
二元离散值 伯努利分布(Bernoulli) 二分类
计数数据 泊松分布(Poisson) 事件计数建模
正实数 Gamma/指数分布 生存分析
概率分布 Beta/Dirichlet分布 贝叶斯统计中的先验分布

广义线性模型(GLM)

核心假设

  1. 响应变量分布: $ y|x;() $
  2. 线性组合: 自然参数满足 $ = ^T x \((\) ^n, x ^n $)
  3. 输出预测: $ h_(x) = [y|x;] = g^{-1}() $, 其中 $ g^{-1} $ 为连接函数

参数化体系

模型参数(θ) 自然参数(η) 规范参数(μ)
待学习权重 $ ^Tx $ \(\mathbb{E}[y\|x]\)

训练过程

采用梯度下降法更新参数: \[\theta_j := \theta_j - \alpha \left( h_\theta(x^{(i)}) - y^{(i)} \right) x_j^{(i)}\]

典型示例: Logistic回归

  1. 连接函数: $ g() = (/(1-)) $
  2. 预测函数: \[h_\theta(x) = \sigma(\theta^T x) = \frac{1}{1+e^{-\theta^T x}}\] 其中 $ () $ 为sigmoid函数, 对应伯努利分布的期望计算

Softmax回归(多分类)

核心机制

  1. 扩展逻辑: 将二分类推广到多分类场景
  2. 输出层设计: 使用softmax函数生成类别概率分布: \[p(y=k|x) = \frac{e^{\theta_k^T x}}{\sum_{j=1}^K e^{\theta_j^T x}}\]

优化目标

最小化交叉熵损失: \[\mathcal{L}(\theta) = -\sum_{i=1}^m \sum_{k=1}^K \mathbb{I}\{y^{(i)}=k\} \log \frac{e^{\theta_k^T x^{(i)}}}{\sum_{j=1}^K e^{\theta_j^T x^{(i)}}}\]

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1
$ hexo new "My New Post"

More info: Writing

Run server

1
$ hexo server

More info: Server

Generate static files

1
$ hexo generate

More info: Generating

Deploy to remote sites

1
$ hexo deploy

More info: Deployment

0%