感知器算法(Perceptron Algorithm)

基本思想: 通过迭代调整权重向量寻找能分隔不同类别数据点的超平面
特点:

  • 属于线性分类算法
  • 实际应用效果有限, 通常被更先进的算法取代
  • 无法处理非线性可分数据

指数族分布(Exponential Family)

数学定义

概率密度/质量函数形式:
$$p(x|\eta) = b(x) \exp\left(\eta^T T(x) - a(\eta)\right)$$

参数说明:

符号 名称 说明
$x$ 随机变量 观测数据点
$\eta$ 自然参数 决定分布形式的参数向量
$T(x)$ 充分统计量 包含参数全部信息的函数(在CS229课程中常简化为$ x $)
$b(x)$ 基函数 与参数无关的基础测量函数
$a(\eta)$ 对数归一化因子 确保概率积分为1的归一化项, 满足 $a(\eta) = \log\int b(x)\exp(\eta^T T(x))dx $

b(x)与参数无关 非常重要

重要性质

  1. 凸优化特性: 在自然参数空间中对数似然函数是凹函数, 保证MLE有全局最优解
  2. 矩计算:
    • 期望: $ \mathbb{E}[T(x)] = \frac{\partial a(\eta)}{\partial \eta} $
    • 方差: $ \text{Var}[T(x)] = \frac{\partial^2 a(\eta)}{\partial \eta^2} $
  3. 统一表示: 涵盖常见概率分布(见下表)

常见分布对应表

数据类型 分布类型 典型应用场景
连续值(实数域) 高斯分布(Gaussian) 回归问题
二元离散值 伯努利分布(Bernoulli) 二分类
计数数据 泊松分布(Poisson) 事件计数建模
正实数 Gamma/指数分布 生存分析
概率分布 Beta/Dirichlet分布 贝叶斯统计中的先验分布

广义线性模型(GLM)

核心假设

  1. 响应变量分布: $ y|x;\theta \sim \text{ExponentialFamily}(\eta) $
  2. 线性组合: 自然参数满足 $ \eta = \theta^T x $($ \theta \in \mathbb{R}^n, x \in \mathbb{R}^n $)
  3. 输出预测: $ h_\theta(x) = \mathbb{E}[y|x;\theta] = g^{-1}(\eta) $, 其中 $ g^{-1} $ 为连接函数

参数化体系

模型参数(θ) 自然参数(η) 规范参数(μ)
待学习权重 $ \theta^Tx $ $\mathbb{E}[y|x]$

训练过程

采用梯度下降法更新参数:
$$\theta_j := \theta_j - \alpha \left( h_\theta(x^{(i)}) - y^{(i)} \right) x_j^{(i)}$$

典型示例: Logistic回归

  1. 连接函数: $ g(\mu) = \ln(\mu/(1-\mu)) $
  2. 预测函数:
    $$h_\theta(x) = \sigma(\theta^T x) = \frac{1}{1+e^{-\theta^T x}}$$
    其中 $ \sigma(\cdot) $ 为sigmoid函数, 对应伯努利分布的期望计算

Softmax回归(多分类)

核心机制

  1. 扩展逻辑: 将二分类推广到多分类场景
  2. 输出层设计: 使用softmax函数生成类别概率分布:
    $$p(y=k|x) = \frac{e^{\theta_k^T x}}{\sum_{j=1}^K e^{\theta_j^T x}}$$

优化目标

最小化交叉熵损失:
$$\mathcal{L}(\theta) = -\sum_{i=1}^m \sum_{k=1}^K \mathbb{I}{y^{(i)}=k} \log \frac{e^{\theta_k^T x^{(i)}}}{\sum_{j=1}^K e^{\theta_j^T x^{(i)}}}$$

0%