Lecture6&7

Posted on 2025-03-04 Edited on 2025-03-05 In 机器学习

介绍关于支持向量机与核技巧的相关知识内容。

一、间隔（Margin）概念

1.1 函数间隔（Functional Margin）

定义单个样本的函数间隔： \[ \hat{\gamma}^{(i)} = y^{(i)} (\mathbf{w}^\top \mathbf{x}^{(i)} + b) \] 整体函数间隔为最小样本间隔： \[ \hat{\gamma} = \min_{i=1,\ldots,m} \hat{\gamma}^{(i)} \]

注意：函数间隔受参数模长影响（\(\|\mathbf{w}\|\)和\(b\)），需标准化处理。

1.2 几何间隔（Geometric Margin）

几何间隔是函数间隔的标准化形式： \[ \gamma^{(i)} = \frac{\hat{\gamma}^{(i)}}{\|\mathbf{w}\|} = \frac{y^{(i)} (\mathbf{w}^\top \mathbf{x}^{(i)} + b)}{\|\mathbf{w}\|} \] 整体几何间隔： \[ \gamma = \frac{\hat{\gamma}}{\|\mathbf{w}\|} = \min_{i=1,\ldots,m} \gamma^{(i)} \]

二、支持向量机的理论特性

2.1 参数表示定理（Representer Theorem）

最优参数 \(\mathbf{w}\) 可表示为训练样本的线性组合： \[ \mathbf{w} = \sum_{i=1}^{m} \alpha_i y^{(i)} \mathbf{x}^{(i)} \]

可以通过梯度下降的参数更新的式子来归纳看出如果我们以Logistic Regression为例子 \[\theta = \theta_i - \alpha h_\theta(x^{(i)})-y^{(i)})\] 可以轻易看出\(\theta\)可以表示成各个训练集的线性组合 可通过梯度下降法的参数更新过程归纳证明

2.2 对偶问题推导

通过拉格朗日乘数法将原优化问题转化为对偶问题，此过程涉及： - 构造拉格朗日函数 - 求导消元（\(\mathbf{w}\) 和 \(b\)） - 得到仅含 \(\alpha_i\) 的优化目标

三、核技巧（Kernel Trick）

3.1 核方法实现步骤

将算法改写为仅含内积 \(\langle x^{(i)}, x^{(j)} \rangle\) 的形式
设计特征映射 \(\phi: \mathcal{X} \to \mathcal{H}\) 将输入空间映射到高维特征空间
构造核函数 \(K(x,z) = \phi(x)^\top \phi(z)\)
用核函数替换所有内积运算

3.2 核函数合法性条件（Mercer条件）¹

合法核函数需满足： 1. 对称性：\(K(x,z) = K(z,x)\) 2. 半正定性：\(\forall c_i \in \mathbb{R},\ \sum_{i,j}c_i c_j K(x^{(i)},x^{(j)}) \geq 0\) 3. 线性性：\(K(ax+by,z) = aK(x,z) + bK(y,z)\) 本质上是一个广义内积² #### 3.3 常用核函数对照表

核类型	公式	参数	特征空间维度
线性核	\(K(x,z) = x^\top z\)	无	\(\mathbb{R}^n\)
多项式核	\(K(x,z) = (x^\top z + c)^d\)	\(c \geq 0, d \in \mathbb{N}\)	\(\mathbb{R}^n\)
高斯核（RBF）	\(K(x,z) = \exp(-\frac{\\|x-z\\|^2}{2\sigma^2})\)	\(\sigma > 0\)	\(\mathbb{R}^\infty\)
Sigmoid核	\(K(x,z) = \tanh(\alpha x^\top z + c)\)	\(\alpha, c\)	\(\mathbb{R}^n\)
Laplace核	\(K(x,z) = \exp(-\frac{\\|x-z\\|_1}{\sigma})\)	\(\sigma > 0\)	\(\mathbb{R}^\infty\)

四、L1范数软间隔SVM

4.1 原始优化问题

\[ \begin{aligned} \min_{\mathbf{w},b,\xi} & \quad \frac{1}{2}\|\mathbf{w}\|^2 + C\sum_{i=1}^n \xi_i \\ \text{s.t.} & \quad y_i(\mathbf{w}^\top \phi(x_i) + b) \geq 1 - \xi_i \\ & \quad \xi_i \geq 0,\ \forall i=1,...,n \end{aligned} \]

4.2 对偶形式

通过拉格朗日乘数法推导得到： \[ \begin{aligned} \max_{\alpha} & \quad \sum_{i=1}^n \alpha_i - \frac{1}{2}\sum_{i,j}\alpha_i\alpha_j y_i y_j K(x_i,x_j) \\ \text{s.t.} & \quad 0 \leq \alpha_i \leq C \\ & \quad \sum_{i=1}^n \alpha_i y_i = 0 \end{aligned} \]

五、应用案例：蛋白质序列分类

5.1 特征工程

将蛋白质序列按4个氨基酸为一组进行分窗
使用改进的KMP算法计算序列相似性核函数(使用广义内积的示例)

5.2 实现流程

序列→特征向量转换
构造基于k-mer的序列核
使用软间隔SVM进行分类

附：关键公式推导技巧

拉格朗日对偶性：通过引入乘子处理不等式约束
KKT条件：确定支持向量的必要条件
SMO算法：高效求解对偶问题的分解方法

Mercer定理:任何半正定的函数都可以作为核函数(充分不必要条件) Mercer条件:若函数K(a, b)符合Mercer条件, 则K必须是连续的，并且在其参数上对称，所以K(a, b)=K(b, a)，则存在函数 \(\phi\) 将a和b映射到另一空间，使得K(a, b) = \(\phi(a)^T\) \(\phi(b)\) 。即两个向量的核函数值等价于映射后的两个向量的内积。↩︎
https://surprisedcat.github.io/studynotes/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E4%B9%8B%E5%BA%A6%E9%87%8F%E7%9F%A9%E9%98%B5%E4%B8%8E%E5%B9%BF%E4%B9%89%E5%86%85%E7%A7%AF/↩︎