【李航】统计学习方法--7. 支持向量机（详细推导）

本文链接：https://blog.csdn.net/wl1780852311/article/details/119493842

在这里插入图片描述

目录

7.1 线性可分支持向量机与硬间隔最大化
7.1.1 线性可分支持向量机
7.1.2 函数间隔和几何间隔
7.1.3 间隔最大化
7.1.4 学习的对偶算法

7.2 线性支持向量机与软间隔最大化
7.2.1线性支持向量机
7.2.2 学习的对偶算法
7.2.3 支持向量
7.2.4 合页损失函数

7.3 非线性支持向量机与核函数
7.3.1 核技巧
非线性分类问题
核函数的定义
核技巧在支持向量机中的应用

7.3.2正定核
7.3.3 常用核函数
7.3.4 非线性支持向量分类机

7.4 序列最小最优化算法
7.4.1 两个变量二次规划的求解方法
7.4.2 变量的选择方法

7.1 线性可分支持向量机与硬间隔最大化

7.1.1 线性可分支持向量机

当训练数据集线性可分时，存在无穷个分离超平面可将两类数据正确分开。

感知机利用误分类最小的策略，求得分离超平面，不过这时的解有无穷多个。
线性可分支持向量机利用间隔最大化求最优分离超平面，这时，解是唯一的。

线性可分支持向量机 给定线性可分训练数据集，通过间隔最大化或
等价地求解相应的凸二次规划问题学习得到的分离超平面为

$w^{*} \cdot x+b^{*}=0$

以及相应的分类决策函数

$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$

称为线性可分支持向量机。

在这里插入图片描述

通俗解释，距离超平面最近的实例，距离最大，所以是唯一的平面。

7.1.2 函数间隔和几何间隔

一个点距离分离超平面的远近可以表示分类预测的确信程度。

函数间隔 对于给定的训练数据集 $T$ 和超平面 $(w, b)$ , 定义超平面 $(w, b)$ 关于样本点 $\left(x_{i}, y_{i}\right)$ 的函数间隔为
$\hat{\gamma}_{i}=y_{i}\left(w \cdot x_{i}+b\right)$

定义超平面 $(w, b)$ 关于训练数据集 $T$ 的函数间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $\left(x_{i}, y_{i}\right)$ 的函数间隔之最小值, 即
$\hat{\gamma}=\min _{i=1, \cdots, N} \hat{\gamma}_{i}$

函数间隔可以表示分类预测的正确性及确信度。
几何间隔 对于给定的训练数据集 $T$ 和超平面 $(w, b)$ , 定义超平面 $(w, b)$ 关于样本点 $\left(x_{i}, y_{i}\right)$ 的几何间隔为
$\gamma_{i}=y_{i}\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right)$

其中， $\|w\|$ 是 $w$ 的 $L 2$ 范数。
定义超平面 $(w, b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $\left(x_{i}, y_{i}\right)$ 的几何间隔之最小值, 即
$\gamma=\min _{i=1, \cdots, N} \gamma_{i}$
超平面 $(w, b)$ 关于样本点 $\left(x_{i}, y_{i}\right)$ 的几何间隔一般是实例点到超平面的带符号的距离（signed distance）, 当样本点被超平面正确分类时就是实例点到超平面的距离。
函数间隔和几何间隔有下面的关系:
$\begin{aligned} &\gamma_{i}=\frac{\hat{\gamma}_{i}}{\|w\|} \\ &\gamma=\frac{\hat{\gamma}}{\|w\|} \end{aligned}$
$L 2$ 范数：向量元素绝对值的平方和再开平方, $\|x\|_{2}=\sqrt{\sum_{i=1}^{N} x_{i}^{2}}$

7.1.3 间隔最大化

知识补充-凸优化

凸优化问题

目标函数是凸函数
可行域是凸集
局部最优解=全局最优解

凸集的定义: 对于一个点的集合 $\mathrm{C}$ , 有 $\mathrm{x}, \mathrm{y}$ 它都是属于 C 里面的两个点, 它们两点的连线中任何一点也是属于集合 $\mathrm{C}$ 的，
$\theta x+(1-\theta) y \in C$
$0\le \theta \le 1$

典型的凸集
欧式空间 $R^{n}$
$\in R^{n} \Rightarrow \theta x+(1-\theta) y \in R^{n}$
它的意义在于，很多时候可行域就是欧式空间, 那肯定是凸集

凸集的交集还是凸集

仿射函数 $f (x)$ 称为仿射函数, 如果它满足 $\cdot x+b, a \in \mathbf{R}^{n}, b \in \mathbf{R}, x \in \mathbf{R}^{n}$ 。

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。（这里的间隔最大化又称为硬间隔最大化）

最大间隔分离超平面
$\begin{array}{ll} \max _{w, b} & \gamma \\ \text { s.t. } & y_{i}\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right) \geqslant \gamma, \quad i=1,2, \cdots, N \end{array}$

最大化超平面 $(w, b)$ 关于训练数据集的几何间隔 $\gamma$ , 约束条件表示的是超平面 $(w, b)$ 关于每个训练样本点的几何间隔至少是 $\gamma_{\text {。 }}$
考虑几何间隔和函数间隔的关系式 $\gamma=\frac{\hat{\gamma}}{\|w\|}$ , 可将这个问题改写为
$\begin{array}{ll} \max _{w, b} & \frac{\hat{\gamma}}{\|w\|} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant \hat{\gamma}, \quad i=1,2, \cdots, N \end{array}$

函数间隔 $\hat{\gamma}$ 的取值并不影响最优化问题的解。事实上, 假设将 $w$ 和 $b$ 按比例改变为 $\lambda w$ 和 $\lambda b$ , 这时函数间隔成为 $\lambda \hat{\gamma}_{\circ}$ 函数间隔的这一改变对上面最优化问题的不等式约束没有影响, 对目标函数的优化也没有影响, 也就是说, 它产生一个等价的最
优化问题。这样, 就可以取 $\hat{\gamma}=1$ 。将 $\hat{\gamma}=1$ 代入上面的最优化问题, 注意到最大化 $\frac{1}{\|w\|}$ 和最小化 $\frac{1}{2}\|w\|^{2}$ 是等价的, 于是就得到下面的线性可分支持向量机学习的最优化问题:
$\begin{array}{ll} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N \end{array}$

这是一个凸二次规划 (convex quadratic programming) 问题。

凸优化问题是指约束最优化问题

$\begin{array}{ll} \min _{w} & f(w) \\ \text { s.t. } & g_{i}(w) \leqslant 0, \quad i=1,2, \cdots, k \\ & h_{i}(w)=0, \quad i=1,2, \cdots, l \end{array}$

其中, 目标函数 $f (w)$ 和约束函数 $g_{i}(w)$ 都是 $\mathbf{R}^{n}$ 上的连续可微的品函数, 约束函数 $h_{i}(w)$ 是 $\mathbf{R}^{n}$ 上的仿射函数。

最大间隔法
输入: 线性可分训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ , 其中, $x_{i} \in$ $\mathcal{X}=\mathbf{R}^{n}, y_{i} \in \mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N$
输出: 最大间隔分离超平面和分类决策函数。
(1)构造并求解约束最优化问题:
$\begin{array}{ll} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N \end{array}$

求得最优解 $w^{*}, b^{*}$ 。
(2)由此得到分离超平面:
$w^{*} \cdot x+b^{*}=0$

分类决策函数
$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$
最大间隔分离超平面的存在唯一性
最大间隔分离超平面的存在唯一性 若训练数据集T线性可分,则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。
证明：
1. 存在性
  由于训练数据集线性可分,所以上述最优化问题一定存在可行解。又由于目标函数有下界,所以最优化问题必有解,记作 $w^*,b^*)$ ,由于训练数据集中既有正类点又有负类点,所以 $(w, b)$ = (0,b)不是最优化的可行解,因而最优解 $w^*,b^*)$ 必满足 $w^*\ne 0$ ,由此得知分离超平面的存在性。
2. 唯一性
  首先证明 $w^{*}$ 的唯一性。假设最优化问题存在两个最优解 $\left(w_{1}^{*}, b_{1}^{*}\right)$ 和 $\left(w_{2}^{*}, b_{2}^{*}\right)$ 。显然 $\left\|w_{1}^{*}\right\|=\left\|w_{2}^{*}\right\|=c$ , 其中 $c$ 是一个常数。令 $w=\frac{w_{1}^{*}+w_{2}^{*}}{2}, b=\frac{b_{1}^{*}+b_{2}^{*}}{2}$ , 易知 $(w, b)$ 是最优化问题的可行解，从而有
  $\leqslant\|w\| =|\frac{1}{2}\left\|w_{1}^{*}\right\|+\frac{1}{2}\left\|w_{2}^{*}\right\||\leqslant \frac{1}{2}\left\|w_{1}^{*}\right\|+\frac{1}{2}\left\|w_{2}^{*}\right\|=c$
  
  上式表明, 式中的不等号必须为等号, 即 $\|w\|=\frac{1}{2}\left\|w_{1}^{*}\right\|+\frac{1}{2}\left\|w_{2}^{*}\right\|$ , 从而有 $w_{1}^{*}=$ $\lambda w_{2}^{*},|\lambda|=1$ 。若 $\lambda=-1$ , 则 $w = 0, (w, b)$ 不是最优化问题的可行解, 矛盾。因此必有 $\lambda=1$ , 即
  $w_{1}^{*}=w_{2}^{*}$
  
  由此可以把两个最优解 $\left(w_{1}^{*}, b_{1}^{*}\right)$ 和 $\left(w_{2}^{*}, b_{2}^{*}\right)$ 分别写成 $\left(w^{*}, b_{1}^{*}\right)$ 和 $\left(w^{*}, b_{2}^{*}\right)$ 。
  再证 $b_{1}^{*}=b_{2}^{*}$ 。设 $x_{1}^{\prime}$ 和 $x_{2}^{\prime}$ 是集合 $\left\{x_{i} \mid y_{i}=+1\right\}$ 中分别对应于 $\left(w^{*}, b_{1}^{*}\right)$ 和 $\left(w^{*}, b_{2}^{*}\right)$ 使得问题的不等式等号成立的点, $x_{1}^{\prime \prime}$ 和 $x_{2}^{\prime \prime}$ 是集合 $\left\{x_{i} \mid y_{i}=-1\right\}$ 中分别对应于 $\left(w^{*}, b_{1}^{*}\right)$ 和 $\left(w^{*}, b_{2}^{*}\right)$ 使得问题的不等式等号成立的点,∴ $w^{*} \cdot x_{1}^{\prime}+b_{2}^{*} -1\geqslant 0, \quad w^{*} \cdot x_{2}^{\prime}+b_{2}^{*} -1= 0=>w^{*} \cdot x_{1}^{\prime} \ge w^{*} \cdot x_{2}^{\prime}$ ; $w^{*} \cdot x_{1}^{\prime}+b_{2}^{*} -1\geqslant 0, \quad w^{*} \cdot x_{2}^{\prime}+b_{2}^{*} -1= 0=>w^{*} \cdot x_{1}^{\prime} \ge w^{*} \cdot x_{2}^{\prime}$ ,得出 $w^{*} \cdot\left(x_{1}^{\prime}-x_{2}^{\prime}\right)=0,w^{*} \cdot\left(x_{1}^{\prime \prime}-x_{2}^{\prime \prime}\right)=0$ ,∴ $x_{1}^{\prime}=x_{2}^{\prime},x_{1}^{\prime \prime}=x_{2}^{\prime \prime}$
  继续， $w^{*} \cdot x_{1}^{\prime}+b_{1}^{*} -1= 0,-[w^{*} \cdot x_{1}^{{\prime}{\prime}}+b_{1}^{*} -1]= 0=>b_1^*=-\frac{1}{2}\left(w^{*} \cdot x_{1}^{\prime}+w^{*} \cdot x_{1}^{\prime \prime}\right)$ ,同理 $b_{2}^{*}=-\frac{1}{2}\left(w^{*} \cdot x_{2}^{\prime}+w^{*} \cdot x_{2}^{\prime \prime}\right)$ => $b_{1}^{*}=b_{2}^{*}$
支持向量和间隔边界
- 在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量(support vector)。
  - 支持向量是使约束条件式 $y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$ 等号成立的点
- $H 1$ 与 $H 2$ 之间的距离称为间隔(margin)。
  间隔依赖于分离超平面的法向量 $w$ , 等于 $\frac{2}{\|w\|}$ 。 $H_{1}$ 和 $H_{2}$ 称为间隔边界。

7.1.4 学习的对偶算法

求解对偶问题的优点

对偶问题往往更容易求解;
自然引入核函数, 进而推广到非线性分类问题。

构建拉格朗日函数（Lagrange function）。为此, 对每一个不等式约束 $y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$ 引进拉格朗日乘子 (Lagrange multiplier) $\alpha_{i} \geqslant 0, i=1,2, \cdots, N$ , 定义拉格朗日函数:

$\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i}$

其中, $\alpha=\left(\alpha_{1}, \alpha_{2}, \cdots, \alpha_{N}\right)^{\mathrm{T}}$ 为拉格朗日乘子向量。
根据拉格朗日对偶性, 原始问题的对偶问题是极大极小问题：

$\max _{\alpha} \min _{w, b} L(w, b, \alpha)$

为了得到对偶问题的解, 需要先求 $\alpha)$ 对 $w, b$ 的极小, 再求对 $\alpha$ 的极大。
(1) 求 $\min _{w, b} L(w, b, \alpha)$
将拉格朗日函数 $\alpha)$ 分别对 $w, b$ 求偏导数并令其等于 0 。

$\begin{aligned} &\nabla_{w} L(w, b, \alpha)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0 \\ &\nabla_{b} L(w, b, \alpha)=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \end{aligned}$

得

$w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}$

$\sum_{i=1}^{N} \alpha_{i} y_{i}=0$

将式 $w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_i$ 代入拉格朗日函数 $\alpha)=\frac{1}{2}\|w\|{2}-\sum_{i=1}{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i}$ , 并利用式 $\sum_{i=1}^{N} \alpha_{i} y_{i}=0$ , 即得

$\begin{aligned} L(w, b, \alpha) &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j}\right) \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i} \\ &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-b\sum_{i=1}^{N} \alpha_{i} y_{i}+\sum_{i=1}^{N} \alpha_{i} \\ &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-0+\sum_{i=1}^{N} \alpha_{i} \\ &=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \end{aligned}$

即

$\min _{w, b} L(w, b, \alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}$

(2) 求 $\min _{w, b} L(w, b, \alpha)$ 对 $\alpha$ 的极大, 即是对偶问题

$\begin{array}{ll} \max _{\alpha} & -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$

将式 $\begin{array}{ll}\max _{\alpha} & -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \\\text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\& \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}$ 的目标函数由求极大转换成求极小, 就得到下面与之等价的对偶最优化问题:

$\begin{array}{ll} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$

这个最优化问题可以求解出最优解 $\alpha^*$

设 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{l}^{*}\right)^{\mathrm{T}}$ 是对偶最优化问题 $\begin{array}{ll}\min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\\text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\& \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}$ 的解, 则
存在下标 $j$ , 使得 $\alpha_{j}^{*}>0$ , 并可按下式求得原始最优化问题 $\begin{array}{ll}\min _{w, b} & \frac{1}{2}\|w\|^{2} \\\text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N\end{array}$ 的解 $w^{*}, b^{*}$ :

$\begin{gathered} w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \\ b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right) \end{gathered}$

证明　KKT 条件成立, 即得

$\nabla_{w} L\left(w^{*}, b^{*}, \alpha^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$

$\begin{aligned} &\nabla_{b} L\left(w^{*}, b^{*}, \alpha^{*}\right)=-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}=0 \\ &\alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1\right)=0, \quad i=1,2, \cdots, N \\ &y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1 \geqslant 0, \quad i=1,2, \cdots, N \\ &\alpha_{i}^{*} \geqslant 0, \quad i=1,2, \cdots, N \end{aligned}$

由此得

$w^{*}=\sum_{i} \alpha_{i}^{*} y_{i} x_{i}$

其中至少有一个 $\alpha_{j}^{*}>0$ (用反证法, 假设 $\alpha^{*}=0$ , 由式 $\nabla_{w} L\left(w^{*}, b^{*}, \alpha^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$ 可知 $w^{*}=0$ , 而 $w^{*}=0$ 不是原始最优化问题 $\begin{array}{ll}\min _{w, b} & \frac{1}{2}\|w\|^{2} \\\text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N\end{array}$ 的解, 产生矛盾), 对此 $j$ 有

$y_{j}\left(w^{*} \cdot x_{j}+b^{*}\right)-1=0$

将式 $w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$ 代入式 $y_{j}\left(w^{*} \cdot x_{j}+b^{*}\right)-1=0$ 并注意到 $y_{j}^{2}=1$ , 即得

$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right)$

由此定理可知, 分离超平面可以写成

$\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}=0$

分类决策函数可以写成

$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right)$

线性可分支持向量机学习算法 输入：线性可分训练集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ , 其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n}$ ,
$y_{i} \in \mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N$
输出：分离超平面和分类决策函数。

构造并求解约束最优化问题
$\begin{array}{ll} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$

求得最优解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ 。
计算
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$

并选择 $\alpha^{*}$ 的一个正分量 $\alpha_{j}^{*}>0$ , 计算
$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right)$
求得分离超平面
$w^{*} \cdot x+b^{*}=0$

分类决策函数:
$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$

在线性可分支持向量机中, 由式 $w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$ 、式 $b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right)$ 可知, $w^{*}$ 和 $b^{*}$ 只依赖于训练数据中对应于 $\alpha_{i}^{*}>0$ 的样本点 $\left(x_{i}, y_{i}\right)$ , 而其他样本点对 $w^{*}$ 和 $b^{*}$ 没有影响。训练数据中对应于 $\alpha_{i}^{*}>0$ 的实例点 $x_{i} \in \mathbf{R}^{n}$ 称为支持向量。

支持向量
考虑原始最优化问题及对偶最优化问题, 将训练数据集中对应于 $\alpha_{i}^{*}>0$ 的样本点 $\left(x_{i}, y_{i}\right)$ 的实例 $x_{i} \in \mathbf{R}^{n}$ 称为支持向量。
根据这一定义, 支持向量一定在间隔边界上。由 KKT 互补条件可知，

$\alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1\right)=0, \quad i=1,2, \cdots, N$

对应于 $\alpha_{i}^{*}>0$ 的实例 $x_{i}$ , 有

$y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1=0$

或

$w^{*} \cdot x_{i}+b^{*}=\pm 1$

即 $x_{i}$ 一定在间隔边界上。这里的支持向量的定义与前面给出的支持向量的定义是一致的。
备注：在间隔边界上 $\alpha_i^*$ >0，表现为置信度高，所以叫支持向量。其余的实例点 $\alpha_i^*$ =0

7.2 线性支持向量机与软间隔最大化

7.2.1线性支持向量机

线性不可分问题
线性不可分意味着某些样本点 $\left(x_{i}, y_{i}\right)$ 不能满足函数间隔大于等于 1 的约束条件 $y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$ 。可以对每个样本点 $\left(x_{i}, y_{i}\right)$ 引进一个松弛变量 $\xi_{i} \geqslant 0$ , 使函数间隔加上松弛变量大于等于 1 。这样, 约束条件变为
$y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}$

同时, 对每个松弛变量 $\xi_{i}$ , 支付一个代价 $\xi_{i}$ 。目标函数由原来的 $\frac{1}{2}\|w\|^{2}$ 变成
$\frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$

$C > 0$ 称为惩罚参数, 一般由应用问题决定, $C$ 值大时对误分类的惩罚增大, $C$ 值小时对误分类的怤罚减小。最小化目标函数 $\frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$ 包含两层含义: 使 $\frac{1}{2}\|w\|^{2}$ 尽量小即间隔尽量大, 同时使误分类点的个数尽量小, $C$ 是调和二者的系数。
软间隔最大化：训练数据集线性不可分时的线性支持向量机学习问题。
线性不可分的线性支持向量机的学习问题变成如下凸二次规划 (convex quadratic programming ) 问题 (原始问题):
$\begin{array}{ll} \min _{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \\ & \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
线性支持向量机 对于给定的线性不可分的训练数据集, 通过求解凸二次规划问题, 即软间隔最大化问题, 得到的分离超平面为
$w^{*} \cdot x+b^{*}=0$

以及相应的分类决策函数
$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$

称为线性支持向量机。

7.2.2 学习的对偶算法

原始问题 $\begin{array}{ll}\min _{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i} \\\text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \\& \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}$ 的对偶问题是

$\begin{array}{ll} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \end{array}$

推导过程：

原始最优化问题的拉格朗日函数是

$\xi, \alpha, \mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}-\sum_{i=1}^{N} \alpha_{i}\left(y_{i}\left(w \cdot x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}$

其中, $\alpha_{i} \geqslant 0, \mu_{i} \geqslant 0$ 。
对偶问题是拉格朗日函数的极大极小问题。首先求 $\xi, \alpha, \mu)$ 对 $\xi$ 的极小, 由

$\begin{aligned} &\nabla_{w} L(w, b, \xi, \alpha, \mu)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0 \\ &\nabla_{b} L(w, b, \xi, \alpha, \mu)=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ &\nabla_{\xi_{1}} L(w, b, \xi, \alpha, \mu)=C-\alpha_{i}-\mu_{i}=0 \end{aligned}$

得

$w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}$

$\begin{gathered} \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ C-\alpha_{i}-\mu_{i}=0 \end{gathered}$

将上面三个式子代入式 $\xi, \alpha, \mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}-\sum_{i=1}^{N} \alpha_{i}\left(y_{i}\left(w \cdot x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}$ , 得

$\min _{w, b, \xi} L(w, b, \xi, \alpha, \mu)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}$

再对 $\min _{w, b, \xi} L(w, b, \xi, \alpha, \mu)$ 求 $\alpha$ 的极大, 即得对偶问题:

$\begin{array}{ll} \max _{\alpha} & -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & C-\alpha_{i}-\mu_{i}=0 \\ & \alpha_{i} \geqslant 0 \\ & \mu_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$

$C-\alpha_{i}-\mu_{i}=0=>C-\alpha_{i}=\mu_{i},∵\mu_{i} \geqslant 0 ，∴C-\alpha_{i}=\mu_{i} \geqslant 0 ,=>\alpha_{i} \leqslant C,又∵\alpha_{i} \geqslant 0，∴$

$\leqslant \alpha_{i} \leqslant C$

再将对目标函数求极大转换为求极小, 于是得到对偶问题 $\begin{array}{ll}\min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\\text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\& 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}$ 。可以通过求解对偶问题而得到原始问题的解, 进而确定分离超平面和决策函数。为此, 就可以定理的形式叙述原始问题的最优解和对偶问题的最优解的关系。

对目标函数求极大转换为求极小, 得到对偶问题。可以通过求解对偶问题而得到原始问题的解, 进而确定分离超平面和决策函数。
设 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ 是对偶问题 $\begin{array}{ll}\min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\\text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\& 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}$ 的一个解, 若存

在 $\alpha^{*}$ 的一个分量 $\alpha_{j}^{*}, 0<\alpha_{j}^{*}<C$ , 则原始问题 $\begin{array}{ll}\min _{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i} \\\text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \\& \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}$ 的解 $w^{*}, b^{*}$ 可按下式求得:

$\begin{gathered} w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \\ b^{*}=y_{j}-\sum_{i=1}^{N} y_{i} \alpha_{i}^{*}\left(x_{i} \cdot x_{j}\right) \end{gathered}$

证明　原始问题是凸二次规划问题, 解满足 KKT 条件。即得

$\nabla_{w} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$

$\begin{gathered} \nabla_{b} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}=0 \\ \nabla_{\xi} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=C-\alpha^{*}-\mu^{*}=0 \\ \alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1+\xi_{i}^{*}\right)=0 \\ \mu_{i}^{*} \xi_{i}^{*}=0 \end{gathered}$

$\begin{gathered} y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1+\xi_{i}^{*} \geqslant 0 \\ \xi_{i}^{*} \geqslant 0 \\ \alpha_{i}^{*} \geqslant 0 \\ \mu_{i}^{*} \geqslant 0, \quad i=1,2, \cdots, N \end{gathered}$

由式 $\nabla_{w} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$ 易知式 $w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$ 成立。再由式 $\alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1+\xi_{i}^{*}\right)=0 \\\mu_{i}^{*} \xi_{i}^{*}=0$ 可知, 若存在 $\alpha_{j}^{*}, 0<\alpha_{j}^{*}<$ $C$ , 则 $y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1=0$ 。 $y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1=0=>y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-y_j^2=0=>w^{*} \cdot x_{i}+b^{*}-y_j=0=>b^{*}=y_{j}-\sum_{i=1}^{N} y_{i} \alpha_{i}^{*}\left(x_{i} \cdot x_{j}\right)$
由此定理可知, 分离超平面可以写成

$\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}=0$

分类决策函数可以写成

$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right)$

线性支持向量机学习算法

输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ , 其中, $x_{i} \in \mathcal{X}=\mathbf{R}^{n}$ , $y_{i} \in \mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N ;$
输出：分离超平面和分类决策函数。

1、选择昰罚参数 $C > 0$ , 构造并求解凸二次规划问题

$\begin{array}{ll} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \end{array}$

求得最优解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ 。
2、计算. $w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$
选择 $\alpha^{*}$ 的一个分量 $\alpha_{j}^{*}$ 适合条件 $0<\alpha_{j}^{*}<C$ , 计算

$b^{*}=y_{j}-\sum_{i=1}^{N} y_{i} \alpha_{i}^{*}\left(x_{i} \cdot x_{j}\right)$

3、求得分离超平面

$w^{*} \cdot x+b^{*}=0$

分类决策函数:

$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$

7.2.3 支持向量

在线性不可分的情况下, 将对偶问题 $\begin{array}{ll}\min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\\text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\& 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}$ 的解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ 中对应于 $\alpha_{i}^{*}>0$ 的样本点 $\left(x_{i}, y_{i}\right)$ 的实例 $x_{i}$ 称为支持向量 (软间隔的支持向量)。
如下图所示, 这时的支持向量要比线性可分时的情况复杂一些。图中, 分离超平面由实线表示, 间隔边界由虛线表示, 正例点由“o"表示, 负例点由 “ $\times "$ 表示。图中还标出了实例 $x_{i}$ 到间隔边界的距离 $\frac{\xi_{i}}{\|w\|}$ 。
在这里插入图片描述

软间隔的支持向量 $x_{i}$ 或者在间隔边界上, 或者在间隔边界与分离超平面之间, 或者在分离超平面误分一侧。

若 $\alpha_{i}^{*}<C$ , 则 $\xi_{i}=0$ , 支持向量 $x_{i}$ 恰好落在间隔边界上;
若 $\alpha_{i}^{*}=C, 0<\xi_{i}<1$ , 则分类正确, $x_{i}$ 在间隔边界与分离超平面之间;
若 $\alpha_{i}^{*}=C, \xi_{i}=1$ , 则 $x_{i}$ 在分离超平面上;
若 $\alpha_{i}^{*}=C, \xi_{i}>1$ , 则 $x_{i}$ 位于分离超平面误分一侧。

1的推导，已知： $\alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1+\xi_{i}^{*}\right)=0 \\\mu_{i}^{*} \xi_{i}^{*}=0$ , $C-\alpha^{*}-\mu^{*}=0$ , $\alpha_{i}^{*}<C$ ； $C-\alpha^{*}=\mu^{*},∵\alpha_{i}^{*}<C，∴\mu^{*}\ne 0,∴\xi_{i}^{*}=0,∴y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1=0$
2、3、4同理

7.2.4 合页损失函数

线性支持向量机学习的另一种解释, 就是最小化以下目标函数:

$\sum_{i=1}^{N}\left[1-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}+\lambda\|w\|^{2}$

目标函数的第 1 项是经验损失或经验风险, 函数

$\cdot x+b))=[1-y(w \cdot x+b)]_{+}$

称为合页损失函数（hinge loss function）。下标 “ $+ "$ 表示以下取正值的函数。

$[z]_{+}= \begin{cases}z, & z>0 \\ 0, & z \leqslant 0\end{cases}$

当样本点 $\left(x_{i}, y_{i}\right)$ 被正确分类且函数间隔（确信度） $y_{i}\left(w \cdot x_{i}+b\right)$ 大于 1 时，损失是 0 ,
否则损失是 $1-y_{i}\left(w \cdot x_{i}+b\right)$ 。
目标函数的第 2 项是系数为 $\lambda$ 的 $w$ 的 $L_{2}$ 范数, 是正则化项。

合页损失函数图像
在这里插入图片描述

7.3 非线性支持向量机与核函数

7.3.1 核技巧

非线性分类问题

用线性分类方法求解非线性分类问题分为两步:
1. 首先使用一个变换将原空间的数据映射到新空间;
2. 在新空间里用线性分类学习方法从训练数据中学习分类模型。
  
  核技巧应用到支持向量机，其基本想法就是通过一个非线性变换将输入空间 (欧氏空间 $\mathbf{R}^{n}$ 或离散集合) 对应于一个特征空间 (希尔伯特空间 $\mathcal{H}$ )，使得在输入空间 $\mathbf{R}^{n}$ 中的超曲面模型对应于特征空间 $\mathcal{H}$ 中的超平面模型 (支持向量机）。这样, 分类问题的学习任务通过在特征空间中求解线性支持向量机就可以完成。
核函数的定义

核函数 设 $\mathcal{X}$ 是输入空间 (欧氏空间 $\mathbf{R}^{n}$ 的子集或离散集合 ), 又设 $\mathcal{H}$ 为特征空间 ( 希尔伯特空间 ), 如果存在一个从 $\mathcal{X}$ 到 $\mathcal{H}$ 的映射
$\phi(x): \mathcal{X} \rightarrow \mathcal{H}$

使得对所有 $\in \mathcal{X}$ , 函数 $K (x, z)$ 满足条件
$z)=\phi(x) \bullet \phi(z)$

则称 $K (x, z)$ 为核函数, $\phi(x)$ 为映射函数, 式中 $\phi(x) \cdot \phi(z)$ 为 $\phi(x)$ 和 $\phi(z)$ 的内积。核技巧的想法是, 在学习与预测中只定义核函数 $K (x, z)$ , 而不显式地定义映射函数 $\phi$ 。因为, 直接计算 $K (x, z)$ 比较容易, 而通过 $\phi(x)$ 和 $\phi(z)$ 计算 $K (x, z)$ 并不容易。

注意, $\phi$ 是输入空间 $\mathbf{R}^{n}$ 到特征空间 $\mathcal{H}$ 的映射, 特征空间 $\mathcal{H}$ 一般是高维的, 甚至是无穷维的。可以看到, 对于给定的核 $K (x, z)$ , 特征空间 $\mathcal{H}$ 和映射函数 $\phi$ 的取法并不唯一, 可以取不同的特征空间, 即便是在同一特征空间里也可以取不同的映射。
核技巧在支持向量机中的应用

在对偶问题的目标函数 $\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \bullet x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$ 中的内积 $x_{i} \bullet x_{j}$ 可以用核函数 $K\left(x_{i}, x_{j}\right)=\phi\left(x_{i}\right) \bullet \phi\left(x_{j}\right)$ 来代替。此时对偶问题的目标函数成为
$W(\alpha)=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$

同样, 分类决策函数中的内积也可以用核函数代替, 而分类决策函数式成为
$\begin{aligned} f(x) &=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{*} y_{i} \phi\left(x_{i}\right) \bullet \phi(x)+b^{*}\right) \\ &=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{*} y_{i} K\left(x_{i}, x\right)+b^{*}\right) \end{aligned}$

这等价于经过映射函数 $\phi$ 将原来的输入空间变换到一个新的特征空间, 将输入空间中的内积 $x_{i} \bullet x_{j}$ 变换为特征空间中的内积 $\phi\left(x_{i}\right) \bullet \phi\left(x_{j}\right)$ , 在新的特征空间里从训练样本中学习线性支持向量机。当映射函数是非线性函数时, 学习到的含有核函数的支持向量机是非线性分类模型。
- 在核函数 $K (x, z)$ 给定的条件下, 可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。
- 学习是隐式地在特征空间进行的, 不需要显式地定义特征空间和映射函数。这样的技巧称为核技巧, 它是巧妙地利用线性分类学习方法与核函数解决非线性问题的技术。
- 在实际应用中, 往往依赖领域知识直接选择核函数, 核函数选择的有效性需要通过实验验证。

7.3.2正定核

知识补充-半正定矩阵
给定一个大小施 $\times n$ 的实对称矩阵 $A$ , 若对于任意长度为 $n$ 的向量 $\boldsymbol{x}$ , 有 $\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0$ 恒成立，则矩阵 $A$ 是一个半正定矩阵。

推导正定核的充要条件。
通常所说的核函数就是正定核函数（positive definite kernel function）。

证明此定理的预备知识。
假设 $K (x, z)$ 是定义在 $\mathcal{X} \times \mathcal{X}$ 上的对称函数, 并且对任意的 $x_{1}, x_{2}, \cdots, x_{m} \in$ $\mathcal{X}, K(x, z)$ 关于 $x_{1}, x_{2}, \cdots, x_{m}$ 的 Gram 矩阵是半正定的。可以依据函数 $K (x, z)$ , 构成一个希尔伯特空间（Hilbert space）, 其步骤是：首先定义映射 $\phi$ 并构成向量空间 $\mathcal{S}$ ; 然后在 $\mathcal{S}$ 上定义内积构成内积空间; 最后将 $\mathcal{S}$ 完备化构成希尔伯特空间。

定义映射, 构成向量空间 $\mathcal{S}$
先定义映射
$\phi: x \rightarrow K(\bullet, x)$

根据这一映射, 对任意 $x_{i} \in \mathcal{X}, \alpha_{i} \in \mathbf{R}, i=1,2, \cdots, m$ , 定义线性组合
$f(\cdot)=\sum_{i=1}^{m} \alpha_{i} K\left(\bullet, x_{i}\right)$

考虑由线性组合为元素的集合 $\mathcal{S}$ 。由于集合 $\mathcal{S}$ 对加法和数乘运算是封闭的, 所以 $\mathcal{S}$ 构成一个向量空间.
在 $\mathcal{S}$ 上定义内积, 使其成为内积空间

内积空间就是定义了内积的线性空间。

在 $\mathcal{S}$ 上定义一个运算 $*$ : 对任意 $\in \mathcal{S}$ ,
$\begin{aligned} &f(\bullet)=\sum_{i=1}^{m} \alpha_{i} K\left(\bullet, x_{i}\right) \\ &g(\bullet)=\sum_{j=1}^{l} \beta_{j} K\left(\bullet, z_{j}\right) \end{aligned}$

定义运算 $*$
$g=\sum_{i=1}^{m} \sum_{j=1}^{l} \alpha_{i} \beta_{j} K\left(x_{i}, z_{j}\right)$

证明运算 $*$ 是空间 $\mathcal{S}$ 的内积。为此要证:
(1) $\in \mathbf{R}$
(2) $\in \mathcal{S}$
(3) $f * g = g * f$
(4) $\geqslant 0$ ,
$\Leftrightarrow f=0$

其中, $\sim(3)$ 由式 $f(\bullet)=\sum_{i=1}^{m} \alpha_{i} K\left(\bullet, x_{i}\right)$ 式 $g(\bullet)=\sum_{j=1}^{l} \beta_{j} K\left(\bullet, z_{j}\right)$ 及 $K (x, z)$ 的对称性容易得到(很显然)。

$K (x, z)$ 的对称性证明， $z)=\phi(x) \bullet \phi(z),K(z, x)=\phi(z) \bullet \phi(x),K(x, z)=K(z, x)$

现证 $(4)$ 之式 $\geqslant 0$ 。由式 $f(\bullet)=\sum_{i=1}^{m} \alpha_{i} K\left(\bullet, x_{i}\right)$ 及式 $g=\sum_{i=1}^{m} \sum_{j=1}^{l} \alpha_{i} \beta_{j} K\left(x_{i}, z_{j}\right)$ 可得:
$f=\sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} K\left(x_{i}, x_{j}\right)$

由 Gram 矩阵的半正定性知上式右端非负, 即 $\geqslant 0$ 。
再证 (4) 之式 $\Leftrightarrow f=0$ 。充分性显然。为证必要性(左推右), 首先证明不等式:
$g|^{2} \leqslant(f * f)(g * g)$

设 $\in \mathcal{S}, \lambda \in \mathbf{R}$ , 则 $f+\lambda g \in \mathcal{S}$ , 于是,
$\begin{gathered} (f+\lambda g) *(f+\lambda g) \geqslant 0 \\ f * f+2 \lambda(f * g)+\lambda^{2}(g * g) \geqslant 0 \end{gathered}$

其左端是 $\lambda$ 的二次三项式, 非负, 其判别式小于等于 0 , 即
$g)^{2}-(f * f)(g * g) \leqslant 0$

于是式 $g|^{2} \leqslant(f * f)(g * g)$ 得证。
现证若 $f * f = 0$ , 则 $f = 0$ 。事实上, 若
$f(\bullet)=\sum_{i=1}^{m} \alpha_{i} K\left(\bullet, x_{i}\right)$

则按运算 $*$ 的定义式 $g=\sum_{i=1}^{m} \sum_{j=1}^{l} \alpha_{i} \beta_{j} K\left(x_{i}, z_{j}\right)$ , 对任意的 $\in \mathcal{X}$ , 有
$K(\bullet, x) * f=\sum_{i=1}^{m} \alpha_{i} K\left(x, x_{i}\right)=f(x)$

于是,
$|f(x)|^{2}=|K(\bullet, x) * f|^{2}$

由式 $g|^{2} \leqslant(f * f)(g * g)$ 和式 $\geqslant 0$ 有
$\begin{aligned} |K(\bullet, x) * f|^{2} & \leqslant(K(\bullet, x) * K(\bullet, x))(f * f) \\ &=K(x, x)(f * f) \end{aligned}$

由式 $|f(x)|^{2}=|K(\bullet, x) * f|^{2}$ 有
$|f(x)|^{2} \leqslant K(x, x)(f * f)$

此式表明, 当 $f * f = 0$ 时, 对任意的 $x$ 都有 $∣ f (x) ∣ = 0$ 。
至此, 证明了 $*$ 为向量空间 $\mathcal{S}$ 的内积。赋予内积的向量空间为内积空间。因此 $\mathcal{S}$ 是一个内积空间。既然 $*$ 为 $\mathcal{S}$ 的内积运算, 那么仍然用 $\bullet$ 表示, 即若
$f(\bullet)=\sum_{i=1}^{m} \alpha_{i} K\left(\bullet, x_{i}\right), \quad g(\bullet)=\sum_{i=1}^{l} \beta_{j} K\left(\bullet, z_{j}\right)$

则
$\bullet g=\sum_{i=1}^{m} \sum_{j=1}^{l} \alpha_{i} \beta_{j} K\left(x_{i}, z_{j}\right)$
1. 将内积空间 $\mathcal{S}$ 完备化为希尔伯特空间
  现在将内积空间 $\mathcal{S}$ 完备化。由式 $\bullet g=\sum_{i=1}^{m} \sum_{j=1}^{l} \alpha_{i} \beta_{j} K\left(x_{i}, z_{j}\right)$ 定义的内积可以得到范数
  $\|f\|=\sqrt{f \bullet f}$
  
  因此, $\mathcal{S}$ 是一个赋范向量空间。根据泛函分析理论, 对于不完备的赋范向量空间 $\mathcal{S},-$ 定可以使之完备化, 得到完备的赋范向量空间 $\mathcal{H}$ 。一个内积空间, 当作为一个赋范向量空间是完备的时候, 就是希尔伯特空间。这样, 就得到了希尔伯特空间 $\mathcal{H}$ 。
  这一希尔伯特空间 $\mathcal{H}$ 称为再生核希尔伯特空间（reproducing kernel Hilbert space, RKHS）。这是由于核 $K$ 具有再生性, 即满足
  $K(\bullet, x) \bullet f=f(x)$
  
  及
  $K(\bullet, x) \bullet K(\bullet, z)=K(x, z)$
  
  称为再生核。
2. 正定核的充要条件
  正定核的充要条件 设 $\mathcal{X} \times \mathcal{X} \rightarrow \mathbf{R}$ 是对称函数, 则 $K (x, z)$ 为正定核函数的充要条件是对任意 $x_{i} \in \mathcal{X}, i=1,2, \cdots, m, K(x, z)$ 对应的 Gram 矩阵:
  $K=\left[K\left(x_{i}, x_{j}\right)\right]_{m \times m}$
  
  是半正定矩阵。
  
  证明必要性。由于 $K (x, z)$ 是 $\mathcal{X} \times \mathcal{X}$ 上的正定核, 所以存在从 $\mathcal{X}$ 到希尔伯特空间 $\mathcal{H}$ 的映射 $\phi$ , 使得
  
  $z)=\phi(x) \bullet\phi(z)$
  
  于是, 对任意 $x_{1}, x_{2}, \cdots, x_{m}$ , 构造 $K (x, z)$ 关于 $x_{1}, x_{2}, \cdots, x_{m}$ 的 Gram 矩阵
  
  $\left[K_{i j}\right]_{m \times m}=\left[K\left(x_{i}, x_{j}\right)\right]_{m \times m}$
  
  对任意 $c_{1}, c_{2}, \cdots, c_{m} \in \mathbf{R}$ , 有
  
  $\begin{aligned} \sum_{i, j=1}^{m} c_{i} c_{j} K\left(x_{i}, x_{j}\right) &=\sum_{i, j=1}^{m} c_{i} c_{j}\left(\phi\left(x_{i}\right) \bullet\phi\left(x_{j}\right)\right) \\ &=\left(\sum_{i} c_{i} \phi\left(x_{i}\right)\right) \bullet\left(\sum_{j} c_{j} \phi\left(x_{j}\right)\right) \\ &=\left\|\sum_{i} c_{i} \phi\left(x_{i}\right)\right\|^{2} \geqslant 0 \end{aligned}$
  
  表明 $K (x, z)$ 关于 $x_{1}, x_{2}, \cdots, x_{m}$ 的 Gram 矩阵是半正定的。
  充分性。已知对称函数 $K (x, z)$ 对任意 $x_{1}, x_{2}, \cdots, x_{m} \in \mathcal{X}, K(x, z)$ 关于 $x_{1}, x_{2}, \cdots, x_{m}$ 的 Gram 矩阵是半正定的。根据前面的结果, 对给定的 $K (x, z)$ , 可以构造从 $\mathcal{X}$ 到某个希尔伯特空间 $\mathcal{H}$ 的映射：
  
  $\phi: x \rightarrow K(\bullet, x)$
  
  而且
  
  $K(\bullet, x) \bullet f=f(x)$
  
  并且
  
  $K(\bullet, x) \bullet K(\bullet, z)=K(x, z)$
  
  由式 $\phi: x \rightarrow K(\bullet, x)$ 即得
  
  $z)=\phi(x) \bullet\phi(z)$
  
  表明 $K (x, z)$ 是 $\mathcal{X} \times \mathcal{X}$ 上的核函数。
  
  核函数另一定义:正定核的充要条件。
  正定核的等价定义 设 $\mathcal{X} \subset \mathbf{R}^{n}, K(x, z)$ 是定义在 $\mathcal{X} \times \mathcal{X}$ 上的对称函数, 如果对任意 $x_{i} \in \mathcal{X}, i=1,2, \cdots, m, K(x, z)$ 对应的 Gram 矩阵
  $K=\left[K\left(x_{i}, x_{j}\right)\right]_{m \times m}$
  
  是半正定矩阵, 则称 $K (x, z)$ 是正定核。
  
  这一定义在构造核函数时很有用。但对于一个具体函数 $K (x, z)$ 来说, 检验它是否为正定核函数并不容易, 因为要求对任意有限输入集 $\left\{x_{1}, x_{2}, \cdots, x_{m}\right\}$ 验证 $K$ 对应的 Gram 矩阵是否为半正定的。在实际问题中往往应用已有的核函数。另外, 由 Mercer 定理可以得到 Mercer 核 (Mercer kernel), 正定核比 Mercer 核更具一般性.

7.3.3 常用核函数

多项式核函数 (polynomial kernel function)
$\bullet z+1)^{p}$

对应的支持向量机是一个 $p$ 次多项式分类器。在此情形下, 分类决策函数成为
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{*} y_{i}\left(x_{i} \bullet x+1\right)^{p}+b^{*}\right)$
高斯核函数 (Gaussian kernel function)
$z)=\exp \left(-\frac{\|x-z\|^{2}}{2 \sigma^{2}}\right)$

对应的支持向量机是高斯径向基函数 (radial basis function) 分类器。在此情形下, 分类决策函数成为
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{*} y_{i} \exp \left(-\frac{\left\|x-x_{i}\right\|^{2}}{2 \sigma^{2}}\right)+b^{*}\right)$
字符串核函数 (string kernel function)
两个字符串 $s$ 和 $t$ 上的字符串核函数是基于映射 $\phi_{n}$ 的特征空间中的内积:
$\begin{aligned} k_{n}(s, t) &=\sum_{u \in \Sigma^{n}}\left[\phi_{n}(s)\right]_{u}\left[\phi_{n}(t)\right]_{u} \\ &=\sum_{u \in \Sigma^{n}} \sum_{(i, j): s(i)=t(j)=u} \lambda^{l(i)} \lambda^{l(j)} \end{aligned}$

字符串核函数 $k_{n}(s, t)$ 给出了字符串 $s$ 和 $t$ 中长度等于 $n$ 的所有子串组成的特征向量的余弦相似度 (cosine similarity）。直观上, 两个字符串相同的子串越多, 它们就越相似, 字符串核函数的值就越大。字符串核函数可以由动态规划快速地计算。

7.3.4 非线性支持向量分类机

非线性支持向量机学习算法 输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ , 其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n}, y_{i} \in$ $\mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N$
输出: 分类决策函数。

选取适当的核函数 $K (x, z)$ 和适当的参数 $C$ , 构造并求解最优化问题
$\begin{array}{ll} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \end{array}$

求得最优解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ 。
选择 $\alpha^{*}$ 的一个正分量 $0<\alpha_{j}^{*}<C$ , 计算

$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K\left(x_{i}, x_{j}\right)$
构造决策函数:
$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K\left(x, x_{i}\right)+b^{*}\right)$

当 $K (x, z)$ 是正定核函数时, 问题 $\begin{array}{ll}\min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\\text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\& 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}$ 是凸二次规划问题, 解是存在的。

7.4 序列最小最优化算法

高效的实现支持向量机的学习—序列最小最优化(sequential minimal optimization, SMO )算法
SMO 算法要解如下凸二次规划的对偶问题:

$\begin{array}{ll} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \end{array}$

在这个问题中, 变量是拉格朗日乘子, 一个变量 $\alpha_{i}$ 对应于一个样本点 $\left(x_{i}, y_{i}\right)$ ; 变量的总数等于训练样本容量 $N$ 。

SMO 算法是一种启发式算法, 其基本思路是: 如果所有变量的解都满足此最优化问题的KKT条件 (Karush-Kuhn-Tucker conditions)，那么这个最优化问题的解就得到了。因为 KKT 条件是该最优化问题的充分必要条件。否则, 选择两个变量, 固定其他变量, 针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解, 因为这会使得原始二次规划问题的目标函数值变得更小。重要的是, 这时子问题可以通过解析方法求解, 这样就可以大大提高整个算法的计算速度。子问题有两个变量, 一个是违反 KKT 条件最严重的那一个, 另一个由约束条件自动确定。如此, SMO 算法将原问题不断分解为子问题并对子问题求解, 进而达到求解原问题的目的。注意, 子问题的两个变量中只有一个是自由变量。假设 $\alpha_{1}, \alpha_{2}$ 为两个变量, $\alpha_{3}, \alpha_{4}, \cdots, \alpha_{N}$ 固定, 那么由等式约束 $\sum_{i=1}^{N} \alpha_{i} y_{i}=0$ 可知

$\alpha_{1}=-y_{1} \sum_{i=2}^{N} \alpha_{i} y_{i}$

推导过程 $\alpha_{1}y_1=- \sum_{i=2}^{N} \alpha_{i} y_{i},\alpha_{1}y_1y_1=- y_1\sum_{i=2}^{N} \alpha_{i} y_{i},∵y_1y_1=1,∴\alpha_{1}=-y_{1} \sum_{i=2}^{N} \alpha_{i} y_{i}$

如果 $\alpha_{2}$ 确定, 那么 $\alpha_{1}$ 也随之确定。所以子问题中同时更新两个变量。
整个SMO 算法包括两个部分: 求解两个变量二次规划的解析方法和选择变量的启发式方法。

7.4.1 两个变量二次规划的求解方法

选择两个变量，其它变量固定
SMO将对偶问题转化成一系列子问题：

$\begin{aligned} \min _{\alpha_{1}, \alpha_{2}} & \frac{W\left(\alpha_{1}, \alpha_{2}\right)}{2}=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\ &-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 1}+y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 2} \\ \text { s.t. } & \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta \\ & 0 \leq \alpha_{i} \leq C, i=1,2 \end{aligned}$

根据约束条件, $\alpha_{2}$ 可以表示成 $\alpha_{1}$ 的函数
优化问题可以有解析解
基于初始可行解 $\alpha_{1}^{\text {old }} \alpha_{2}^{\text {old }}$ , 可以得到 $\alpha_{1}^{\text {new }} \alpha_{2}^{\text {new }}$

$\begin{array}{rl} \min _{\alpha_{1}, \alpha_{2}} & W\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\ & -\left(\alpha_{1}+\alpha_{2}\right)+y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 1}+y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 2} \\ \text { s.t. } & \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta \\ & 0 \leq \alpha_{i} \leq C, i=1,2 \end{array}$

两个变量,约束条件用二维空间中的图形表示
根据不等式条件 $\alpha_{2}^{n e w}$ 的取值范围：
$\begin{gathered} L \leq \alpha_{2}^{\text {new }} \leq H \\ L=\max \left(0, \alpha_{2}^{\text {old }}-\alpha_{1}^{\text {old }}\right) \quad H=\min \left(C, C+\alpha_{2}^{\text {old }}-\alpha_{1}^{\text {old }}\right) \end{gathered}$

$∵\alpha_1 \in [0,C]\\∴k-\alpha_1 \in [k,k-C]\\\alpha_2 \in [k,k-C]\\\left.\begin{matrix} \alpha_2 \in [\alpha_1+\alpha_2,\alpha_1+\alpha_2-C] \\ \alpha_2 \in [0,C] \end{matrix}\right\}\Rightarrow L=\max \left(0, \alpha_{2}^{\text {old }}-\alpha_{1}^{\text {old }}\right) \quad H=\min \left(C, C+\alpha_{2}^{\text {old }}-\alpha_{1}^{\text {old }}\right)$
同理，如果 $y_1=y_2$ ,则 $L=\max \left(0, \alpha_{2}^{\text {old }}+\alpha_{1}^{\text {old }}-C\right), \quad H=\min \left(C, \alpha_{2}^{\text {old }}+\alpha_{1}^{\text {old }}\right)$
求解过程：先求沿着约束方向未经剪辑时的 $\alpha_{2}^{\text {new }, u n}$ 再求剪辑后的 $\alpha_{2}^{\text {new }}$
记： $g(x)=\sum_{i=1}^{N} \alpha_{i} y_{i} K\left(x_{i}, x\right)+b$
$\text { 令： } \quad E_{i}=g\left(x_{i}\right)-y_{i}=\left(\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{j}, x_{i}\right)+b\right)-y_{i}, \quad i=1,2$

$E$ 为输入 $x$ 的预测值和真实输出 $y$ 的差， $i = 1, 2$
引进记号
$v_{i}=\sum_{j=3}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)=g\left(x_{i}\right)-\sum_{j=1}^{2} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)-b, i=1,2$

目标函数可写成
$\begin{aligned} W\left(\alpha_{1}, \alpha_{2}\right)=& \frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2}-\\ &\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2} \end{aligned}$

由 $\alpha_{1} y_{1}=\varsigma-\alpha_{2} y_{2}$ 及 $y_{i}^{2}=1$ , 可将 $\alpha_{1}$ 表示为
$\alpha_{1}=\left(\varsigma-y_{2} \alpha_{2}\right) y_{1}$

代入式 $\begin{aligned} W\left(\alpha_{1}, \alpha_{2}\right)=& \frac{1}{2} K_{11} \alpha_{1}{2}+\frac{1}{2} K_{22} \alpha_{2}{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2}-\\ &\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2} \end{aligned}$ , 得到只是 $\alpha_{2}$ 的函数的目标函数:
$\begin{aligned} W\left(\alpha_{2}\right)=& \frac{1}{2} K_{11}\left(\varsigma-\alpha_{2} y_{2}\right)^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{2} K_{12}\left(\varsigma-\alpha_{2} y_{2}\right) \alpha_{2}-\\ &\left(\varsigma-\alpha_{2} y_{2}\right) y_{1}-\alpha_{2}+v_{1}\left(\varsigma-\alpha_{2} y_{2}\right)+y_{2} v_{2} \alpha_{2} \end{aligned}$

对 $\alpha_{2}$ 求导数
$\begin{aligned} \frac{\partial W}{\partial \alpha_{2}}=& K_{11} \alpha_{2}+K_{22} \alpha_{2}-2 K_{12} \alpha_{2}-\\ & K_{11} \varsigma y_{2}+K_{12} \varsigma y_{2}+y_{1} y_{2}-1-v_{1} y_{2}+y_{2} v_{2} \end{aligned}$

令其为 0 , 得到
$\begin{aligned} \left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}=& y_{2}\left(y_{2}-y_{1}+\varsigma K_{11}-\varsigma K_{12}+v_{1}-v_{2}\right) \\ =& y_{2}\left[y_{2}-y_{1}+\varsigma K_{11}-\varsigma K_{12}+\left(g\left(x_{1}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{1 j}-b\right)-\right.\\ &\left.\left(g\left(x_{2}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{2 j}-b\right)\right] \end{aligned}$

将 $\varsigma=\alpha_{1}^{\text {old }} y_{1}+\alpha_{2}^{\text {old }} y_{2}$ 代入, 得到
$\begin{aligned} \left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text {new }, \text { unc }} &=y_{2}\left(\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text {old }} y_{2}+y_{2}-y_{1}+g\left(x_{1}\right)-g\left(x_{2}\right)\right) \\ &=\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text {old }}+y_{2}\left(E_{1}-E_{2}\right) \end{aligned}$

将 $\eta=K_{11}+K_{22}-2 K_{12}$ 代入, 于是得到
$\alpha_{2}^{\text {new,unc }}=\alpha_{2}^{\text {old }}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta}$

得到：
最优化子问题沿约束方向未经前辑的解：
$\begin{gathered} \alpha_{2}^{n e w, u n c}=\alpha_{2}^{o l d}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta} \\ \eta=K_{11}+K_{22}-2 K_{12}=\left\|\Phi\left(x_{1}\right)-\Phi\left(x_{2}\right)\right\|^{2} \end{gathered}$

$\begin{array}{r}\text { 剪辑后的解 } \\ \alpha_{2}^{n e w}\end{array}=\left\{\begin{array}{rr}H, & \alpha_{2}^{n e w, u n c}>H \\ \alpha_{2}^{n e w, u n c}, & L \leq \alpha_{2}^{n e w, u n c} \leq H \\ L, & \alpha_{2}^{n e w, u n c}<L\end{array}\right.$
得到 $\alpha_{1}$ 的解 $\quad \alpha_{1}^{n e w}=\alpha_{1}^{\text {old }}+y_{1} y_{2}\left(\alpha_{2}^{\text {old }}-\alpha_{2}^{\text {new }}\right)$
计算阈值 $b$ 和差值 $E_{i}$
在每次完成两个变量的优化后, 都要重新计算阈值 $b$ 。当 $0<\alpha_{1}^{\text {new }}<C$ 时, 由 KKT 条件 $0<\alpha_{i}<C \Leftrightarrow y_{i} g\left(x_{i}\right)=1$ 可知:
$\sum_{i=1}^{N} \alpha_{i} y_{i} K_{i 1}+b=y_{1}$

于是,
$b_{1}^{\text {new }}=y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}-\alpha_{1}^{\text {new }} y_{1} K_{11}-\alpha_{2}^{\text {new }} y_{2} K_{21}$

由 $E_{1}$ 的定义式 $E_{i}=g\left(x_{i}\right)-y_{i}=\left(\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{j}, x_{i}\right)+b\right)-y_{i}, \quad i=1,2$ 有
$E_{1}=\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}+\alpha_{1}^{\text {old }} y_{1} K_{11}+\alpha_{2}^{\text {old }} y_{2} K_{21}+b^{\text {old }}-y_{1}$

式 $b_{1}^{\text {new }}=y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}-\alpha_{1}^{\text {new }} y_{1} K_{11}-\alpha_{2}^{\text {new }} y_{2} K_{21}$ 的前两项可写成:
$y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}=-E_{1}+\alpha_{1}^{\text {old }} y_{1} K_{11}+\alpha_{2}^{\text {old }} y_{2} K_{21}+b^{\text {old }}$

代入式 $b_{1}^{\text {new }}=y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}-\alpha_{1}^{\text {new }} y_{1} K_{11}-\alpha_{2}^{\text {new }} y_{2} K_{21}$ , 可得
$b_{1}^{\text {new }}=-E_{1}-y_{1} K_{11}\left(\alpha_{1}^{\text {new }}-\alpha_{1}^{\text {old }}\right)-y_{2} K_{21}\left(\alpha_{2}^{\text {new }}-\alpha_{2}^{\text {old }}\right)+b^{\text {old }}$

同样, 如果 $0<\alpha_{2}^{\text {new }}<C$ , 那么,
$b_{2}^{\text {new }}=-E_{2}-y_{1} K_{12}\left(\alpha_{1}^{\text {new }}-\alpha_{1}^{\text {old }}\right)-y_{2} K_{22}\left(\alpha_{2}^{\text {new }}-\alpha_{2}^{\text {old }}\right)+b^{\text {old }}$

如果 $\alpha_{1}^{\text {new }}, \alpha_{2}^{\text {new }}$ 同时满足条件 $0<\alpha_{i}^{\text {new }}<C, i=1,2$ , 那么 $b_{1}^{\text {new }}=b_{2}^{\text {new }}$ 。如果 $\alpha_{1}^{\text {new }}, \alpha_{2}^{\text {new }}$ 是 0 或者 $C$ , 那么 $b_{1}^{\text {new }}$ 和 $b_{2}^{\text {new }}$ 以及它们之间的数都是符合 KKT 条件的阈值, 这时选择它们的中点作为 $b^{\text {new }}$ 。
在每次完成两个变量的优化之后, 还必须更新对应的 $E_{i}$ 值, 并将它们保存在列表中。 $E_{i}$ 值的更新要用到 $b^{\text {new }}$ 值, 以及所有支持向量对应的 $\alpha_{j}$ :
$E_{i}^{\text {new }}=\sum_{S} y_{j} \alpha_{j} K\left(x_{i}, x_{j}\right)+b^{\text {new }}-y_{i}$

其中, $S$ 是所有支持向量 $x_{j}$ 的集合。

7.4.2 变量的选择方法

SMO算法在每个子问题中选择两个变量优化, 其中至少一个变量是违反KKT条件的

第一个变量的选择：外循环

违反KKT最严重的样本点，
检验样本点是否满足KKT条件：

$\begin{aligned} &\alpha_{i}=0 \leftrightarrow y_{i} g\left(x_{i}\right) \geq 1 \\ &0<\alpha_{i}<C \leftrightarrow y_{i} g\left(x_{i}\right) \leq 1 \\ &\alpha_{i}=C \leftrightarrow y_{i} g\left(x_{i}\right) \leq 1 \\ &g\left(x_{i}\right)=\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)+b \end{aligned}$

2、第二个变量的检查：内循环，

选择的标准是希望能使目标函数有足够大的变化
- 即对应 $\left|E_{1}-E_{2}\right|$ 最大，即 $E_{1}, E_{2}$ 的符号相反, 差异最大
如果内循环通过上述方法找到的点不能使目标函数有足够的下降
则：遍历间隔边界上的样本点, 测试目标函数下降
- 如果下降不大, 则遍历所有样本点
- 如果依然下降不大，则丢弃外循环点，重新选择

SMO 算法
输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ , 其中, $x_{i} \in \mathcal{X}=\mathbf{R}^{n}$ ,
$y_{i} \in \mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N$ , 精度 $\varepsilon ;$
输出: 近似解 $\hat{\alpha}_{\circ}$
1、取初值 $\alpha^{(0)}=0$ , 令 $k = 0$ ;
2、选取优化变量 $\alpha_{1}^{(k)}, \alpha_{2}^{(k)}$ , 解析求解两个变量的最优化问题 $\begin{array}{rl}\min _{\alpha_{1}, \alpha_{2}} & W\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\& -\left(\alpha_{1}+\alpha_{2}\right)+y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 1}+y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 2} \\\text { s.t. } & \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta \\& 0 \leq \alpha_{i} \leq C, i=1,2\end{array}$ , 求得最优解 $\alpha_{1}^{(k+1)}, \alpha_{2}^{(k+1)}$ , 更新 $\alpha$ 为 $\alpha^{(k+1)}$ ;
3、若在精度 $\varepsilon$ 范围内满足停机条件

$\begin{aligned} &\sum_{i=1}^{N} \alpha_{i} y_{i}=0, \quad 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \\ &y_{i} \cdot g\left(x_{i}\right) \begin{cases}\geqslant 1, & \left\{x_{i} \mid \alpha_{i}=0\right\} \\ =1, & \left\{x_{i} \mid 0<\alpha_{i}<C\right\} \\ \leqslant 1, & \left\{x_{i} \mid \alpha_{i}=C\right\}\end{cases} \end{aligned}$