【统计学习方法】第7章支持向量机

最新推荐文章于 2022-05-23 23:18:20 发布

gkm0120

最新推荐文章于 2022-05-23 23:18:20 发布

阅读量214

点赞数 1

分类专栏：统计学习方法文章标签：支持向量机硬间隔软间隔核函数序列最小化优化算法

本文链接：https://blog.csdn.net/weixin_45839039/article/details/113361129

版权

统计学习方法专栏收录该内容

11 篇文章 2 订阅

订阅专栏

支持向量机（support vector machines，SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

1、线性可分支持向量机与硬间隔最大化

线性可分支持向量机

假设给定一个特征空间上的训练数据集 $\begin{aligned} & T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{aligned}$

其中， $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ， $x_{i}$ 为第 $i$ 个特征向量（实例）， $y_{i}$ 为第 $x_{i}$ 的类标记，当 $y_{i}=+1$ 时，称 $x_{i}$ 为正例；当 $y_{i}= -1$ 时，称 $x_{i}$ 为负例， $\left( x_{i}, y_{i} \right)$ 称为样本点。

分离超平面对应于方程 $w . x + b = 0$ ，它由法向量 $w$ 和截距 $b$ 决定，可用 $(w, b)$ 来表示。

线性可分支持向量机（硬间隔支持向量机）：给定线性可分训练数据集，通过间隔最大化或等价地求解相应地凸二次规划问题学习得到分离超平面为 $\begin{aligned} & w^{*} \cdot x + b^{*} = 0 \end{aligned}$

以及相应的分类决策函数 $\begin{aligned} & f \left( x \right) = sign \left( w^{*} \cdot x + b^{*} \right) \end{aligned}$

称为线型可分支持向量机。

函数间隔和几何间隔

对于给定的训练数据集T和超平面 $(w, b)$ ，定义超平面 $\left( w, b \right)$ 关于样本点 $\left( x_{i}, y_{i} \right)$ 的函数间隔为 $\begin{aligned} & \hat \gamma_{i} = y_{i} \left( w \cdot x_{i} + b \right) \end{aligned}$

超平面 $\left( w, b \right)$ 关于训练集 $T$ 的函数间隔 $\begin{aligned} & \hat \gamma = \min_{i = 1, 2, \cdots, N} \hat \gamma_{i} \end{aligned}$

即超平面 $\left( w, b \right)$ 关于训练集 $T$ 中所有样本点 $\left( x_{i}, y_{i} \right)$ 的函数间隔的最小值。

超平面 $\left( w, b \right)$ 关于样本点 $\left( x_{i}, y_{i} \right)$ 的几何间隔为 $\begin{aligned} & \gamma_{i} = y_{i} \left( \dfrac{w}{\| w \|} \cdot x_{i} + \dfrac{b}{\| w \|} \right) \end{aligned}$

超平面 $\left( w, b \right)$ 关于训练集 $T$ 的几何间隔 $\begin{aligned} & \gamma = \min_{i = 1, 2, \cdots, N} \gamma_{i} \end{aligned}$

即超平面 $\left( w, b \right)$ 关于训练集 $T$ 中所有样本点 $\left( x_{i}, y_{i} \right)$ 的几何间隔的最小值。

函数间隔和几何间隔的关系 $\begin{aligned} & \gamma_{i} = \dfrac{\hat \gamma_{i}}{\| w \|} \\& \gamma = \dfrac{\hat \gamma}{\| w \|} \end{aligned}$

间隔最大化

最大间隔分离超平面等价为求解 $\begin{aligned} & \max_{w,b} \quad \gamma \\ & s.t. \quad y_{i} \left( \dfrac{w}{\| w \|} \cdot x_{i} + \dfrac{b}{\| w \|} \right) \geq \gamma, \quad i=1,2, \cdots, N \end{aligned}$

等价的 $\begin{aligned} & \max_{w,b} \quad \dfrac{\hat \gamma}{\| w \|} \\ & s.t. \quad y_{i} \left( w \cdot x_{i} + b \right) \geq \hat \gamma, \quad i=1,2, \cdots, N \end{aligned}$

取 $\hat \gamma = 1$ ，将其入上面的最优化问题，注意到最大化 $\dfrac{1}{\| w \|}$ 和最小化 $\dfrac{1}{2} \| w \|^{2}$ 是等价的，

等价的 $\begin{aligned} & \min_{w,b} \quad \dfrac{1}{2} \| w \|^{2} \\ & s.t. \quad y_{i} \left( w \cdot x_{i} + b \right) -1 \geq 0, \quad i=1,2, \cdots, N \end{aligned}$

线性可分支持向量机学习算法（最大间隔法）：

输入：线性可分训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$
输出：最大间隔分离超平面和分类决策函数

构建并求解约束最优化问题 $\begin{aligned} \\ & \min_{w,b} \quad \dfrac{1}{2} \| w \|^{2} \\ & s.t. \quad y_{i} \left( w \cdot x_{i} + b \right) -1 \geq 0, \quad i=1,2, \cdots, N \end{aligned}$
求得最优解 $w^{*}, b^{*}$ 。
得到分离超平面 $\begin{aligned} & w^{*} \cdot x + b^{*} = 0 \end{aligned}$

以及分类决策函数
$\begin{aligned} & f \left( x \right) = sign \left( w^{*} \cdot x + b^{*} \right) \end{aligned}$

支持向量和间隔边界

（硬间隔）支持向量：训练数据集的样本点中与分离超平面距离最近的样本点的实例，即使约束条件等号成立的样本点 $\begin{aligned} & y_{i} \left( w \cdot x_{i} + b \right) -1 = 0 \end{aligned}$

在这里插入图片描述

对 $y_{i} = +1$ 的正例点，支持向量在超平面
$\begin{aligned} & H_{1}:w \cdot x + b = 1 \end{aligned}$

对 $y_{i} = -1$ 的正例点，支持向量在超平面
$\begin{aligned} & H_{1}:w \cdot x + b = -1 \end{aligned}$

$H_{1}$ 和 $H_{2}$ 称为间隔边界， $H_{1}$ 和 $H_{2}$ 上的点就是支持向量。

$H_{1}$ 和 $H_{2}$ 之间的距离称为间隔，且 $|H_{1}H_{2}| = \dfrac{1}{\| w \|} + \dfrac{1}{\| w \|} = \dfrac{2}{\| w \|}$ 。

2、线性支持向量机与软间隔最大化

线性支持向量机

线性支持向量机（软间隔支持向量机）：给定线性不可分训练数据集，通过求解凸二次规划问题
$\begin{aligned} & \min_{w,b,\xi} \quad \dfrac{1}{2} \| w \|^{2} + C \sum_{i=1}^{N} \xi_{i} \\ & s.t. \quad y_{i} \left( w \cdot x_{i} + b \right) \geq 1 - \xi_{i} \\ & \xi_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$

学习得到分离超平面为 $\begin{aligned} & w^{*} \cdot x + b^{*} = 0 \end{aligned}$

以及相应的分类决策函数 $\begin{aligned} & f \left( x \right) = sign \left( w^{*} \cdot x + b^{*} \right) \end{aligned}$

称为线型支持向量机。

最优化问题的求解：

引入拉格朗日乘子 $\alpha_{i} \geq 0, i = 1, 2, \cdots, N$ 构建拉格朗日函数 $\begin{aligned} & L \left( w, b, \alpha \right) = \dfrac{1}{2} \| w \|^{2} + \sum_{i=1}^{N} \alpha_{i} \left[- y_{i} \left( w \cdot x_{i} + b \right) + 1 \right] \\ & = \dfrac{1}{2} \| w \|^{2} - \sum_{i=1}^{N} \alpha_{i} y_{i} \left( w \cdot x_{i} + b \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$
其中， $\alpha = \left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{N} \right)^{T}$ 为拉格朗日乘子向量。
求 $\min_{w,b}L \left( w, b, \alpha \right)$ : $\begin{aligned} & \nabla _{w} L \left( w, b, \alpha \right) = w - \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} = 0 \\ & \nabla _{b} L \left( w, b, \alpha \right) = -\sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \end{aligned}$

得
$\begin{aligned} & w ＝ \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ & \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \end{aligned}$

代入拉格朗日函数，得 $\begin{aligned} \\ & L \left( w, b, \alpha \right) = \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} y_{i} \left[ \left( \sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \right) \cdot x_{i} + b \right] + \sum_{i=1}^{N} \alpha_{i} \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} y_{i} b + \sum_{i=1}^{N} \alpha_{i} \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$
即 $\begin{aligned} \\ & \min_{w,b}L \left( w, b, \alpha \right) = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$
求 $\max_{\alpha} \min_{w,b}L \left( w, b, \alpha \right)$ : $\begin{aligned} \\ & \max_{\alpha} - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \alpha_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$
等价的 $\begin{aligned} \\ & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \alpha_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$

线性可分支持向量机（硬间隔支持向量机）学习算法：

输入：线性可分训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$
输出：最大间隔分离超平面和分类决策函数

构建并求解约束最优化问题 $\begin{aligned} & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \alpha_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$

求得最优解 $\alpha^{*} = \left( \alpha_{1}^{*}, \alpha_{1}^{*}, \cdots, \alpha_{N}^{*} \right)$
计算 $\begin{aligned} & w^{*} = \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \end{aligned}$

并选择 $\alpha^{*}$ 的一个正分量 $\alpha_{j}^{*} \gt 0$ ，计算 $\begin{aligned} & b^{*} = y_{j} - \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} \left( x_{i} \cdot x_{j} \right) \end{aligned}$
得到分离超平面 $\begin{aligned} & w^{*} \cdot x + b^{*} = 0 \end{aligned}$

以及分类决策函数
$\begin{aligned} & f \left( x \right) = sign \left( w^{*} \cdot x + b^{*} \right) \end{aligned}$

最优化问题的求解：

引入拉格朗日乘子 $\alpha_{i} \geq 0, \mu_{i} \geq 0, i = 1, 2, \cdots, N$ 构建拉格朗日函数 $\begin{aligned} & L \left( w, b, \xi, \alpha, \mu \right) = \dfrac{1}{2} \| w \|^{2} + C \sum_{i=1}^{N} \xi_{i} + \sum_{i=1}^{N} \alpha_{i} \left[- y_{i} \left( w \cdot x_{i} + b \right) + 1 - \xi_{i} \right] + \sum_{i=1}^{N} \mu_{i} \left( -\xi_{i} \right) \\ & = \dfrac{1}{2} \| w \|^{2} + C \sum_{i=1}^{N} \xi_{i} - \sum_{i=1}^{N} \alpha_{i} \left[ y_{i} \left( w \cdot x_{i} + b \right) -1 + \xi_{i} \right] - \sum_{i=1}^{N} \mu_{i} \xi_{i} \end{aligned}$

其中， $\alpha = \left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{N} \right)^{T}$ 以及 $\mu = \left( \mu_{1}, \mu_{2}, \cdots, \mu_{N} \right)^{T}$ 为拉格朗日乘子向量。
求 $\min_{w,b}L \left( w, b, \xi, \alpha, \mu \right)$ : $\begin{aligned} & \nabla_{w} L \left( w, b, \xi, \alpha, \mu \right) = w - \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} = 0 \\ & \nabla_{b} L \left( w, b, \xi, \alpha, \mu \right) = -\sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & \nabla_{\xi_{i}} L \left( w, b, \xi, \alpha, \mu \right) = C - \alpha_{i} - \mu_{i} = 0 \end{aligned}$

得
$\begin{aligned} & w ＝ \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ & \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & C - \alpha_{i} - \mu_{i} = 0\end{aligned}$

代入拉格朗日函数，得 $\begin{aligned} & L \left( w, b, \xi, \alpha, \mu \right) = \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + C \sum_{i=1}^{N} \xi_{i} - \sum_{i=1}^{N} \alpha_{i} y_{i} \left[ \left( \sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \right) \cdot x_{i} + b \right] \\ & \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad + \sum_{i=1}^{N} \alpha_{i} - \sum_{i=1}^{N} \alpha_{i} \xi_{i} - \sum_{i}^{N} \mu_{i} \xi_{i} \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} y_{i} b + \sum_{i=1}^{N} \alpha_{i} + \sum_{i=1}^{N} \xi_{i} \left( C - \alpha_{i} - \mu_{i} \right) \\ & = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$

即 $\begin{aligned} & \min_{w,b,\xi}L \left( w, b, \xi, \alpha, \mu \right) = - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \end{aligned}$
求 $\max_{\alpha} \min_{w,b, \xi}L \left( w, b, \xi, \alpha, \mu \right)$ : $\begin{aligned} & \max_{\alpha} - \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) + \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & C - \alpha_{i} - \mu_{i} = 0 \\ & \alpha_{i} \geq 0 \\ & \mu_{i} \geq 0, \quad i=1,2, \cdots, N \end{aligned}$

等价的 $\begin{aligned} & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2, \cdots, N \end{aligned}$

线性支持向量机（软间隔支持向量机）学习算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$
输出：最大间隔分离超平面和分类决策函数

选择惩罚参数 $\geq 0$ ，构建并求解约束最优化问题 $\begin{aligned} & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} \left( x_{i} \cdot x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2, \cdots, N \end{aligned}$

求得最优解 $\alpha^{*} = \left( \alpha_{1}^{*}, \alpha_{1}^{*}, \cdots, \alpha_{N}^{*} \right)$
计算 $\begin{aligned} & w^{*} = \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \end{aligned}$

并选择 $\alpha^{*}$ 的一个分量 $\lt \alpha_{j}^{*} \lt C$ ，计算 $\begin{aligned} & b^{*} = y_{j} - \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} \left( x_{i} \cdot x_{j} \right) \end{aligned}$
得到分离超平面 $\begin{aligned} & w^{*} \cdot x + b^{*} = 0 \end{aligned}$

以及分类决策函数
$\begin{aligned} & f \left( x \right) = sign \left( w^{*} \cdot x + b^{*} \right) \end{aligned}$

支持向量

（软间隔）支持向量：线性不可分情况下，最优化问题的解 $\alpha^{*} = \left( \alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*} \right)^{T}$ 中对应于 $\alpha_{i}^{*} \gt 0$ 的样本点 $\left( x_{i}, y_{i} \right)$ 的实例 $x_{i}$ 。

在这里插入图片描述

实例 $x_{i}$ 的几何间隔 $\begin{aligned} & \gamma_{i} = \dfrac{y_{i} \left( w \cdot x_{i} + b \right)}{ \| w \|} = \dfrac{| 1 - \xi_{i} |}{\| w \|} \end{aligned}$

且 $\dfrac{1}{2} | H_{1}H_{2} | = \dfrac{1}{\| w \|}$

则实例 $x_{i}$ 到间隔边界的距离 $\begin{aligned} & \left| \gamma_{i} - \dfrac{1}{\| w \|} \right| = \left| \dfrac{| 1 - \xi_{i} |}{\| w \|} - \dfrac{1}{\| w \|} \right| = \dfrac{\xi_{i}}{\| w \|}\end{aligned}$

$\begin{aligned} \xi_{i} \geq 0 \Leftrightarrow \left\{ \begin{aligned} \ & \xi_{i}=0, x_{i}在间隔边界上; \\ & 0 \lt \xi_{i} \lt 1, x_{i}在间隔边界与分离超平面之间; \\ & \xi_{i}=1, x_{i}在分离超平面上; \\ & \xi_{i}\gt1, x_{i}在分离超平面误分类一侧; \end{aligned} \right.\end{aligned}$

合页损失函数

线性支持向量机（软间隔）的合页损失函数 $\begin{aligned} & L \left( y \left( w \cdot x + b \right) \right) = \left[ 1 - y \left(w \cdot x + b \right) \right]_{+} \end{aligned}$

在这里插入图片描述

其中，“＋”为取正函数 $\begin{aligned} \left[ z \right]_{+} = \left\{ \begin{aligned} \ & z, z \gt 0 \\ & 0, z \leq 0 \end{aligned} \right.\end{aligned}$

3、非线性支持向量机与核函数

核函数

设 $\mathcal{X}$ 是输入空间（欧氏空间 $R^{n}$ 的子集或离散集合）， $\mathcal{H}$ 是特征空间（希尔伯特空间），如果存在一个从 $\mathcal{X}$ 到 $\mathcal{H}$ 的映射 $\begin{aligned} & \phi \left( x \right) : \mathcal{X} \to \mathcal{H} \end{aligned}$

使得对所有 $\in \mathcal{X}$ ，函数 $\left(x, z \right)$ 满足条件
$\begin{aligned} & K \left(x, z \right) = \phi \left( x \right) \cdot \phi \left( z \right) \end{aligned}$

则称 $\left(x, z \right)$ 为核函数， $\phi \left( x \right)$ 为映射函数，式中 $\phi \left( x \right) \cdot \phi \left( z \right)$ 为 $\phi \left( x \right)$ 和 $\phi \left( z \right)$ 的内积。

常用核函数

多项式核函数 $\begin{aligned} & K \left( x, z \right) = \left( x \cdot z + 1 \right)^{p} \end{aligned}$

高斯核函数
$\begin{aligned} & K \left( x, z \right) = \exp \left( - \dfrac{\| x - z \|^{2}}{2 \sigma^{2}} \right) \end{aligned}$

非线性支持向量分类机

非线性支持向量机：从非线性分类训练集，通过核函数与软间隔最大化，学习得到分类决策函数
$\begin{aligned} & f \left( x \right) = sign \left( \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K \left(x, x_{i} \right) + b^{*} \right) \end{aligned}$

称为非线性支持向量机， $\left( x, z \right)$ 是正定核函数。

在这里插入图片描述

非线性支持向量机学习算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$
输出：分类决策函数

选择适当的核函数 $\left( x, z \right)$ 和惩罚参数 $\geq 0$ ，构建并求解约束最优化问题 $\begin{aligned} & \min_{\alpha} \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K \left( x_{i}, x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ & s.t. \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2, \cdots, N \end{aligned}$
求得最优解 $\alpha^{*} = \left( \alpha_{1}^{*}, \alpha_{1}^{*}, \cdots, \alpha_{N}^{*} \right)$
计算 $\begin{aligned} \\ & w^{*} = \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \end{aligned}$
并选择 $\alpha^{*}$ 的一个分量 $\lt \alpha_{j}^{*} \lt C$ ，计算 $\begin{aligned} \\ & b^{*} = y_{j} - \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K \left( x_{i}, x_{j} \right) \end{aligned}$
得到分离超平面 $\begin{aligned} \\ & w^{*} \cdot x + b^{*} = 0 \end{aligned}$
以及分类决策函数
$\begin{aligned} \\& f \left( x \right) = sign \left( \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K \left( x_{i}, x_{j} \right) + b^{*} \right) \end{aligned}$

4、序列最小最优化算法

本节讨论支持向量机学习的实现问题。我们知道，支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解，并且有许多最优化算法可以用于这一问题的求解。但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。

两个变量二次规划的求解方法

序列最小最优化（sequential minimal optimization，SMO）算法要解如下凸二次规划的对偶问题：
$\begin{aligned} \min_{\alpha} &\dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K \left( x_{i}, x_{j} \right) - \sum_{i=1}^{N} \alpha_{i} \\ s.t. & \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2, \cdots, N \end{aligned}$

选择 $\alpha_{1}, \alpha_{2}$ 两个变量，其他变量 $\alpha_{i} \left( i = 3, 4, \cdots, N \right)$ 是固定的，SMO的最优化问题的子问题
$\begin{aligned} & \min_{\alpha_{1}, \alpha_{2}} W \left( \alpha_{1}, \alpha_{2} \right) = \dfrac{1}{2} K_{11} \alpha_{1}^{2} + \dfrac{1}{2} K_{22} \alpha_{2}^{2} + y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\ & \quad\quad\quad\quad\quad\quad - \left( \alpha_{1} + \alpha_{2} \right) + y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i1} + y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_i K_{i2} \\ & s.t. \quad \alpha_{1} + \alpha_{2} = -\sum_{i=3}^{N} \alpha_{i} y_{i} = \varsigma \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2 \end{aligned}$

其中， $K_{ij} = K \left( x_{i}, x_{j} \right), i,j = 1,2, \cdots, N, \varsigma$ 是常数，且省略了不含 $\alpha_{1}, \alpha_{2}$ 的常数项。

设凸二次规划的对偶问题的初始可行解为 $\alpha_{1}^{old}, \alpha_{2}^{old}$ ，最优解为 $\alpha_{1}^{new}, \alpha_{2}^{new}$ ，且在沿着约束方向未经剪辑时 $\alpha_{2}$ 的最优解为 $\alpha_{2}^{new,unc}$ 。

由于 $\alpha_{2}^{new}$ 需要满足 $\leq \alpha_{i} \leq C$ ，所以最优解 $\alpha_{2}^{new}$ 的取值范围需满足 $\begin{aligned} & L \leq \alpha_{2}^{new} \leq H \end{aligned}$

其中，L与H是 $\alpha_{2}^{new}$ 所在的对角线段断点的界。
如果 $y_{1} \neq y_{2}$ ，则
$\begin{aligned} & L = \max \left( 0, \alpha_{2}^{old} - \alpha_{1}^{old} \right), H = \min \left( C, C + \alpha_{2}^{old} - \alpha_{1}^{old} \right) \end{aligned}$

如果 $y_{1} = y_{2}$ ，则
$\begin{aligned} & L = \max \left( 0, \alpha_{2}^{old} + \alpha_{1}^{old} - C \right), H = \min \left( C, \alpha_{2}^{old} + \alpha_{1}^{old} \right) \end{aligned}$

记 $\begin{aligned} & g \left( x \right) = \sum_{i=1}^{N} \alpha_{i} y_{i} K \left( x_{i}, x \right) + b \end{aligned}$

令 $E_{i} = g \left( x_{i} \right) - y_{i} = \left( \sum_{j=1}^{N} \alpha_{j} y_{j} K \left( x_{j}, x_{i} \right) + b \right) - y_{i}, \quad i=1,2$

最优化问题
沿着约束方向未经剪辑时的解是

$\begin{aligned} & \alpha_{2}^{new,unc} = \alpha_{2}^{old} + \dfrac{y_{2} \left( E_{1} - E_{2} \right)}{\eta}\end{aligned}$

其中
$\eta=K_{11}+K_{22}-2 K_{12}=\left\|\Phi\left(x_{1}\right)-\Phi\left(x_{2}\right)\right\|^{2}$

$\Phi(x)$ 是输入空间到特征空间的映射, $E_{i}, i=1,2$ 。

经剪辑后 $\begin{aligned} \alpha_{2}^{new} = \left\{ \begin{aligned} \ & H, \alpha_{2}^{new,unc} > H \\ & \alpha_{2}^{new,unc}, L \leq \alpha_{2}^{new,unc} \leq H \\ & L, \alpha_{2}^{new,unc} < L \end{aligned} \right.\end{aligned}$

由于 $\varsigma = \alpha_{1}^{old} y_{1} + \alpha_{2}^{old} y_{2}$ 及 $\varsigma = \alpha_{1}^{new} y_{1} + \alpha_{2}^{new} y_{2}$
则 $\begin{aligned} & \alpha_{1}^{old} y_{1} + \alpha_{2}^{old} y_{2} = \alpha_{1}^{new} y_{1} + \alpha_{2}^{new} y_{2} \\ & \quad\quad\quad\quad \alpha_{1}^{new} = \alpha_{1}^{old} + y_{1} y_{2} \left( \alpha_{2}^{old} - \alpha_{2}^{new} \right) \end{aligned}$

证明：

引入 $v_{i} = \sum_{j=3}^{N} \alpha_{j} y_{j} K \left( x_{i}, x_{j} \right) = g \left( x_{i} \right) - \sum_{j=1}^{2}\alpha_{j} y_{j} K \left( x_{i}, x_{j} \right) - b, \quad i=1,2$

则目标函数 $\begin{aligned} & W \left( \alpha_{1}, \alpha_{2} \right) = \dfrac{1}{2} K_{11} \alpha_{1}^{2} + \dfrac{1}{2} K_{22} \alpha_{2}^{2} + y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} & \quad\quad\quad\quad\quad\quad - \left( \alpha_{1} + \alpha_{2} \right) + y_{1} v_{1} \alpha_{1}+ y_{2} v_{2} \alpha_{2} \end{aligned}$

由于 $\alpha_{1} y_{1} = \varsigma, y_{i}^{2} = 1$ ，可将 $\alpha_{1}$ 表示为 $\begin{aligned} \\ & \alpha_{1} = \left( \varsigma - y_{2} \alpha_{2} \right) y_{1}\end{aligned}$
代入，得 $\begin{aligned} & W \left( \alpha_{2} \right) = \dfrac{1}{2} K_{11} \left[ \left( \varsigma - y_{2} \alpha_{2} \right) y_{1} \right]^{2} + \dfrac{1}{2} K_{22} \alpha_{2}^{2} + y_{1} y_{2} K_{12} \left( \varsigma - y_{2} \alpha_{2} \right) y_{1} \alpha_{2} \\ & \quad\quad\quad\quad\quad\quad - \left[ \left( \varsigma - y_{2} \alpha_{2} \right) y_{1} + \alpha_{2} \right] + y_{1} v_{1} \left( \varsigma - y_{2} \alpha_{2} \right) y_{1} + y_{2} v_{2} \alpha_{2} \\ & = \dfrac{1}{2} K_{11} \left( \varsigma - y_{2} \alpha_{2} \right)^{2} + \dfrac{1}{2} K_{22} \alpha_{2}^{2} + y_{2} K_{12} \left( \varsigma - y_{2} \alpha_{2} \right) \alpha_{2} \\ & \quad\quad\quad\quad\quad\quad - \left( \varsigma - y_{2} \alpha_{2} \right) y_{1} - \alpha_{2} + v_{1} \left( \varsigma - y_{2} \alpha_{2} \right) + y_{2} v_{2} \alpha_{2} \end{aligned}$

对 $\alpha_{2}$ 求导 $\begin{aligned} & \dfrac {\partial W}{\partial \alpha_{2}} = K_{11} \alpha_{2} + K_{22} \alpha_{2} -2 K_{12} \alpha_{2} \\ & \quad\quad\quad - K_{11} \varsigma y_{2} + K_{12} \varsigma y_{2} + y_{1} y_{2} -1 - v_{1} y_{2} + y_{2} v_{2} \end{aligned}$
令其为0，得 $\left( K_{11} + K_{22} - 2 K_{12} \right) \alpha_{2} = y_{2} \left( y_{2} - y_{1} + \varsigma K_{11} - \varsigma K_{12} + v_{1} - v_{2} \right) \\ \quad\quad\quad\quad\quad\quad\quad\quad = y_{2} \left[ y_{2} - y_{1} + \varsigma K_{11} - \varsigma K_{12} + \left( g \left( x_{1} \right) - \sum_{j=1}^{2}\alpha_{j} y_{j} K_1j - b \right) \\ - \left( g \left( x_{2} \right) - \sum_{j=1}^{2}\alpha_{j} y_{j} K_2j - b \right) \right]$

将 $\varsigma = \alpha_{1}^{old} y_{1} + \alpha_{2}^{old} y_{2}$ 代入，得 $\begin{aligned} \\ & \left( K_{11} + K_{22} - 2 K_{12} \right) \alpha_{2}^{new,unc} = y_{2} \left( \left( K_{11} + K_{22} - 2 K_{12} \right) \alpha_{2}^{old} y_{2} + y_{2} - y_{1} + g \left( x_{1} \right) - g \left( x_{2} \right) \right) \\ & \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad = \left( K_{11} + K_{22} - 2 K_{12} \right) \alpha_{2}^{old} + y_{2} \left( E_{1} - E_{2} \right) \end{aligned}$

令 $\eta = K_{11} + K_{22} - 2 K_{12}$ 代入，得 $\begin{aligned} \\ & \alpha_{2}^{new,unc} = \alpha_{2}^{old} + \dfrac{y_{2} \left( E_{1} - E_{2} \right)}{\eta}\end{aligned}$

计算阈值 $b$ 和差值 $E_i$

由分量 $\lt \alpha_{1}^{new} \lt C$ ，则 $\begin{aligned} & b_1^{new} = y_{1} - \sum_{i=3}^{N} \alpha_{i} y_{i} K_{i1} - \alpha_{1}^{new} y_{1} K_{11} - \alpha_{2}^{new} y_{2} K_{21} \end{aligned}$

由 $\begin{aligned} & E_{1} = g \left( x_{1} \right) - y_{1} = \left( \sum_{j=1}^{N} \alpha_{j} y_{j} K_{ij} + b \right) - y_{1} \\ & = \sum_{i=3}^{N} \alpha_{i} y_{i} K_{i1} + \alpha_{1}^{old} y_{1} K_{11} + \alpha_{2}^{old} y_{2} K_{21} + b^{old} - y_{1} \end{aligned}$

则 $\begin{aligned} & y_{1} - \sum_{i=3}^{N} \alpha_{i} y_{i} K_{i1} = -E_{1} + \alpha_{1}^{old} y_{1} K_{11} + \alpha_{2}^{old} y_{2} K_{21} + b^{old} \end{aligned}$

代入，得 $\begin{aligned} & b_1^{new} = -E_{1} + y_{1} K_{11} \left( \alpha_{1}^{new} - \alpha_{1}^{old} \right) - y_{2} K_{21} \left( \alpha_{2}^{new} - \alpha_{2}^{old} \right) + b^{old} \end{aligned}$

同理，得 $\begin{aligned} \\ & b_2^{new} = -E_{2} + y_{1} K_{12} \left( \alpha_{1}^{new} - \alpha_{1}^{old} \right) - y_{2} K_{22} \left( \alpha_{2}^{new} - \alpha_{2}^{old} \right) + b^{old} \end{aligned}$

如果 $\alpha_{1}^{new}, \alpha_{2}^{new}$ 满足 $\lt \alpha_{i}^{new} \lt C, i = 1, 2$ ，
则
$\begin{aligned} & b^{new} = b_{1}^{new} = b_{2}^{new}\end{aligned}$

否则 $\begin{aligned} & b^{new} = \dfrac{b_{1}^{new} + b_{2}^{new}}{2} \end{aligned}$

更新 $E_{i}$
$\begin{aligned} & E_{i}^{new} = \sum_{S} y_{j} \alpha_{j} K_{ \left( x_{i}, x_{j} \right)} + b^{new} - y_{i} \end{aligned}$

其中， $S$ 是所有支持向量 $x_{j}$ 的集合。

SMO算法

SMO算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ，精度 $\varepsilon$ ；
输出：近似解 $\hat \alpha$

取初始值 $\alpha^{0} = 0$ ，令 $k = 0$ ；
选取优化变量 $\alpha_{1}^{\left( k \right)},\alpha_{2}^{\left( k \right)}$ ，求解 $\begin{aligned} \\ & \min_{\alpha_{1}, \alpha_{2}} W \left( \alpha_{1}, \alpha_{2} \right) = \dfrac{1}{2} K_{11} \alpha_{1}^{2} + \dfrac{1}{2} K_{22} \alpha_{2}^{2} + y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\ & \quad\quad\quad\quad\quad\quad - \left( \alpha_{1} + \alpha_{2} \right) + y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i1} + y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_i K_{i2} \\ & s.t. \quad \alpha_{1} + \alpha_{2} = -\sum_{i=3}^{N} \alpha_{i} y_{i} = \varsigma \\ & 0 \leq \alpha_{i} \leq C , \quad i=1,2 \end{aligned}$
求得最优解 $\alpha_{1}^{\left( k＋1 \right)},\alpha_{2}^{\left( k+1 \right)}$ ，更新 $\alpha$ 为 $\alpha^{\left( k+1 \right)}$ ；
若在精度 $\varepsilon$ 范围内满足停机条件 $\begin{aligned} & \sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \\ & 0 \leq \alpha_{i} \leq C, i = 1, 2, \cdots, N \\ & \end{aligned} \\ y_{i} \cdot g\left(x_{i}\right)=\left\{\begin{array}{ll} \geqslant 1, & \left\{x_{i} \mid \alpha_{i}=0\right\} \\ =1, & \left\{x_{i} \mid 0<\alpha_{i}<C\right\} \\ \leqslant 1, & \left\{x_{i} \mid \alpha_{i}=C\right\} \end{array}\right.$ 则转4.；否则令 $k = k + 1$ ，转2.；
4.取 $\hat \alpha = \alpha^{\left( k + 1 \right)}$ 。

5、概要总结

1．支持向量机最简单的情况是线性可分支持向量机，或硬间隔支持向量机。构建它的条件是训练数据线性可分。其学习策略是最大间隔法。可以表示为凸二次规划问题，其原始最优化问题为

$\min _{w, b} \frac{1}{2}\|w\|^{2}$ $\quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$
求得最优化问题的解为 $w^*$ ， $b^*$ ，得到线性可分支持向量机，分离超平面是

$w^{*} \cdot x+b^{*}=0$
分类决策函数是

$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$
最大间隔法中，函数间隔与几何间隔是重要的概念。

线性可分支持向量机的最优解存在且唯一。位于间隔边界上的实例点为支持向量。最优分离超平面由支持向量完全决定。二次规划问题的对偶问题是 $\min \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$

$\quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$
通常，通过求解对偶问题学习线性可分支持向量机，即首先求解对偶问题的最优值

$a^*$ ，然后求最优值 $w^*$ 和 $b^*$ ，得出分离超平面和分类决策函数。

2．现实中训练数据是线性可分的情形较少，训练数据往往是近似线性可分的，这时使用线性支持向量机，或软间隔支持向量机。线性支持向量机是最基本的支持向量机。

对于噪声或例外，通过引入松弛变量 $\xi_{\mathrm{i}}$ ，使其“可分”，得到线性支持向量机学习的凸二次规划问题，其原始最优化问题是

$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$ $\quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N$ $\xi_{i} \geqslant 0, \quad i=1,2, \cdots, N$
求解原始最优化问题的解 $w^*$ 和 $b^*$ ，得到线性支持向量机，其分离超平面为

$w^{*} \cdot x+b^{*}=0$
分类决策函数为

$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$
线性可分支持向量机的解 $w^*$ 唯一但 $b^*$ 不唯一。对偶问题是

$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$ $\quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $\leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$
线性支持向量机的对偶学习算法，首先求解对偶问题得到最优解 $\alpha^*$ ，然后求原始问题最优解 $w^*$ 和 $b^*$ ，得出分离超平面和分类决策函数。

对偶问题的解 $\alpha^*$ 中满 $\alpha_{i}^{*}\gt0$ 的实例点 $x_i$ 称为支持向量。支持向量可在间隔边界上，也可在间隔边界与分离超平面之间，或者在分离超平面误分一侧。最优分离超平面由支持向量完全决定。

线性支持向量机学习等价于最小化二阶范数正则化的合页函数

$\sum_{i=1}^{N}\left[1-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}+\lambda\|w\|^{2}$

3．非线性支持向量机

对于输入空间中的非线性分类问题，可以通过非线性变换将它转化为某个高维特征空间中的线性分类问题，在高维特征空间中学习线性支持向量机。由于在线性支持向量机学习的对偶问题里，目标函数和分类决策函数都只涉及实例与实例之间的内积，所以不需要显式地指定非线性变换，而是用核函数来替换当中的内积。核函数表示，通过一个非线性转换后的两个实例间的内积。具体地， $K (x, z)$ 是一个核函数，或正定核，意味着存在一个从输入空间x到特征空间的映射 $\mathcal{X} \rightarrow \mathcal{H}$ ，对任意 $\mathcal{X}$ ，有

$z)=\phi(x) \cdot \phi(z)$

对称函数 $K (x, z)$ 为正定核的充要条件如下：对任意 $\mathrm{x}_{\mathrm{i}} \in \mathcal{X}, \quad \mathrm{i}=1,2, \ldots, \mathrm{m}$ ，任意正整数 $m$ ，对称函数 $K (x, z)$ 对应的Gram矩阵是半正定的。

所以，在线性支持向量机学习的对偶问题中，用核函数 $K (x, z)$ 替代内积，求解得到的就是非线性支持向量机

$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K\left(x, x_{i}\right)+b^{*}\right)$

4．SMO算法

SMO算法是支持向量机学习的一种快速算法，其特点是不断地将原二次规划问题分解为只有两个变量的二次规划子问题，并对子问题进行解析求解，直到所有变量满足KKT条件为止。这样通过启发式的方法得到原二次规划问题的最优解。因为子问题有解析解，所以每次计算子问题都很快，虽然计算子问题次数很多，但在总体上还是高效的。