SVM——线性可分支持向量机

最新推荐文章于 2024-06-11 15:17:35 发布

星河滚烫兮

最新推荐文章于 2024-06-11 15:17:35 发布

阅读量766

点赞数 1

分类专栏：机器学习笔记文章标签：支持向量机机器学习算法

本文链接：https://blog.csdn.net/weixin_45972476/article/details/122350899

版权

机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

SVM——线性可分支持向量机

一、摘要

二、问题描述

三、函数间隔和几何间隔

函数间隔
几何间隔

四、最优化问题

支持向量与间隔边界

五、对偶问题

构造拉格朗日函数
拉格朗日对偶性求解对偶问题
拉格朗日乘子 $\alpha$ 与原始参数 $\omega,b$ 的关系
支持向量

六、总结

一、摘要

支持向量机用于解决二分类问题，对于线性可分的输入数据，我们能够找到无数个超平面将数据完全正确分类，对应于二维特征输入数据，超平面就是直线。但是，为了更好的去预测未知分类问题，SVM使用最大间隔以使正类负类到超平面的距离最大，即鲁棒性最强，这也符合人类直觉。如何得到最大间隔是重中之重，SVM求最大间隔是求解约束最优化问题。通常，我们利用拉格朗日对偶性将原最优化问题转换为其对偶问题进行求解，这样降低了计算难度，同时自然引入核函数。

二、问题描述

二分类

已知有数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中， $x_i$ 为输入特征向量， $y_i=\{+1,-1\}$ 为标签。 $y = + 1$ 代表正例， $y = - 1$ 代表负例，且数据集满足线性可分条件。

学习目标是在特征空间中找到唯一的超平面，将正类与负类完全分开，使得最邻近特征点到超平面的间隔最大。该超平面可表示为方程 $\omega \cdot x+b=0$ ， $\omega$ 对应超平面的法向量， $b$ 对应超平面的截距，超平面可记为 $(\omega,b)$ 。

最优化目标是求解出使得间隔最大化的参数 $\omega$ 和 $b$ ，通过变换得到一个凸二次规划问题（约束最优化问题），最终模型学习到的参数记为 $\omega^*,b^*$ ，超平面为 $\omega^* \cdot x+b^*=0$ ，决策函数为 $f(x)=sign(\omega^* \cdot x+b^*)$ 。

三、函数间隔和几何间隔

1.函数间隔

根据几何知识，点 $x_{0}(x^1_{0},x^2_{0})$ 到直线 $\omega \cdot x+b=0$ 的距离 $d=\begin{vmatrix}\omega \cdot x_0+b\end{vmatrix}$ .定义超平面 $(\omega,b)$ 关于样本点 $x_i,y_i)$ 的函数间隔为
${\overset{\wedge}{\gamma}}_i=y_i(\omega \cdot x_i+b)\tag{1}$
函数间隔 ${\overset{\wedge}{\gamma}}_i$ 表示了分类的正确性和距离（确信度），当分类正确时， $y_i$ 和 $\omega \cdot x_i+b$ 同号；当分类错误时， $y_i$ 和 $\omega \cdot x_i+b$ 异号。

但是，当我们试图将参数 $\omega$ 和 $b$ 缩放同等倍数 $\lambda$ 时，即 $\omega \rightarrow \lambda\omega,b \rightarrow \lambda b$ ，超平面 $\omega \cdot x+b=0 \rightarrow \lambda\omega \cdot x+\lambda b=0$ 并未发生变化，而函数间隔却被缩放了 $\lambda$ 倍。将这样不稳定的函数间隔作为最优化目标显然是不合理的。想象一下，模型学习的过程中，参数 $\omega$ 和 $b$ 的值在不断变化，假如超平面没有改变，但是函数间隔确被改变了，模型训练发生错误。因此我们想要找到一个稳定的“间隔”去作为最优化目标（即超平面不变，“间隔”也不会变）。

2. 几何间隔

在函数间隔的基础上，我们希望获得稳定的“间隔”，即增加对法向量 $\omega$ 的约束，于是我们参考单位向量的思想 $e=\frac{v}{\begin{Vmatrix}v\end{Vmatrix}}$ 引入 $\begin{Vmatrix}\omega\end{Vmatrix}$ ，几何间隔定义如下：
$\gamma_i=y_i({\frac{\omega}{\begin{Vmatrix}\omega \end{Vmatrix}}}\cdot x_i+{\frac{b}{\begin{Vmatrix}\omega \end{Vmatrix}}})\tag{2}$
我们来看一下几何间隔的稳定性：

当 $\omega$ 和 $b$ 等比缩放 $\lambda$ 倍时有： $\omega \rightarrow \lambda\omega,b \rightarrow \lambda b$
$\gamma_i^\prime=y_i({\frac{\lambda\omega}{\begin{Vmatrix}\lambda\omega \end{Vmatrix}}}\cdot x_i+{\frac{\lambda b}{\begin{Vmatrix}\lambda\omega \end{Vmatrix}}})=y_i({\frac{\omega}{\begin{Vmatrix}\omega \end{Vmatrix}}}\cdot x_i+{\frac{b}{\begin{Vmatrix}\omega \end{Vmatrix}}}) \\ \because \gamma_i^\prime=\gamma_i \\ \therefore 几何间隔\gamma不随\omega,b的等比变化而变化，即几何间隔是稳定的.$

对于SVM模型来说，其“间隔”表示为
$\gamma=\underset{i=1,\cdots,N}{\min}\gamma_i=\underset{i=1,\cdots,N}{\min}y_i({\frac{\omega}{\begin{Vmatrix}\omega \end{Vmatrix}}}\cdot x_i+{\frac{b}{\begin{Vmatrix}\omega \end{Vmatrix}}})\tag{3}$

从上述可以看到，几何间隔可以作为我们的最优化目标，下面重点关注线性可分支持向量机的约束最优化问题。

四、最优化问题

支持向量机的最优化问题即学习目标就是要将“间隔”最大化，定义如下：
$\underset{\omega,b}{\max}\gamma \qquad\qquad s.t. \quad \gamma_i=y_i({\frac{\omega}{\begin{Vmatrix}\omega \end{Vmatrix}}}\cdot x_i+{\frac{b}{\begin{Vmatrix}\omega \end{Vmatrix}}}) \ge \gamma, \quad i=1,2,\cdots,N$

此时，我们重新将函数间隔 ${\overset{\wedge}{\gamma}}$ 引入进来，用函数间隔表示约束最优化问题。显然函数间隔与几何间隔的关系为： $\gamma=\frac{{\overset{\wedge}{\gamma}}}{\begin{Vmatrix}\omega \end{Vmatrix}}$ ，代入上式有：
$\underset{\omega,b}{\max}\frac{{\overset{\wedge}{\gamma}}}{\begin{Vmatrix}\omega \end{Vmatrix}} \qquad\qquad s.t. \quad y_i(\omega \cdot x_i+b) \ge {\overset{\wedge}{\gamma}}, \quad i=1,2,\cdots,N \tag{4}$
接下来，我们利用函数间隔的性质：当参数 $\omega$ 和 $b$ 以比例 $\lambda$ 变化时，函数间隔 ${\overset{\wedge}{\gamma}}$ 也以 $\lambda$ 变化，将 $\lambda\omega,\lambda b,\lambda{\overset{\wedge}{\gamma}}$ 代入(4)式发现约束条件与目标函数均不受影响，此时产生了一个等价的最优化问题，即 ${\overset{\wedge}{\gamma}}$ 可以取任意值，都不会影响最终的学习到的超平面（试想一下，我们设定 ${\overset{\wedge}{\gamma}}=2$ ，那么最终学习到的超平面就是等比例放大后的 $(2\omega,2b)$ ，超平面不会改变，得到的最大间隔值均相等），为了简化计算，设 ${\overset{\wedge}{\gamma}}=1$ ，(4)式转化为：
$\underset{\omega,b}{\max}\frac{1}{\begin{Vmatrix}\omega \end{Vmatrix}} \qquad\qquad s.t. \quad y_i(\omega \cdot x_i+b)-1 \ge {0}, \quad i=1,2,\cdots,N \tag{5}$
为了转化为凸二次规划问题（与拉格朗日对偶性有关）且便于求导，用 $\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2}$ 替换 $\frac{1}{\begin{Vmatrix}\omega \end{Vmatrix}}$ ，(5)式等价变形为：
$\underset{\omega,b}{\min}\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2} \qquad\qquad s.t. \quad y_i(\omega \cdot x_i+b)-1 \ge {0}, \quad i=1,2,\cdots,N \tag{6}$

(6)式即为最终的约束最优化问题，通过求解得到其最优化解 $\omega^*,b^*$ ，由此得到最终的超平面与决策函数：
$超平面(\omega^*,b^*):\quad \omega^* \cdot x+b^*=0 \\ 决策函数f(x):\quad f(x)=sign(\omega^* \cdot x+b^*)$

支持向量与间隔边界

支持向量即为使最优化问题(6)式约束条件等号成立的点 $x_i$ （距离超平面最近的点）；间隔边界即为使最优化问题(6)式约束条件等号成立的平面 $y_i(\omega \cdot x_i+b)-1=0$ ；SVM分类器的间隔即为正类负类间隔边界间的距离 $\frac{2}{\begin{Vmatrix}\omega \end{Vmatrix}}$ 。如下图：

支持向量

从最优化问题的定义和上图可以看出，最大间隔只与距离超平面最近的点有关，即只与间隔边界上的支持向量有关，而与边界外的点无关。

五、对偶问题

为求解线性可分支持向量机的最优化问题，我们将上一节的最优化问题(6)作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解。对偶问题的复杂度往往要低于原始问题，且在SVM中求解对偶问题可以自然引入核函数，进而推广到非线性分类问题。拉格朗日对偶性参考《统计学习方法》中的附录C。

求解对偶问题的一般步骤：

构造与原始最优化问题等价的约束拉格朗日函数；
根据拉格朗日对偶性，得到原始问题（极小极大问题）的对偶问题（极大极小问题）。
根据拉格朗日乘子 $\alpha$ 与原始参数 $\omega,b$ 的关系得到最终结果。

1.构造拉格朗日函数

对于原始问题(6)，为每个约束条件（此问题只有不等式约束，没有等式约束）引进拉格朗日乘子 $\alpha_i \ge 0,\ i=1,2,\cdots,N$ ，定义拉格朗日函数 $L(\omega,b,\alpha)$ ：
$L(\omega,b,\alpha)=\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2}-{\overset{N}{\underset{i=1}{\sum}}}{\alpha_i[y_i(\omega \cdot x_i+b)-1]} \\ \Rightarrow\quad L(\omega,b,\alpha)=\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2}-{\overset{N}{\underset{i=1}{\sum}}}{\alpha_iy_i(\omega \cdot x_i+b)}+{\overset{N}{\underset{i=1}{\sum}}}\alpha_i \tag{7}$
转换为与原始最优化问题等价的形式为：

$\underset{\omega,b}{\min}\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2} \quad\qquad s.t. \quad y_i(\omega \cdot x_i+b)-1 \ge {0}, \quad i=1,2,\cdots,N \\ \updownarrow\\{\underset{\omega,b}{min}}\ {\underset{\alpha;\alpha_i\ge0}{\max}L(\omega,b,\alpha)}$

对于拉格朗日函数的理解：可以发现，其本质就是将约束条件转换为目标函数增加额外约束项求极大（极小）。由原始问题有不等式约束 $-y_i(\omega \cdot x_i+b)+1 \le {0}$ ，转换为等价拉格朗日函数形式后，因为 $\alpha_i \ge0$ ，所以 ${\underset{\alpha;\alpha_i\ge0}{\max}L(\omega,b,\alpha)}=\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2}$ ，与原始带约束目标函数等价，最后再将原问题的求目标函数极小值问题原封不动的引入则有 ${\underset{\omega,b}{min}}\ {\underset{\alpha;\alpha_i\ge0}{\max}L(\omega,b,\alpha)}$ .

2.拉格朗日对偶性求解对偶问题

根据拉格朗日对偶性，原始问题的对偶问题为极大极小问题：
${\underset{\alpha;\alpha_i\ge0}{\max}{\underset{\omega,b}{min}}L(\omega,b,\alpha)}\tag{8}$
(1)先求 ${\underset{\omega,b}{min}}L(\omega,b,\alpha)$

函数 $L(\omega,b,\alpha)$ 分别对 $\omega,b$ 求偏导并令偏导为0得到极值：
$\begin{cases} {\nabla_\omega}L(\omega,b,\alpha)=\omega-{\overset{N}{\underset{i=1}{\sum}}}\alpha_iy_ix_i=0 \\ {\nabla_b}L(\omega,b,\alpha)={\overset{N}{\underset{i=1}{\sum}}}\alpha_iy_i=0 \end{cases} \tag{9}$
将(9)式代入(8)消去 $\omega,b$ 即有：
${\underset{\omega,b}{min}}L(\omega,b,\alpha)=-\frac{1}{2}{\overset{N}{\underset{i=1}{\sum}}}{\overset{N}{\underset{j=1}{\sum}}}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+{\overset{N}{\underset{i=1}{\sum}}}\alpha_i \\ s.t. \quad {\overset{N}{\underset{i=1}{\sum}}}\alpha_iy_i=0\\ \alpha_i \ge0, \quad i=1,2,\cdots,N$

(2)再求 ${\underset{\omega,b}{min}}L(\omega,b,\alpha)$ 对 $\alpha$ 的极大

${\underset{\alpha;\alpha_i\ge0}{\max}{\underset{\omega,b}{min}}L(\omega,b,\alpha)}={\underset{\alpha;\alpha_i\ge0}{\max}}-\frac{1}{2}{\overset{N}{\underset{i=1}{\sum}}}{\overset{N}{\underset{j=1}{\sum}}}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+{\overset{N}{\underset{i=1}{\sum}}}\alpha_i \\ s.t. \quad {\overset{N}{\underset{i=1}{\sum}}}\alpha_iy_i=0\\ \alpha_i \ge0,\quad i=1,2,\cdots,N$

为了保证对偶问题与原始问题具有相同的解释性（同方向），将极大问题等价变形为极小问题：
${\underset{\alpha;\alpha_i\ge0}{\min}}\ \frac{1}{2}{\overset{N}{\underset{i=1}{\sum}}}{\overset{N}{\underset{j=1}{\sum}}}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-{\overset{N}{\underset{i=1}{\sum}}}\alpha_i \\ s.t. \quad {\overset{N}{\underset{i=1}{\sum}}}\alpha_iy_i=0\\ \alpha_i \ge0,\quad i=1,2,\cdots,N \tag{10}$
对比原始问题：
$\underset{\omega,b}{\min}\frac{1}{2}{\begin{Vmatrix} \omega\end{Vmatrix}^2} \qquad\qquad s.t. \quad y_i(\omega \cdot x_i+b)-1 \ge {0}, \quad i=1,2,\cdots,N$

(10)式即为原始最优化问题(6)式的的对偶问题。求解对偶问题，可以得到最终的拉格朗日乘子向量 $\alpha={(\alpha_1,\alpha_2,\cdots,\alpha_N)}^T$ 。下面来找到拉格朗日乘子 $\alpha$ 与原始参数 $\omega,b$ 的关系，还原得到最终的超平面与决策函数。

3.拉格朗日乘子 $\alpha$ 与原始参数 $\omega,b$ 的关系

这里主要使用了KKT条件，定理可以参考《统计学习方法》中的附录C。

求解对偶问题得到了最终解 $\alpha^*={(\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)}^T$ ，则存在 $\alpha_j >0$ ，并有关系：
$\omega^*={\overset{N}{\underset{i=1}{\sum}}}\alpha_i^*y_ix_i \tag{11}$

$b^*=y_i-{\overset{N}{\underset{i=1}{\sum}}}\alpha_i^*y_i(x_i \cdot x_j) \tag{12}$

证明：

根据拉格朗日对偶性定理，KKT条件成立：
$\begin{cases} \nabla_{\omega}L(\omega^*,b^*,\alpha^*)=\omega^*-{\overset{N}{\underset{i=1}{\sum}}}\alpha_i^*y_ix_i=0\\ \nabla_{b}L(\omega^*,b^*,\alpha^*)=-{\overset{N}{\underset{i=1}{\sum}}}\alpha_i^*y_i=0 \\ \\ \alpha^*_i(y_i(\omega^*\cdot x_i+b^*)-1)=0,\quad i=1,2,\cdots,N \quad \rightarrow \quad 对照构造拉格朗日函数小节理解\\ \\ y_i(\omega^*\cdot x_i+b^*)-1 \ge0,\quad i=1,2,\cdots,N \quad \rightarrow 原始最优化问题的约束条件 \\ \\ \alpha_i^* \ge0,\quad i=1,2,\cdots,N \quad \rightarrow 对偶问题约束条件 \end{cases}$
由KKT条件可知， $\omega^*={\overset{N}{\underset{i=1}{\sum}}}\alpha_i^*y_ix_i$ ，且必然存在 $\alpha_j^* >0$ ，则KKT条件3转换为： $y_j(\omega^*\cdot x_j+b^*)-1=0$ . 将 $\omega^*$ 代入上式即有: $b^*=y_i-{\overset{N}{\underset{i=1}{\sum}}}\alpha_i^*y_i(x_i \cdot x_j)$ .（ "存在 $\alpha_j^* >0$ "用反证法得出：假设 $\alpha^*=0$ ，即所有样本点的对偶问题解均为0，则 $\omega^*=0$ ，显然不是原始最优化问题的解，产生矛盾）。

支持向量

之前我们定义了原始问题的支持向量，而其对偶问题的支持向量则为数据集中 $\alpha_i >0$ 的样本点 $x_i,y_i)$ 。因为当 $\alpha_i >0$ 时，由KKT条件3有 $\omega^*\cdot x_j+b^*=\pm1$ ，对应于间隔边界。而对于 $\alpha_i=0$ 即间隔边界外的样本点，则对最优化没有任何影响，因为根据(11)(12)式的累加形式，'0’不会对最优化参数 $\omega,b$ 有任何贡献，这与第四节的结论一致。

六、总结

从最简单的线性可分支持向量机模型我们可以看出，只有少部分数据（支持向量）影响分类器的训练，这也即是支持向量机的由来。线性可分支持向量机能够完美分类线性可分的数据集，超平面能够将正类负类完全分开，其学习的过程叫做硬间隔最大化。但是，现实中的数据往往是线性不可分的，采用硬间隔最大化会得到很糟糕的模型，所以，为了处理更一般的情况，引入了软间隔最大化方法与核函数，使支持向量机能够分类非线性数据。

参考

李航《统计学习方法》

星河滚烫兮

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SVM——线性可分支持向量机

支持向量机用于解决二分类问题，对于线性可分的输入数据，我们能够找到无数个超平面将数据完全正确分类，对应于二维特征输入数据，超平面就是直线。但是，为了更好的去预测未知分类问题，SVM使用最大间隔以使正类负类到超平面的距离最大，即鲁棒性最强，这也符合人类直觉。如何得到最大间隔是重中之重，SVM求最大间隔是求解约束最优化问题。通常，我们利用拉格朗日对偶性将原最优化问题转换为其对偶问题进行求解，这样降低了计算难度，同时自然引入核函数。
复制链接

扫一扫