支持向量机（SVM，Support Vector Machine）

Deep Play

已于 2023-02-08 10:59:13 修改

阅读量159

点赞数

文章标签：人工智能算法

于 2023-01-02 22:02:24 首次发布

本文链接：https://blog.csdn.net/weixin_45766692/article/details/128361199

版权

文章目录

0 前言

这篇博客中公式比较多，可能比较乏味，但是有些细节还是很有意思的，所以做了笔记以供后续查阅，如果遇到不懂得，建议先当做定理记住往下看，通读全文有个大概的了解，再回过头来思考，可能就会明白。由于水平有限，可能会有错误，欢迎指正。

1 线性可分和线性不可分

线性可分指的是可以用一个线性函数将两类样本分开（注意这里是线性函数）,比如在二维空间中的直线，三维空间中的平面以及高维空间中的超平面。这里指的可分是没有一丝误差的分开，线性不可分指的就是部分样本用线性分类面划分时会产生分类错误的现象。
线性可分和线性不可分

2 支持向量与间隔

下图中两个平行虚线之间的距离叫做间隔（Margin），两个平行虚线插到的向量叫做支持向量（Support Vector）。
在这里插入图片描述
定义：
（1）、训练数据和标签(x₁,y₁),(x₂,y₂)…(x_N,y_N).其中x表示向量(可能很多维),y为标签∈{+1,-1}。
（2）、线性模型
对于参数(W,b)，其中W也是一个向量，维度和(1)的x维度一样，b为常数。 $W^{T}X$ +b=0表示一个超平面(Hyperplane)。
（3）、一个训练集线性可分是指对训练集{[x_i,y_i]}, 其中i=1~N,∃(W,b)使得对∀的
i=1~N,有
（a）若y_i=+1，则W^TX_i+b≥0
（b）若y_i=-1，则W^TX_i+b<0
则有
$y_i[W^{T}X_i+b]≥0 \tag{1}$

3 支持向量机的优化问题(凸优化问题，二次规划问题)：

最小化(如果看不懂，就先当公式记着，往下看，后面会有解释)： $\frac{1}{2}||W||^{2} \tag{2}$
等于 ${1\over2}$ (w₁²+w₂²+…+w_m²).
限制条件(Subject to):
$y_i[W^Tx_i+b]≥ 0.$ 其中(i=1~N).

4 二次规划(Quadratic Programming):

(1)、目标函数(Objective Function)二次项
(2)、限制条件一次项
这种情况下，要么无解，要么只有一个极小值。

事实1： $W^{T}$ X+b=0与a $W^{T}$ X+ab=0是同一平面，a∈ $R^{+}$ 。若（W,b）满足公式1，则(aW,ab)也满足公式1.
事实2：点到平面的距离公式。
平面：W₁x+W₂y+b=0.
则(x₀,y₀)到此平面的距离公式为：
$\frac{|W_1x_0+W_2y_0+b|}{\sqrt{W_1^2+W_2^2}}$
在高维情况下，向量x₀到超平面 $W^{T}$ x+b=0的距离：
$\frac{|W^Tx_0+b|}{||W||}$

其中||W||等于 $\sqrt{w_1^1+w_2^2+...+w_m^2}$
我们可以用a去缩放
$(W, b) - - > (aW, ab)$
最终使在支持向量x₀上有：
$W^Tx_0+b|=1$
此时支持向量与平面距离：
$d=\frac{1}{||W||}$
在这里可以看到，SVM就是要最大化 $d$ ，其实就是最小化 $W||^2$ ,而公式(2)乘上 $\frac{1}{2}$ 变成最小化 $\frac{1}{2}||W||^2$ ，只是为了后期求导方便，对结果没有影响。

5 SVM处理非线性

在SVM中可能会存在一些噪声使优化问题不可解，解决办法就是利用松弛变量允许一些点不满足原先的要求，即约束条件中增加一个松弛项参数，变成
①最小化：
${1\over2}||W||^2+C\sum_{i=1}^{n}\varepsilon_i.\tag{3}$
限制条件：
(1)、 $y_i[W^Tx_i+b]≥1-\varepsilon_i.$ (i=1~N）.
其中公式(3)中的 $C\sum_{i=1}^{n}\varepsilon_i$ 叫做正则项(Regulation Term)， $\varepsilon_i$ 叫做松弛变量(Slack Variable),C为事先是定的参数(我理解为超参数)。
(2)、 $\varepsilon_i≥0.$
可以看到， $\varepsilon_i$ 为无穷大时，限制条件(1)肯定成立，所以在最小化的时候将 $\varepsilon_i$ 加入到目标函数，防止 $\varepsilon_i$ 特别大。这样在优化的时候就会使Margin尽可能大，每个 $\varepsilon_i$ 尽可能的小。
②高维映射 $\varphi(x)$ .
$x->\varphi(x)$ 其中x为低维数据， $\varphi(x)$ 为高维数据.
这么做的原因是在现实任务中，有些样本空间也许不存在一个超平面可以把数据线性分开，例如下图中的异或问题，所以将低维映射成高维，再找一个超平面就可以将数据线性分开，下面为将一个低维数据映射成高维数据后，原本线性不可分变为线性可分的例子。

在上图中x₁=[0,0]^T $\in$ C₁,x₂=[1,1]^T $\in$ C₁,x₃=[1,0]^T $\in$ C₂,x₄=[0,1]^T $\in$ C₂,此时是找不到一条直线将这两类分开，将x进行 $\varphi(x)$ 的映射可得：
$x=[a,b]^T ->\varphi(x)=[a^2,b^2,a,b,ab]^T.$
此时 $\varphi(x_1)=[0,0,0,0,0]^T\in C_1,\varphi(x_2)=[1,1,1,1,1]^T\in C_1,\varphi(x_3)=[1,0,1,0,0]^T \in C_2,\varphi(x_4)=[0,1,0,1,0]^T\in C_2.$ 当 $W=[-1,-1,-1,-1,6]^T$ ,b=1时(W,b不唯一)，此时
$W^T\varphi(x_1)+b=1\in C_1$ ,
$W^T\varphi(x_2)+b=3\in C_1$ ,
$W^T\varphi(x_3)+b=-1\in C_2$ ,
$W^T\varphi(x_4)+b=-1\in C_2$
就可以被线性分开。
结论：如果原始空间是有限维，即属性有限，那么一定存在一个高维特征空间使样本线性可分，换句话说，在低维空间线性不可分的数据到高维空间里面将会以很大的概率被线性分开，这就是SVM引入 $\varphi(x)$ 将低维数据映射成高维数据的原因。
这就迎来了新的问题，当 $\varphi(x)$ 为无限维时，超平面的W也要为无限维，所以就引入了核函数。

6 核函数

引入核函数的原因就是可以不知道无限维映射 $\varphi(x)$ 的显示表达式的情况下，只要知道一个核函数(Kernel Function)
$K(x_1, x_2)=\varphi(x_1)^T\varphi(x_2).$
SVM的优化问题仍然可解.

6.1 常用核函数

6.1.1 高斯核

$K(x_1,x_2)=e^{-{||x_1-x_2||^2}\over{2\sigma^2}}=\varphi(x_1)^T\varphi(x_2).$

6.1.2 多项式核：

$K(x_1,x_2)=(x_1^Tx_2+1)^d=\varphi(x_1)^T\varphi(x_2).$ 其中d表示多项式阶数。

6.1.3 $K(x_1,x_2)$ 能写成 $\varphi(x_1)^T\varphi(x_2)$ 的充要条件(Mercer’s Theorem)：

1.K(x₁,x₂)=K(x₂,x₁)(交换性).
2.∀C_i(常数)，x_i(向量)，有：
$\sum_{i=1}^{n}\sum_{j=1}^{n}C_iC_jK(x_i,x_j)≥0.$ 这个叫做半正定性.
满足这两个条件时就可以将低维特征进行高维映射，优化问题将变为：
最小化： $\over 2} ||W||^2+C\sum_{i=1}^{n}\varepsilon_i.$
限制条件：
$y_i[W^T\varphi(x_i)+b]≥1-\varepsilon_i.$ (i=1~N）
就是将原限制条件的 $x_i$ 替换为 $\varphi(x_i)$ .

7 优化理论相关知识：

7.1 原问题(Prime Problem):

最小化：f(w).
限制条件：
g_i(w)≤0,(i=1~K).
h_i(w)=0,(i=1~M).
这是非常具有普适性的，当函数f(w)变为-f(w)时，这个就变成了最大化的问题，限制条件加个负号也可以改变成≥的。

7.2 对偶问题(Dual Problem)：

①定义： $L(\omega,\alpha,\beta)$
$L(\omega,\alpha,\beta)=f(w)+\sum_{i=1}^{k}\alpha_ig_i(w)+\sum_{i=1}^{m}\beta_ih_i(w)$
这里的 $\alpha_i$ 和 $\beta_i$ 的维度原问题 $g_i$ 和 $h_i$ 是一样的。也可以写为向量的形式：
$=f(w)+\alpha^Tg(w)+\beta^Th(w).$
②对偶问题定义：
最大化： $\theta(\alpha,\beta)=inf{\{L(\omega,\alpha,\beta)}\}$ , ${ } inf\{\}$ 是求{}里函数的最小值，表示在限定 $\alpha,\beta$ 的情况下，遍历所有的 $\omega$ 求 $L(\omega,\alpha,\beta)$ 的最小值。就是每确定一个 $\alpha,\beta$ 都可以遍历 $\omega$ 求出函数 $L(\omega,\alpha,\beta)$ 最小值，然后在这些最小值里面确定一个 $\theta(\alpha,\beta)$ 最大值，而 $\theta(\alpha,\beta)$ 也只是和 $\alpha,\beta$ 这两个参数有关，这里有点绕，就是从一些确定的最小值里面找最大值。
限制条件： $\alpha_i≥0.$ (i=1~K)
原问题与对偶问题的关系：
定理：如果 $\omega^*$ 是原问题的解，而 $\alpha^*,\beta^*$ 是对偶问题的解，则有：
$f(\omega^*)≥\theta(\alpha^*,\beta^*).$
因为：
$\theta(\alpha^*,\beta^*)=inf\{L(\omega,\alpha^*,\beta^*)\}≤L(\omega^*,\alpha^*,\beta^*):$
$L(\omega^*,\alpha^*,\beta^*)=f(\omega^*)+\sum_{i=1}^{K}\alpha_i^*g_i(w^*)+\sum_{i=1}^{M}\beta_i^*h_i(w^*).$
其中 $\alpha_i^*≥0，g_i^*≤0，\sum_{i=1}^{M}\beta_i^*h_i(w^*)=0，$ 所以 $L(\omega^*,\alpha^*,\beta^*)≤f(\omega^*).$
定义： $G=f(\omega^*)-\theta(\alpha^*,\beta^*)≥0.G$ 叫做原问题与对偶问题的间距(Duality Gap).对于某些特定优化问题，可以证明G=0.

7.3 强对偶定理：

若 $f (w)$ 为凸函数，且 $g (w) = A W + b, h (w) = C W + d$ , $g (w)$ 和 $h (w)$ 都为线性函数,则此优化问题的原问题与对偶问题的间距为0，即：

$f(w^*)=\theta(\alpha^*,\beta^*).$

8 KKT条件

当想要 $L(\omega^*,\alpha^*,\beta^*)=f(\omega^*)$ 时，对∀的i=1~K, $\alpha_i^*=0$ 或 $g_i^*(w^*)=0.$

9 SVM的优化原问题化为对偶问题：

9.1 SVM原问题：

最小化： ${1\over2}||W||^2+C\sum_{i=1}^{n}\varepsilon_i.$
限制条件：
① $y_i[W^T\varphi(x_i)+b]≥1-\varepsilon_i.$
② $\varepsilon_i≥0.$
此时SVM的原问题要和原问题的限制条件做对应，对SVM的原问题进行改造：
最小化： ${1\over2}||W||^2-C\sum_{i=1}^{n}\varepsilon_i.$
限制条件：
① $1+\varepsilon_i-y_iW^T\varphi(x_i)-y_ib≤0.$ (就是 $\varepsilon_i$ 加个负号，然后移到等式一边)
② $\varepsilon_i≤0.$
注意：此时原问题的g_i(w)≤0对应这里的①和②，没有h_i(w)=0.

9.2 SVM的对偶问题：

最大化：
$\theta(\alpha,\beta)=inf\{\frac{1}{2}||w||^2-C\sum_{i=1}^{N}\varepsilon_i+\sum_{i=1}^{N}\beta_i\varepsilon_i+\sum_{i=1}^{N}\alpha_i[1+\varepsilon_i-y_iW^T\varphi(x_i)-y_ib]\}$
大括号里的值就等于 $L(\omega,\varepsilon_i,b)$ .原问题的参数w对应到SVM的原问题参数就为 $\omega,\varepsilon_i$ 和b.前两项就是照抄最小化原函数，后面两项是对偶问题的 $\sum_{i=1}^{K}\alpha_i^*g_i(w^*)$ ,没有 $\sum_{i=1}^{m}\beta_ih_i(w).$
对 $L(\omega,\varepsilon_i,b)$ 进行求导得：
$\frac{\partial{L}}{\partial{\omega} }=0->\omega=\sum_{i=1}^{N}\alpha_iy_i\varphi(x_i).$
$\frac{\partial{L}}{\partial{\varepsilon_i} }=0->\beta_i+\alpha_i=C.$
$\frac{\partial{L}}{\partial{b} }=0->\sum_{i=1}^{N}\alpha_i\beta_i.$
其中：
若 $f(w)=\frac{1}{2}||w||^2$ ,则 $\frac{\partial{F}}{\partial{\omega} }=\omega$ .
若 $f(w)=W^TX,$ 则 $\frac{\partial{F}}{\partial{W} }=X.$
将求导得到的值带入 $\theta(\alpha,\beta)$ ,
$\theta(\alpha,\beta)=\sum_{i=1}^{N}\alpha_i+\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_iy_iw^T\varphi(x_i)$
其中： $\frac{1}{2}||w||^2=\frac{1}{2}w^Tw=\frac{1}{2}(\sum_{i=1}^{N}\alpha_iy_i\varphi(x_i))^T(\sum_{j=1}^{N}\alpha_jy_j\varphi(x_j))$
$=\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j\varphi(x_i)^T\varphi(x_j).$
注意：此时的 $\varphi(x_i)^T\varphi(x_j)=K(x_i,x_j).$
其中： $-\sum_{i=1}^{N}\alpha_iy_iw^T\varphi(x_i)$
$-\sum_{i=1}^{N}\alpha_iy_i(\sum_{j=1}^{N}\alpha_jy_j\varphi(x_j))^T$
$=-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j\varphi(x_j)^T\varphi(x_i).$
注意：此时也有 $\varphi(x_j)^T\varphi(x_i)=K(x_i,x_j).$
所以：
$\theta(\alpha,\beta)=\theta(\alpha)=\sum_{i=1}^{N}\alpha_i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_j\alpha_jy_iy_jK(x_i,x_j).$
此时的限制条件为：
①0≤ $\alpha_i$ ≤C.
② $\sum_{i=1}^{N}\alpha_iy_i=0.$
这里的 $\beta$ 是不出现的，限制条件①是由 $\alpha_i$ ≥0， $\beta$ ≥0,和 $\alpha_i$ + $\beta_i$ =C合成的条件。
这是一个凸优化问题，同时使用SMO算法求解。

由于 $\omega=\sum_{i=1}^{N}\alpha_iy_i\varphi(x_i)$ ,这样看来，想要求出 $\omega$ 好像还是要求出 $\varphi(x_i)$ ,其实不用：
在测试时：
$\begin{cases} W^T\varphi(x_i)+b≥0,& 则y=+1\\ W^T\varphi(x_i)+b＜0,& 则y=-1 \end{cases} \tag{2}$
求等式(2)中的 $W^T\varphi(x)$ ：
$W^T\varphi(x)=\sum_{i=1}^{N}[\alpha_iy_i\varphi(x_i)]^T\varphi(x)$

$=\sum_{i=1}^{N}\alpha_iy_i\varphi(x_i)^T\varphi(x)$
$=\sum_{i=1}^{N}\alpha_iy_iK(x_i,x)$
求等式(2)中的b：
将KKT条件翻译过来：
∀的i=1~N,
①要么 $\beta_i=0,要么\varepsilon_i=0.$
②要么 $\alpha_i=0$ ,要么 $1+\varepsilon_i-y_iW^T\varphi(x_i)-y_ib=0.$
注意：KKT条件里的 $\alpha_i^*=0$ 对应这里的 $\alpha_i=0$ 和 $\beta_i=0$ ,KKT条件里的 $g_i^*(w^*)=0$ 对应这里的 $\varepsilon_i=0$ 和 $1+\varepsilon_i-y_iW^T\varphi(x_i)-y_ib=0.$
取一个0＜ $\alpha_i＜C->\beta_i$ =C- $\alpha_i＞0.$
此时 $\beta_i≠0->\varepsilon_i=0.$
$\alpha_i≠0->1+\varepsilon_i-y_iW^T\varphi(x_i)-y_ib=0.$
$b=\frac{1-y_iW^T\varphi(x_i)}{y_i}=\frac{1-y_i\sum_{j=1}^{N}\alpha_iy_iK(x_i,x_j)}{y_i}$
此时可以取0＜ $\alpha_i$ ＜C中的多个 $\alpha_i$ 来求多个b，然后求一个b的平均值作为最终的结果b.

10 总结SVM的算法：

10.1 训练流程：

输入{(x_i,y_i)},i=1~N
(解优化问题)
最大化：
$\theta(\alpha)=\sum_{i=1}^{N}\alpha_i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_j\alpha_jy_iy_jK(x_i,x_j).$
限制条件：
①0≤ $\alpha_i$ ≤C.
② $\sum_{i=1}^{N}\alpha_iy_i=0.$
算b，找一个0< $\alpha_i$ <C,
$b=\frac{1-y_i\sum_{j=1}^{N}\alpha_iy_iK(x_i,x_j)}{y_i}$

10.2 测试流程：

输入：测试样本X.
$\begin{cases} \sum_{i-1}^{N}\alpha_iy_iK(x_i,x)+b≥0,& 则y=+1\\ \sum_{i-1}^{N}\alpha_iy_iK(x_i,x)+b＜0,& 则y=-1 \end{cases} \tag{3}$
仔细看这里的训练和测试都只含K(x_i,x)，所有的 $\varphi(x_i)$ 都被消掉了。
参考：
1、浙江大学机器学习
2、西瓜书
3、https://blog.csdn.net/weixin_42764932/article/details/111357865