支持向量机(SVM)

最新推荐文章于 2024-03-26 19:30:09 发布

Amber0130

最新推荐文章于 2024-03-26 19:30:09 发布

阅读量173

点赞数

分类专栏：保研

本文链接：https://blog.csdn.net/weixin_43601103/article/details/118755187

版权

保研专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.间隔与支持向量

给定训练样本集 $D=\{(x_1,y_1),(x_2,y_2),....(x_n,y_n)\}$ ,分类学习最基本的想法就是基于训练集 $D$ 在样本空间中找到一一个划分超平面，将不同类别的样本分开.但能将训练样本分开的划分超平面可能有很多，如图 $6.1$ 所示，我们应该努力去找到哪一个呢?
在这里插入图片描述
直观上看,应该去找位于两类训练样本正中间的划分超平面，即图 $6.1$
中红色的那个，因为该划分超平面对训练样本局部扰动的“容忍”性最好.例
如，由于训练集的局限性或噪声的因素,训练集外的样本可能比图 $6.1$ 中的训练样本更接近两个类的分隔界,这将使许多划分超平面出现错误，而红色的超平面受影响最小.换言之，这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强.
在样本空间中,划分超平面可通过如下线性方程来描述:
$w^{T}x+b=0$
划分的超平面被 $w$ , $b$ 确定下面我们将其记为 $(w, b)$ .样本空间中任意点 $x$ 到超平面 $(w, b)$ 的距离可写为
$r=\frac{|w^{T}x+b|}{\left \| w \right \|}$
假设超平面 $(w, b)$ 能将训练样本正确分类,即对于 $x_i,y_i)∈D$ ,若 $y_i= +1$ ,则有 $w^{T}x_i+b> 0$ ;若 $Y_i=-1$ ,则有 $w^{T}x_i+b<0$ .令
$\left\{\begin{matrix}w^{T}x_i+b> +1 \quad y_i= +1 \\w^{T}x_i+b< -1 \quad y_i= -1 \end{matrix}\right. \quad (6.3)$
如图 $6.2$ 所示，距离超平面最近的这几个训练样本点使式(6.3)的等号成立,
它们被称为“支持向量”(supportvector),两个异类支持向量到超平面的距离
之和为
$\gamma =\frac{2}{\left \| w \right \|}$
它被称为“间隔”(margin).
在这里插入图片描述
欲找到具有“最大间隔”(maximum margin)的划分超平面，也就是要找到能满足式(6.3)中约束的参数 $w$ 和 $b$ ,使得 $γ$ 最大,即
$\max \limits_{w,b}\frac{2}{\left \| w \right \|} \\ st:y_i(w^{T}x_i+b)≥1 \quad i=1,2...n$

显然,为了最大化间隔，仅需最大化 $\frac{1}{\left \| w \right \|}$ ,这等价于最小化 $\left \| w \right \|^{2}$ .于是,重写为
$\min \limits_{w,b}\frac{1}{2}\left \| w \right \|^2 \quad（6.6）\\ st:y_i(w^{T}x_i+b)≥1 \quad i=1,2...n$ 这就是支持向量机(SVM)的基本模型

对偶问题

我们希望求解式(6.6)来得到大间隔划分超平面所对应的模型
$f(x)=w^{T}x+b$
其中 $w$ 和 $b$ 是模型参数.注意到式(6.6)本身是一个凸二次规划问题，能直接用现成的优化计算包求解，但我们可以有更高效的办法.
对式(6.6)使用拉格朗日乘子法可得到其对偶问题.具
体来说,对式(6.6)的每条约束添加拉格朗日乘子 $\alpha _i≥0$ ,则该问题的拉格朗日
$L(w,b,\alpha)=\frac{1}{2}\left \| w \right \|^2+\sum_{i=1}^{m}\alpha _i(1-y_i(w^{T}x_i+b)) \quad (6.8)$
$\min \limits_{w,b} \max \limits_{\alpha}L(w,b,\alpha)\\ st:\alpha_{i}\geqslant 0$
等价于
$\max \limits_{\alpha} \min \limits_{w,b}L(w,b,\alpha)\\ st:\alpha_{i}\geqslant 0$
$\alpha=(\alpha _1,\alpha _2...\alpha _n)^{T}$
令 $L(w,b,\alpha)$ 对 $w$ 和 $b$ 的偏导等于 $0$ 得
$\sum_{i=1}^{m}\alpha_iy_ix_{i}=w \\ \sum_{i=1}^{m}\alpha_iy_i=0$
将以上两式带入 $(6.8)$ ，消去 $w, b$ 得 $(6.6)$ 的对偶问题
$\max \limits_{\alpha} \sum_{i=1}^{m} \alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^{T}x_j\\st:\sum_{i=1}^{m}\alpha_iy_i=0\\ \alpha_i \geqslant 0 \quad i=1,2..m$
等价于
$\min \limits_{\alpha} \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^{T}x_j-\sum_{i=1}^{m} \alpha_i\\st:\sum_{i=1}^{m}\alpha_iy_i=0\\ \alpha_i \geqslant 0 \quad i=1,2..m$
求解出 $\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},.....\alpha_n^{*})^{T}$
$w^{*}=\sum_{i=1}^{m}\alpha_i^{*}y_ix_i\\b^{*}=y_j-\sum_{i=1}^{m}\alpha_i^{*}y_i(x_i^{T}*x_j)$
分离超平面可以表示为
$\sum\limits_{i=1}^m {a_i^*{y_i}({x_i}^{T}{x_j})} + {b^*} = 0$
分类的决策函数可以写成
$sign(\sum\limits_{i=1}^m {a_i^*{y_i}({x_i}^T {x_j})} + {b^*})$

软间隔

在这里插入图片描述
上图的例子就是这样的一个例子了。无论怎么画直线都不可能把两类点完全分开。但如果我们可以容忍一部分点出现异常，或者不完全满足大于等于1的条件，那么就可以对每个样本点引入一个松弛变量 $ξ_i>0$ ，同时为目标函数需要为每个 $ξ_i$ 付出代价，这样线性svm的目标函数就变成了这样(原始问题）

$\begin{array}{l} \mathop {\max }\limits_{w,b,\xi } \qquad \frac{1}{2}{\left\| w \right\|^2} + C\sum\limits_{i = 1}^N { {\xi _i}} \\ {\rm{s.t.}} \qquad {y_i}(w \cdot {x_i} + b) \ge 1 - {\xi _i}, \qquad i = 1,2, \cdot \cdot \cdot ,N\\ \qquad \qquad {\xi _i} \ge 0, \qquad i = 1,2, \cdot \cdot \cdot ,N \end{array}$
对偶问题转变成
$\begin{array}{l} \mathop {\min }\limits_a \qquad \frac{1}{2}\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^m { {a_i}{a_j}{y_i}{y_j}({x_i}\cdot{x_j}) - \sum\limits_{i = 1}^m { {\alpha_i}} } } \quad (6.10)\\ {\rm{s.t.}}\qquad\sum\limits_{i = 1}^m { {\alpha_i}{y_i} = 0} \\ \qquad\qquad 0 \le {\alpha_i} \le C, \qquad i = 1,2,\cdot\cdot\cdot,N \end{array}$
选择一个 $\alpha^{∗}$ 的正分量 $0<\alpha^∗_j<C$ , 计算（或者通过所有解求平均值）：
${b^*} = {y_j} - \sum\limits_{i = 1}^m {\alpha_i^*{y_i}({x_i}^{T} {x_j})}$
决策函数为
$sign(\sum\limits_{i=1}^m {\alpha_i^*{y_i}K({x_i}, {x_j})} + {b^*})$
SMO是一种启发式算法，其基本思想是：如果所有变量的解都满足了此最优化问题的KKT条件，那么这个最优化问题的解就得到了。否则，选择两个变量，固定其它变量，针对这两个变量构建一个二次规划问题，然后关于这个二次规划的问题的解就更接近原始的二次归还问题的解，因为这个解使得需要优化的问题的函数值更小。

翻译一下：对于svm我们要求解 $\alpha^∗$ ，如果 $\alpha^∗$ 的所有分量满足svm对偶问题的KKT条件，那么这个问题的解就求出来了，我们svm模型学习也就完成了。如果没有满足KKT，那么我们就在 $\alpha^∗$ 中找两个分量 $\alpha_i$ 和 $\alpha_j$ ，其中 $\alpha_i$ 是违反KKT条件最严重的分量，通过计算，使得 $\alpha_i$ 和 $\alpha_j$ 满足KKT条件，直到 $\alpha^∗$ 的所有分量都满足KKT条件。而且这个计算过程是收敛的，因为每次计算出来的新的两个分量，使得对偶问题中要优化的目标函数（就是min对应的那个函数）值更小。至于为什么是收敛的，是因为，每次求解的那两个分量，是要优化问题在这两个分量上的极小值，所以每一次优化，都会使目标函数比上一次的优化结果的值变小。

$(6.10)$ 的对偶问题为
$\begin{array}{l} \quad {\alpha_i} = 0 \quad \Leftrightarrow \quad {y_i}g({x_i}) \ge 1\\ 0 < {\alpha_i} < C \quad \Leftrightarrow \quad {y_i}g({x_i}) = 1\\ \quad {\alpha_i} = C \quad \Leftrightarrow \quad {y_i}g({x_i}) \le 1 \end{array}$
其中 $\sum\limits_{i = 1}^m { {\alpha_i}{y_i}K({x_i},{x_j}) + b}$
因为计算机在计算的时候是有精度范围的，所以我们引入一个计算精度值 $ε$ ，
$\left\{ \begin{array}{l} {\alpha_i} = 0 \Leftrightarrow {y_i}g({x_i}) \ge 1 - \varepsilon \\ 0 < {\alpha_i} < C \Leftrightarrow 1 - \varepsilon \le {y_i}g({x_i}) \le 1 + \varepsilon \\ {\alpha_i} = C \Leftrightarrow {y_i}g({x_i}) \le 1 + \varepsilon \end{array} \right\} \Rightarrow \left\{ \begin{array}{l} {\alpha_i} < C \Leftrightarrow 1 - \varepsilon \le {y_i}g({x_i})\\ 0 < {\alpha_i} \Leftrightarrow {y_i}g({x_i}) \le 1 + \varepsilon \end{array} \right\}$
同时由于 $y_i=±1$ ，所以 $y_i∗y_i=1$ ，上面的公式可以换算为
$\begin{array}{l} {\alpha_i} < C \Leftrightarrow - \varepsilon \le {y_i}(g({x_i}) - {y_i})\\ 0 < {\alpha_i} \Leftrightarrow {y_i}(g({x_i}) - {y_i}) \le + \varepsilon \end{array}$
定义:
${E_i} = g({x_i}) - {y_i}$
其中， $g (x)$ 其实就是决策函数，所以 $E_i$ 可以认为是对输入的 $x_i$ 的预测值与真实输出 $y_i$ 之差。
上面的公式就可以换算为，即 $K K T$ 条件可以表示为：
$\begin{array}{l} {a_i} < C \Leftrightarrow - \varepsilon \le {y_i}{E_i}\\ 0 < {a_i} \Leftrightarrow {y_i}{E_i} \le + \varepsilon \end{array}$
那么相应的违规KKT条件的分量应该满足下列不等式：

$KKT:\\\begin{array}{l} {\alpha_i} < C \quad \Leftrightarrow \quad - \varepsilon > {y_i}{E_i}\\ 0 < {\alpha_i} \quad \Leftrightarrow \quad {y_i}{E_i} > + \varepsilon \end{array}$

SMO算法描述

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),⋅⋅⋅,(x_N,y_N)}$

其中 $x_i∈R^{n}$ ， $y_i∈\{−1,+1\}$ ， $i = 1, 2, \cdot \cdot \cdot, N$ ，精度 $ε$ 。

输出：近似解 $\alpha^{*}$
算法描述：

取初始值 $\alpha^{0}$ ，令 $K = 0$
选取优化变量 $a^{k}_{1} , a^{k}_{2}$ , 针对优化问题，求得最优解 $a^{k+1}_{1} , a^{k+1}_{2}$ 更新 $a^{k}$ 为 $a^{k+1}$ 。
在精度条件范围内是否满足停机条件，即是否有变量违反KKT条件，如果违反了，则令k=k+1，跳转(2)，否则(4)。
求得近似解 $\alpha^{*}=a^{k+1}$

计算选取变量的新值

首先计算出来的新值必须满足约束条件 $\sum\limits_{i = 1}^m { {a_i}{y_i} = 0}$ ，那么求出来的anew2需要满足下列条件:
$\begin{array}{l} L \le \alpha_2^{new} \le H\\ L = \max (0,\alpha_2^{old} - \alpha_1^{old}),H = \min (C,C + \alpha_2^{old} - \alpha_1^{old}), \qquad {y_1} \ne {y_2}\\ L = \max (0,\alpha_2^{old} + \alpha_1^{old} - C),H = \min (C,\alpha_2^{old} + \alpha_1^{old}), \qquad {y_1} = {y_2} \end{array}$

未经过裁剪的 $\alpha_2$ 的解为：
$\begin{array}{l} {a_2^{new,unc}} = {a_2^{old}} + \frac{ {y_2}({E_1}-{E_2)}}{\eta} \\ \eta = K_{11} + K_{22} - 2{K_{12}} \end{array}$
裁剪后的解为
$a_2^{new} = \left\{ \begin{array}{l} H,a_2^{new,unc} > H\\ a_2^{new,unc},L \le a_2^{new,unc} \le H\\ L,a_2^{new,unc} < L \end{array} \right.$
第一个变量的解为
$a_1^{new} = a_1^{old} + {y_1}{y_2}(a_2^{old} - a_2^{new})$
还需要更新 $b$ :
$\begin{array}{l} b_1^{new} = - {E_1} - {y_1}{K_{11}}(a_1^{new} - a_1^{old}) - {y_2}{K_{21}}(a_2^{new} - a_2^{old}) + {b^{old}}\\ b_2^{new} = - {E_2} - {y_1}{K_{12}}(a_1^{new} - a_1^{old}) - {y_2}{K_{22}}(a_2^{new} - a_2^{old}) + {b^{old}} \end{array}$
在更新 $b$ 时
$b^{new}=\left\{\begin{matrix} b_1^{new}\quad 0 \lt a_1^{new} \lt C \\ b_2^{new}\quad 0 \lt a_2^{new} \lt C \\ \frac{b_1^{new} + b_2^{new}}{2} \quad others\end{matrix}\right.$
由于缓存了 $E_i$ ,所以需要计算新的 $E_i$ :
$E_i^{new} = \sum\limits_{j=1}^m { {y_j}{a_j}K({x_i},{x_j})} + b^{new} - y_i$