背景
在 线性可分支持向量机 的基础上,我们考虑以下图这个情况:
图中有两个超平面红色线和黑色线。红色的超平面使得模型有更好的泛化效果。但是由于蓝色A异常点的存在,使得SVM模型学到的是黑色的超平面,这会影响到模型的预测效果。
更极端的情况是假设在B处有一蓝色的异常点,就会使得数据变成线性不可分。
为了解决这个问题,SVM引入软间隔最大化的方法来解决。
软间隔最大化
回顾线性可分SVM的硬间隔最大化条件
min
w
,
b
1
2
∣
∣
w
∣
∣
2
s
.
t
.
y
i
(
w
⋅
x
i
+
b
)
≥
1
,
i
=
1
,
2
,
…
,
N
\begin{aligned}&\min_{w,b}\frac{1}{2}||w||^2\\&s.t.\ \ \ y_i(w\cdot x_i+b)\geq 1, \quad i=1,2,\dots,N \\\end{aligned}
w,bmin21∣∣w∣∣2s.t. yi(w⋅xi+b)≥1,i=1,2,…,N
线性不可分意味着某些样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 不能满足函数间隔大于等于1得约束条件,软间隔最大化的思想时:允许部分点位于间隔内部,这些点到超平面的距离小于1。如下图所示:
所以,引入一个loss:
y i ( w x i + b ) ≥ 1 , l o s s = 0 y_i(wx_i+b) \geq 1,\quad loss=0 yi(wxi+b)≥1,loss=0
y i ( w x i + b ) < 1 , l o s s = 1 − y i ( w x i + b ) y_i(wx_i+b) < 1,\quad loss=1-y_i(wx_i+b) yi(wxi+b)<1,loss=1−yi(wxi+b)
即:
l
o
s
s
=
m
a
x
{
0
,
1
−
y
i
(
w
T
x
i
+
b
)
}
loss = max\{0,1-y_i(w^Tx_i+b)\}
loss=max{0,1−yi(wTxi+b)}
所以,对每一个样本点 ( x i , y i ) (x_i,y_i) (xi,yi)引入 ξ i \xi_i ξi, ξ i = 1 − y i ( w T x i + b ) , ξ i ≥ 0 \xi_i = 1-y_i(w^Tx_i+b), \quad \xi_i \geq 0 ξi=1−yi(wTxi+b),ξi≥0
说明:
(1)当样本点满足 y i ( w x i + b ) ≥ 1 y_i(wx_i+b) \geq 1 yi(wxi+b)≥1时, ξ i = 0 \xi_i=0 ξi=0。
(2)当样本点 y i ( w x i + b ) < 1 y_i(wx_i+b) <1 yi(wxi+b)<1 时,即样本点位于间隔内部, ξ i = 1 − y i ( w T x i + b ) \xi_i = 1-y_i(w^Tx_i+b) ξi=1−yi(wTxi+b) 表示样本点到边界 H 1 H_1 H1(或 H 2 H_2 H2)的距离。
这样 ξ i \xi_i ξi 就可以起到和loss一样的效果。
所以,在最小化最大距离时,同时也要最小化这个
ξ
i
\xi_i
ξi (让位于间隔内部的点尽量的靠近边界),目标函数由原来的
1
2
∣
∣
w
∣
∣
2
\frac{1}{2}||w||^2
21∣∣w∣∣2 变成:
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
N
ξ
i
\frac{1}{2}||w||^2 + C\sum_{i=1}^N\xi_i
21∣∣w∣∣2+Ci=1∑Nξi
这里的
C
>
0
C>0
C>0 称为惩罚系数。C值越大对误分类的惩罚越大,C值越小对误分类的惩罚越小。
因为$\xi_i $ 表示样本点
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi) 到边界
H
1
H_1
H1(或
H
2
H_2
H2)的距离,所以样本点到超平面的距离就变成了
1
−
ξ
i
1-\xi_i
1−ξi 。这样约束条件变为:
y
i
(
w
⋅
x
i
+
b
)
≥
1
−
ξ
i
,
i
=
1
,
2
,
…
,
N
y_i(w\cdot x_i+b)\geq 1-\xi_i, \quad i=1,2,\dots,N
yi(w⋅xi+b)≥1−ξi,i=1,2,…,N
所以,线性不可分支持向量机的学习问题变成了如下的凸二次规化问题(原始问题):
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
N
ξ
i
s
.
t
.
y
i
(
w
⋅
x
i
+
b
)
≥
1
−
ξ
i
,
i
=
1
,
2
,
…
,
N
ξ
i
≥
0
\begin{aligned}&\min_{w,b}\frac{1}{2}||w||^2 +C\sum_{i=1}^N\xi_i\\&s.t.\ \ \ y_i(w\cdot x_i+b)\geq 1-\xi_i, \quad i=1,2,\dots,N\\ &\qquad \xi_i \geq 0 \end{aligned}
w,bmin21∣∣w∣∣2+Ci=1∑Nξis.t. yi(w⋅xi+b)≥1−ξi,i=1,2,…,Nξi≥0
学习的对偶算法
和线性可分SVM的优化方式类似,首先将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题如下:
L
(
w
,
b
,
ξ
,
α
,
μ
)
=
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
N
ξ
i
+
∑
i
=
1
N
α
i
[
1
−
ξ
i
−
y
i
(
w
T
x
i
+
b
)
]
+
∑
i
=
1
N
μ
i
(
−
ξ
i
)
L(w,b,\xi,\alpha,\mu) = \frac{1}{2}||w||^2 +C\sum\limits_{i=1}^{N}\xi_i + \sum\limits_{i=1}^{N}\alpha_i[1 - \xi_i - y_i(w^T x_i +b)] + \sum\limits_{i=1}^{N}\mu_i(-\xi_i)
L(w,b,ξ,α,μ)=21∣∣w∣∣2+Ci=1∑Nξi+i=1∑Nαi[1−ξi−yi(wTxi+b)]+i=1∑Nμi(−ξi)
其中
α
i
≥
0
,
μ
i
≥
0
\alpha_i \geq 0,\mu_i \geq 0
αi≥0,μi≥0 均为拉格朗日乘子。于是要优化的目标函数等价为:
min
w
,
b
,
ξ
max
α
i
≥
0
,
μ
i
≥
0
L
(
w
,
b
,
α
,
ξ
,
μ
)
\min\limits_{w,b,\xi} \;\max\limits_{\alpha_i \geq 0, \;\mu_i \geq 0} L(w,b,\alpha, \xi,\mu)
w,b,ξminαi≥0,μi≥0maxL(w,b,α,ξ,μ)
其对偶问题为:
max
α
i
≥
0
,
μ
i
≥
0
min
w
,
b
,
ξ
L
(
w
,
b
,
α
,
ξ
,
μ
)
\max\limits_{\alpha_i \geq 0, \;\mu_i \geq 0}\;\min\limits_{w,b,\xi} L(w,b,\alpha, \xi,\mu)
αi≥0,μi≥0maxw,b,ξminL(w,b,α,ξ,μ)
首先是优化函数的
w
,
b
,
ξ
w, b, \xi
w,b,ξ求极小值,对变量求偏导得:
∂
L
∂
w
=
0
⇒
w
=
∑
i
=
1
N
α
i
y
i
x
i
\frac{\partial L}{\partial w} = 0 \;\Rightarrow w = \sum\limits_{i=1}^{N}\alpha_iy_ix_i
∂w∂L=0⇒w=i=1∑Nαiyixi
∂ L ∂ b = 0 ⇒ ∑ i = 1 N α i y i = 0 \frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{N}\alpha_iy_i = 0 ∂b∂L=0⇒i=1∑Nαiyi=0
∂ L ∂ ξ i = 0 ⇒ C − α i − μ i = 0 \frac{\partial L}{\partial \xi_i} = 0 \;\Rightarrow C- \alpha_i - \mu_i = 0 ∂ξi∂L=0⇒C−αi−μi=0
将求导结果代入拉格朗日函数得到:
L
(
w
,
b
,
ξ
,
α
,
μ
)
=
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
N
ξ
i
+
∑
i
=
1
N
α
i
[
1
−
ξ
i
−
y
i
(
w
T
x
i
+
b
)
]
+
∑
i
=
1
N
μ
i
(
−
ξ
i
)
=
1
2
∣
∣
w
∣
∣
2
−
∑
i
=
1
N
α
i
[
y
i
(
w
T
x
i
+
b
)
−
1
+
ξ
i
]
+
∑
i
=
1
N
α
i
ξ
i
=
1
2
∣
∣
w
∣
∣
2
−
∑
i
=
1
N
α
i
[
y
i
(
w
T
x
i
+
b
)
−
1
]
=
1
2
w
T
w
−
∑
i
=
1
N
α
i
y
i
w
T
x
i
−
∑
i
=
1
N
α
i
y
i
b
+
∑
i
=
1
N
α
i
=
1
2
w
T
∑
i
=
1
N
α
i
y
i
x
i
−
∑
i
=
1
N
α
i
y
i
w
T
x
i
−
∑
i
=
1
N
α
i
y
i
b
+
∑
i
=
1
N
α
i
=
1
2
w
T
∑
i
=
1
N
α
i
y
i
x
i
−
w
T
∑
i
=
1
N
α
i
y
i
x
i
−
∑
i
=
1
N
α
i
y
i
b
+
∑
i
=
1
N
α
i
=
−
1
2
w
T
∑
i
=
1
N
α
i
y
i
x
i
−
∑
i
=
1
N
α
i
y
i
b
+
∑
i
=
1
N
α
i
=
−
1
2
w
T
∑
i
=
1
N
α
i
y
i
x
i
−
b
∑
i
=
1
N
α
i
y
i
+
∑
i
=
1
N
α
i
=
−
1
2
(
∑
i
=
1
N
α
i
y
i
x
i
)
T
(
∑
i
=
1
N
α
i
y
i
x
i
)
−
b
∑
i
=
1
N
α
i
y
i
+
∑
i
=
1
N
α
i
=
−
1
2
∑
i
=
1
N
α
i
y
i
x
i
T
∑
i
=
1
N
α
i
y
i
x
i
−
b
∑
i
=
1
N
α
i
y
i
+
∑
i
=
1
N
α
i
=
−
1
2
∑
i
=
1
N
α
i
y
i
x
i
T
∑
i
=
1
N
α
i
y
i
x
i
+
∑
i
=
1
N
α
i
=
−
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
y
i
x
i
T
α
j
y
j
x
j
+
∑
i
=
1
N
α
i
=
∑
i
=
1
N
α
i
−
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
\begin{aligned} L(w,b,\xi,\alpha,\mu) & = \frac{1}{2}||w||^2 +C\sum\limits_{i=1}^{N}\xi_i + \sum\limits_{i=1}^{N}\alpha_i[1 - \xi_i - y_i(w^T x_i +b)] + \sum\limits_{i=1}^{N}\mu_i(-\xi_i) \\&= \frac{1}{2}||w||^2 - \sum\limits_{i=1}^{N}\alpha_i[y_i(w^Tx_i + b) - 1 + \xi_i] + \sum\limits_{i=1}^{N}\alpha_i\xi_i \\& = \frac{1}{2}||w||^2 - \sum\limits_{i=1}^{N}\alpha_i[y_i(w^Tx_i + b) - 1] \\& = \frac{1}{2}w^Tw-\sum\limits_{i=1}^{N}\alpha_iy_iw^Tx_i - \sum\limits_{i=1}^{N}\alpha_iy_ib + \sum\limits_{i=1}^{N}\alpha_i \\& = \frac{1}{2}w^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i -\sum\limits_{i=1}^{N}\alpha_iy_iw^Tx_i - \sum\limits_{i=1}^{N}\alpha_iy_ib + \sum\limits_{i=1}^{N}\alpha_i \\& = \frac{1}{2}w^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i - w^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i - \sum\limits_{i=1}^{N}\alpha_iy_ib + \sum\limits_{i=1}^{N}\alpha_i \\& = - \frac{1}{2}w^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i - \sum\limits_{i=1}^{N}\alpha_iy_ib + \sum\limits_{i=1}^{N}\alpha_i \\& = - \frac{1}{2}w^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i - b\sum\limits_{i=1}^{N}\alpha_iy_i + \sum\limits_{i=1}^{N}\alpha_i \\& = -\frac{1}{2}(\sum\limits_{i=1}^{N}\alpha_iy_ix_i)^T(\sum\limits_{i=1}^{N}\alpha_iy_ix_i) - b\sum\limits_{i=1}^{N}\alpha_iy_i + \sum\limits_{i=1}^{N}\alpha_i \\& = -\frac{1}{2}\sum\limits_{i=1}^{N}\alpha_iy_ix_i^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i - b\sum\limits_{i=1}^{N}\alpha_iy_i + \sum\limits_{i=1}^{N}\alpha_i \\& = -\frac{1}{2}\sum\limits_{i=1}^{N}\alpha_iy_ix_i^T\sum\limits_{i=1}^{N}\alpha_iy_ix_i + \sum\limits_{i=1}^{N}\alpha_i \\& = -\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^N\alpha_iy_ix_i^T\alpha_jy_jx_j + \sum\limits_{i=1}^{N}\alpha_i \\& = \sum\limits_{i=1}^{N}\alpha_i - \frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^N \alpha_i\alpha_jy_iy_jx_i^Tx_j \end{aligned}
L(w,b,ξ,α,μ)=21∣∣w∣∣2+Ci=1∑Nξi+i=1∑Nαi[1−ξi−yi(wTxi+b)]+i=1∑Nμi(−ξi) =21∣∣w∣∣2−i=1∑Nαi[yi(wTxi+b)−1+ξi]+i=1∑Nαiξi=21∣∣w∣∣2−i=1∑Nαi[yi(wTxi+b)−1]=21wTw−i=1∑NαiyiwTxi−i=1∑Nαiyib+i=1∑Nαi=21wTi=1∑Nαiyixi−i=1∑NαiyiwTxi−i=1∑Nαiyib+i=1∑Nαi=21wTi=1∑Nαiyixi−wTi=1∑Nαiyixi−i=1∑Nαiyib+i=1∑Nαi=−21wTi=1∑Nαiyixi−i=1∑Nαiyib+i=1∑Nαi=−21wTi=1∑Nαiyixi−bi=1∑Nαiyi+i=1∑Nαi=−21(i=1∑Nαiyixi)T(i=1∑Nαiyixi)−bi=1∑Nαiyi+i=1∑Nαi=−21i=1∑NαiyixiTi=1∑Nαiyixi−bi=1∑Nαiyi+i=1∑Nαi=−21i=1∑NαiyixiTi=1∑Nαiyixi+i=1∑Nαi=−21i=1∑Nj=1∑NαiyixiTαjyjxj+i=1∑Nαi=i=1∑Nαi−21i=1∑Nj=1∑NαiαjyiyjxiTxj
所以最后计算结果和线性可分的SVM也一样,唯一不同的只是约束条件。
继续对式子求极大:
max
α
∑
i
=
1
N
α
i
−
1
2
∑
i
=
1
,
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
s
.
t
.
∑
i
=
1
N
α
i
y
i
=
0
C
−
α
i
−
μ
i
=
0
α
i
≥
0
(
i
=
1
,
2
,
.
.
.
,
m
)
μ
i
≥
0
(
i
=
1
,
2
,
.
.
.
,
m
)
\max \limits_{\alpha} \quad \sum\limits_{i=1}^{N}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ s.t. \;\; \sum\limits_{i=1}^{N}\alpha_iy_i = 0\\ C- \alpha_i - \mu_i = 0\\ \alpha_i \geq 0 \;(i =1,2,...,m) \\ \mu_i \geq 0 \;(i =1,2,...,m)
αmaxi=1∑Nαi−21i=1,j=1∑NαiαjyiyjxiTxjs.t.i=1∑Nαiyi=0C−αi−μi=0αi≥0(i=1,2,...,m)μi≥0(i=1,2,...,m)
对于
C
−
α
i
−
μ
i
=
0
,
α
i
≥
0
,
μ
i
≥
0
C- \alpha_i - \mu_i = 0 , \alpha_i \geq 0 ,\mu_i \geq 0
C−αi−μi=0,αi≥0,μi≥0有:
C
−
α
i
=
μ
i
≥
0
⇒
C
≥
α
i
⇒
0
≤
α
i
≤
C
\begin{aligned} &C- \alpha_i = \mu_i \ge 0 \\ &\Rightarrow \quad C \ge \alpha_i\\ &\Rightarrow 0 \le \alpha_i \le C \end{aligned}
C−αi=μi≥0⇒C≥αi⇒0≤αi≤C
基于上面的条件
0
≤
α
i
≤
C
0 \le \alpha_i \le C
0≤αi≤C,同时将目标函数变号求极小值,得到:
max
α
∑
i
=
1
N
α
i
−
1
2
∑
i
=
1
,
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
s
.
t
.
∑
i
=
1
N
α
i
y
i
=
0
0
≤
α
i
≤
C
\max \limits_{\alpha} \quad \sum\limits_{i=1}^{N}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ s.t. \;\; \sum\limits_{i=1}^{N}\alpha_iy_i = 0\\ 0 \le \alpha_i \le C
αmaxi=1∑Nαi−21i=1,j=1∑NαiαjyiyjxiTxjs.t.i=1∑Nαiyi=00≤αi≤C
上面的式子就是软间隔最大化SVM的优化目标,与硬间隔SVM相比,约束条件中的
0
≤
α
i
0 \le \alpha_i
0≤αi变为
0
≤
α
i
≤
C
0 \le \alpha_i \le C
0≤αi≤C。这样的问题同样可以使用SMO算法求极小值,进而求出w,b。
学习算法
输入:训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } , T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}, T={(x1,y1),(x2,y2),…,(xN,yN)},
其中,
x
i
∈
X
=
R
n
,
y
i
∈
Y
=
{
−
1
,
+
1
}
,
i
=
1
,
2
,
…
,
N
;
0
<
η
⩽
1
x_i\in \mathcal X=\mathbf R^n , y_i\in \mathcal Y\it =\{-1,+1\}, i=1,2,\dots,N; \ \ 0<\eta\leqslant 1
xi∈X=Rn,yi∈Y={−1,+1},i=1,2,…,N; 0<η⩽1
输出:分离超平面和分类决策函数
(1)选择惩罚参数
C
>
0
C>0
C>0 ,构造并求解凸二次规划问题
max
α
∑
i
=
1
N
α
i
−
1
2
∑
i
=
1
,
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
s
.
t
.
∑
i
=
1
N
α
i
y
i
=
0
0
≤
α
i
≤
C
\max \limits_{\alpha} \quad\sum\limits_{i=1}^{N}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\s.t. \;\; \sum\limits_{i=1}^{N}\alpha_iy_i = 0\\0 \le \alpha_i \le C
αmaxi=1∑Nαi−21i=1,j=1∑NαiαjyiyjxiTxjs.t.i=1∑Nαiyi=00≤αi≤C
采用SMO算法求得最优解
α
∗
=
(
α
1
∗
,
α
2
∗
,
…
α
N
∗
)
T
\alpha^* = (\alpha_1^*,\alpha_2^*,\ldots\alpha_N^*)^T
α∗=(α1∗,α2∗,…αN∗)T
(2)计算 w ∗ = ∑ i = 1 N α i ∗ y i x i w^* = \sum_{i=1}^N \alpha_i^*y_ix_i w∗=∑i=1Nαi∗yixi
(3)找到所有的S个支持向量
(
x
s
,
y
s
)
(x_s,y_s)
(xs,ys),计算:
b
s
∗
=
y
s
−
(
w
∗
)
T
x
s
=
y
s
−
∑
i
=
1
m
α
i
∗
y
i
x
i
T
x
s
b^*_s = y_s - (w^*)^Tx_s = y_s -\sum\limits_{i=1}^{m}\alpha_i^{*}y_ix_i^Tx_s
bs∗=ys−(w∗)Txs=ys−i=1∑mαi∗yixiTxs
最终得到:
b
∗
=
1
S
∑
i
=
1
S
b
s
∗
b^{*} = \frac{1}{S}\sum\limits_{i=1}^{S}b_s^{*}
b∗=S1i=1∑Sbs∗
(4) 得到划分超平面与决策函数:
w
∗
T
x
+
b
∗
=
0
f
(
x
)
=
s
i
g
n
(
w
∗
T
x
+
b
∗
)
w^{*T}x+b^* = 0 \\ f(x) = sign(w^{*T} x + b^{*})
w∗Tx+b∗=0f(x)=sign(w∗Tx+b∗)
软间隔最大化的支持向量
硬间隔最大化SVM,所有满足 α i ∗ > 0 \alpha_{i}^{*}\gt0 αi∗>0的样本 i i i即为支持向量。对于软间隔最大化的SVM,由于引入了松弛变量 ξ i \xi_i ξi,支持向量的判断稍微复杂一些。
如下图所示, ξ i ∣ ∣ w ∣ ∣ 2 \frac{\xi_i}{||w||_2} ∣∣w∣∣2ξi 表示实例$x_i $到间隔边界的距离。
软间隔支持向量 x i x_i xi分布在间隔边界上和间隔边界内,还可能在分离超平面误分类的一侧,具体说明如下:
(1) 如果 α i = 0 \alpha_i = 0 αi=0,那么该样本的约束无效,可能在间隔边界上或者已经被正确分类。如图中所有远离间隔边界的点。
(2) 如果 0 < α i < C 0 \lt \alpha_i \lt C 0<αi<C,且 ξ i = 0 , y i ( w T x i + b ) − 1 = 0 \xi_i = 0 ,\;\; y_i(w^Tx_i + b) - 1 = 0 ξi=0,yi(wTxi+b)−1=0,即点在间隔边界上(蓝框部分)。
(3) 如果 α i = C \alpha_i = C αi=C,说明这是一个可能比较异常的点,需要检查此时 ξ i \xi_i ξi:
-
如果 0 < ξ i < 1 0 <\xi_i < 1 0<ξi<1,那么点被正确分类,点位于间隔边界和超平面之间(黄框部分)。
-
如果 ξ i = 1 \xi_i =1 ξi=1,那么点在分离超平面上。
-
如果 ξ i > 1 \xi_i \gt 1 ξi>1,那么点在超平面的误分类一侧(红框部分)。