个人笔记,非教程
将两类样本用以下超平面进行划分
w T x + b = 0 w^Tx+b=0 wTx+b=0
让所有样本都划分正确
w
T
x
+
+
b
≥
1
,
x
+
∈
第
一
类
数
据
,
y
+
=
+
1
w^Tx_++b\geq 1, x_+\in 第一类数据,y_+=+1
wTx++b≥1,x+∈第一类数据,y+=+1
w
T
x
−
+
b
≤
−
1
,
x
−
∈
第
二
类
数
据
,
y
−
=
−
1
w^Tx_-+b\leq -1, x_-\in 第二类数据,y_-=-1
wTx−+b≤−1,x−∈第二类数据,y−=−1
目标:找到最靠近划分超平面的数据 x x x, x x x到划分超平面的距离 d d d,最大化这个距离 d d d
d = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^Tx+b|}{||w||} d=∣∣w∣∣∣wTx+b∣
max ∣ w T x + + b ∣ ∣ ∣ w ∣ ∣ + ∣ w T x − + b ∣ ∣ ∣ w ∣ ∣ \max \frac{|w^Tx_++b|}{||w||}+\frac{|w^Tx_-+b|}{||w||} max∣∣w∣∣∣wTx++b∣+∣∣w∣∣∣wTx−+b∣
因为改变 w w w的长度来改变 ∣ w T x + b ∣ |w^Tx+b| ∣wTx+b∣的大小,所以我们可以固定 ∣ w T x + b ∣ = 1 |w^Tx+b|=1 ∣wTx+b∣=1
max
1
∣
∣
w
∣
∣
+
1
∣
∣
w
∣
∣
=
2
∣
∣
w
∣
∣
\max \frac{1}{||w||}+\frac{1}{||w||}=\frac{2}{||w||}
max∣∣w∣∣1+∣∣w∣∣1=∣∣w∣∣2
等价于
min
1
2
∣
∣
w
∣
∣
2
\min \frac 12 ||w||^2
min21∣∣w∣∣2
同理可以将划分标准改为
w
T
x
+
+
b
≥
+
1
,
x
+
∈
第
一
类
数
据
,
y
+
=
+
1
w^Tx_++b\geq +1, x_+\in 第一类数据,y_+=+1
wTx++b≥+1,x+∈第一类数据,y+=+1
w
T
x
−
+
b
≤
−
1
,
x
−
∈
第
二
类
数
据
,
y
−
=
−
1
w^Tx_-+b\leq -1, x_-\in 第二类数据,y_-=-1
wTx−+b≤−1,x−∈第二类数据,y−=−1
上面二式可统一写为
y
i
(
w
T
x
i
+
b
)
≥
1
y_i(w^Tx_i+b)\geq 1
yi(wTxi+b)≥1
最终目标
min
w
,
b
1
2
∣
∣
w
∣
∣
2
\min_{w,b} \ \ \ \frac 12 ||w||^2
w,bmin 21∣∣w∣∣2
s
.
t
.
y
i
(
w
T
x
i
+
b
)
≥
1
s.t.\ \ \ y_i(w^Tx_i+b)\geq 1
s.t. yi(wTxi+b)≥1
拉格朗日
L
(
w
,
b
,
α
)
=
1
2
∣
∣
w
∣
∣
2
+
∑
i
=
1
N
α
i
(
1
−
y
i
(
w
T
x
i
+
b
)
)
L(w,b,\alpha)=\frac 12 ||w||^2+\sum_{i=1}^{N}\alpha_i(1-y_i(w^Tx_i+b))
L(w,b,α)=21∣∣w∣∣2+i=1∑Nαi(1−yi(wTxi+b))
其中
α
i
≥
0
,
1
−
y
i
(
w
T
x
i
+
b
)
≤
0
\alpha_i\geq 0,1-y_i(w^Tx_i+b)\leq 0
αi≥0,1−yi(wTxi+b)≤0
∂
L
(
w
,
b
,
α
)
∂
w
=
w
+
∑
i
=
1
N
α
i
y
i
x
i
\frac{\partial L(w,b,\alpha)}{\partial w}=w+\sum_{i=1}^{N}\alpha_iy_ix_i
∂w∂L(w,b,α)=w+i=1∑Nαiyixi
∂
L
(
w
,
b
,
α
)
∂
b
=
∑
i
=
1
N
α
i
y
i
\frac{\partial L(w,b,\alpha)}{\partial b}=\sum_{i=1}^{N}\alpha_iy_i
∂b∂L(w,b,α)=i=1∑Nαiyi
令偏导为零得
w
=
∑
i
=
1
N
α
i
y
i
x
i
w=\sum_{i=1}^{N}\alpha_iy_ix_i
w=i=1∑Nαiyixi
∑
i
=
1
N
α
i
y
i
=
0
\sum_{i=1}^{N}\alpha_iy_i=0
i=1∑Nαiyi=0
代回 L ( w , b , α ) L(w,b,\alpha) L(w,b,α)中得
L
(
w
,
b
,
α
)
=
1
2
(
∑
i
=
1
N
α
i
y
i
x
i
)
T
(
∑
j
=
1
N
α
j
y
j
x
j
)
+
∑
j
=
1
N
α
j
(
1
−
y
j
(
(
∑
i
=
1
N
α
i
y
i
x
i
)
T
x
j
+
b
)
)
=
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
+
∑
i
=
1
N
α
i
−
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
−
∑
i
=
1
N
α
i
y
i
b
=
−
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
+
∑
i
=
1
N
α
i
\begin{aligned} L(w,b,\alpha)&=\frac 12 (\sum_{i=1}^{N}\alpha_iy_ix_i)^T(\sum_{j=1}^{N}\alpha_jy_jx_j)+\sum_{j=1}^{N}\alpha_j(1-y_j((\sum_{i=1}^{N}\alpha_iy_ix_i)^Tx_j+b)) \\ &=\frac 12 \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{N}\alpha_i-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^{N}\alpha_iy_ib \\ &=-\frac 12 \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{N}\alpha_i \end{aligned}
L(w,b,α)=21(i=1∑Nαiyixi)T(j=1∑Nαjyjxj)+j=1∑Nαj(1−yj((i=1∑Nαiyixi)Txj+b))=21i=1∑Nj=1∑NαiαjyiyjxiTxj+i=1∑Nαi−i=1∑Nj=1∑NαiαjyiyjxiTxj−i=1∑Nαiyib=−21i=1∑Nj=1∑NαiαjyiyjxiTxj+i=1∑Nαi
s
.
t
.
∑
i
=
1
N
α
i
y
i
=
0
,
α
i
≥
0
s.t. \ \ \ \sum_{i=1}^{N}\alpha_iy_i=0,\ \ \ \alpha_i\geq0
s.t. i=1∑Nαiyi=0, αi≥0
定义 θ ( w , b ) = max α L ( w , b , α ) \theta(w,b)=\max_{\alpha}L(w,b,\alpha) θ(w,b)=maxαL(w,b,α)
θ ( w , b ) = { 1 2 ∣ ∣ w ∣ ∣ 2 ∀ x i , 1 − y i ( w T x i + b ) ≤ 0 + ∞ ∃ x i , 1 − y i ( w T x i + b ) > 0 \theta(w,b)= \begin{cases} \frac12 ||w||^2\ \ \ \forall x_i,1-y_i(w^Tx_i+b)\leq0\\ +\infty\ \ \ \exist x_i,1-y_i(w^Tx_i+b)>0 \end{cases} θ(w,b)={21∣∣w∣∣2 ∀xi,1−yi(wTxi+b)≤0+∞ ∃xi,1−yi(wTxi+b)>0
则最终目标
min
w
,
b
θ
(
w
,
b
)
=
min
w
,
b
max
α
−
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
+
∑
i
=
1
N
α
i
\min_{w,b} \theta(w,b)=\min_{w,b} \max_{\alpha}-\frac 12 \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{N}\alpha_i
w,bminθ(w,b)=w,bminαmax−21i=1∑Nj=1∑NαiαjyiyjxiTxj+i=1∑Nαi
s
.
t
.
∑
i
=
1
N
α
i
y
i
=
0
,
α
i
≥
0
s.t. \ \ \ \sum_{i=1}^{N}\alpha_iy_i=0,\ \ \ \alpha_i\geq0
s.t. i=1∑Nαiyi=0, αi≥0
软间隔SVM
采用hinge损失
ξ
i
=
max
(
0
,
1
−
y
i
(
w
T
x
i
+
b
)
)
\xi_i=\max(0,1-y_i(w^Tx_i+b))
ξi=max(0,1−yi(wTxi+b))
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
N
ξ
i
\min_{w,b} \ \ \ \frac 12 ||w||^2+C\sum_{i=1}^{N}\xi_i
w,bmin 21∣∣w∣∣2+Ci=1∑Nξi
s
.
t
.
y
i
(
w
T
x
i
+
b
)
≥
1
−
ξ
i
,
ξ
i
≥
0
s.t.\ \ \ y_i(w^Tx_i+b)\geq 1-\xi_i,\ \ \xi_i\geq 0
s.t. yi(wTxi+b)≥1−ξi, ξi≥0
拉格朗日
L
(
w
,
b
,
α
,
ξ
,
μ
)
=
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
N
ξ
i
+
∑
i
=
1
N
α
i
(
1
−
y
i
(
w
T
x
i
+
b
)
−
ξ
i
)
−
∑
i
=
1
N
μ
i
ξ
i
L(w,b,\alpha,\xi,\mu)=\frac12||w||^2+C\sum_{i=1}^{N}\xi_i+\sum_{i=1}^{N}\alpha_i(1-y_i(w^Tx_i+b)-\xi_i)-\sum_{i=1}^{N}\mu_i \xi_i
L(w,b,α,ξ,μ)=21∣∣w∣∣2+Ci=1∑Nξi+i=1∑Nαi(1−yi(wTxi+b)−ξi)−i=1∑Nμiξi
其中
α
i
≥
0
\alpha_i\geq 0
αi≥0,
ξ
i
≥
0
\xi_i\geq 0
ξi≥0,为拉格朗日乘子
令
L
(
w
,
b
,
α
,
ξ
,
μ
)
L(w,b,\alpha,\xi,\mu)
L(w,b,α,ξ,μ)对
w
,
b
,
ξ
i
w,b,\xi_i
w,b,ξi的偏导为零可得
w
=
∑
i
=
1
N
α
i
y
i
x
i
w=\sum_{i=1}^{N}\alpha_iy_ix_i
w=i=1∑Nαiyixi
∑
i
=
1
N
α
i
y
i
=
0
\sum_{i=1}^{N}\alpha_iy_i=0
i=1∑Nαiyi=0
C
=
α
i
+
μ
i
C=\alpha_i+\mu_i
C=αi+μi
代入
L
(
w
,
b
,
α
,
ξ
,
μ
)
L(w,b,\alpha,\xi,\mu)
L(w,b,α,ξ,μ)得原目标函数的对偶问题
max
α
∑
i
=
1
N
α
i
−
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
\max_{\alpha}\sum_{i=1}^{N}\alpha_i-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j
αmaxi=1∑Nαi−i=1∑Nj=1∑NαiαjyiyjxiTxj
s
.
t
.
∑
i
=
1
N
α
i
y
i
=
0
,
0
≤
α
i
≤
C
s.t.\ \ \ \sum_{i=1}^{N}\alpha_iy_i=0,\ \ \ 0\leq \alpha_i\leq C
s.t. i=1∑Nαiyi=0, 0≤αi≤C