1、硬间隔(hard-margin)
1)基础公式推导
口头禅:SVM有三宝:间隔对偶核技巧
分类:
h
a
r
d
−
m
a
r
g
i
n
S
V
M
s
o
f
t
−
m
a
r
g
i
n
S
V
M
k
e
m
e
l
−
m
a
r
g
i
n
S
V
M
hard-margin SVM\\soft-marginSVM\\kemel-marginSVM
hard−marginSVMsoft−marginSVMkemel−marginSVM
函数:
f
(
x
)
=
s
i
g
n
(
w
T
x
+
b
)
,
判别模型
f(x)=sign(w^Tx+b),判别模型
f(x)=sign(wTx+b),判别模型
距离样本点间隔最大
最大间隔分类器(max margin(w,b)):
{
s
.
t
.
w
T
x
+
b
>
0
,
y
i
=
1
w
T
x
+
b
<
0
,
y
i
=
−
1
\begin{cases} s.t. w^Tx+b>0,y_i=1\\ w^Tx+b<0,y_i=-1 \end{cases}
{s.t.wTx+b>0,yi=1wTx+b<0,yi=−1
整合之后为:
y
i
∗
(
w
T
x
i
+
b
)
>
0
,
i
=
1
,
2
,
.
.
.
,
n
,
y_i*(w^Tx_i+b)>0,i=1,2,...,n,
yi∗(wTxi+b)>0,i=1,2,...,n,
定义变量
m
a
r
g
i
n
(
w
,
b
)
,
d
i
s
t
a
n
c
e
(
w
.
b
,
x
i
)
,
margin(w,b),distance(w.b,x_i),
margin(w,b),distance(w.b,xi),
记
{
m
a
r
g
i
n
(
w
,
b
)
=
m
i
n
d
i
s
t
a
n
c
e
(
w
.
b
,
x
i
)
,
i
=
1
,
2
,
.
.
.
,
n
=
m
i
n
1
∣
∣
w
∣
∣
∣
w
T
x
i
+
b
∣
,
\begin{cases} margin(w,b)=min~distance(w.b,x_i),i=1,2,...,n\\ =min~\frac{1}{||w||}|w^Tx_i+b|, \end{cases}
{margin(w,b)=min distance(w.b,xi),i=1,2,...,n=min ∣∣w∣∣1∣wTxi+b∣,
则约束条件变为:
{
max
min
1
∣
∣
w
∣
∣
y
i
(
w
T
+
b
)
=
max
w
.
b
1
w
min
y
i
(
w
T
x
i
+
b
)
,
s
.
t
.
y
i
(
w
T
x
i
+
b
)
>
0
⇒
∃
γ
>
0
,
s
.
t
.
min
y
i
(
w
T
+
b
)
=
γ
\begin{cases} ~\max\min\frac{1}{||w||}y_i(w^T+b)=\max_{w.b}\frac{1}{w}\min y_i(w^Tx_i+b),\\ s.t.~y_i(w^Tx_i+b)>0\Rightarrow~\exists~\gamma>0,s.t.~\min y_i(w^T+b)=\gamma\\ \end{cases}
{ maxmin∣∣w∣∣1yi(wT+b)=maxw.bw1minyi(wTxi+b),s.t. yi(wTxi+b)>0⇒ ∃ γ>0,s.t. minyi(wT+b)=γ
将 γ 按比例放缩为 1 ,并代入方程,得 s . t . { max w . b 1 w min y i ( w T x i + b ) = max 1 ∣ ∣ w ∣ ∣ = min 1 2 w T w s . t . y i ( w T x i ) ≥ 1 i = 1 , 2 , . . . , n 将\gamma按比例放缩为1,并代入方程,得\\ s.t.\begin{cases} \max_{w.b}\frac{1}{w}\min y_i(w^Tx_i+b)=\max\frac{1}{||w||}=\min\frac{1}{2}w^Tw\\ s.t.~y_i(w^Tx_i)\geq1~i=1,2,...,n \end{cases} 将γ按比例放缩为1,并代入方程,得s.t.{maxw.bw1minyi(wTxi+b)=max∣∣w∣∣1=min21wTws.t. yi(wTxi)≥1 i=1,2,...,n
以上就是几何意义的约束转化成数学表达式以及约束条件。
2)拉格朗日乘子
上一小节里构造出了最终的有约束条件,现在构造拉格朗日函数将有约束问题转化为无约束问题,具体操作为构造拉格朗日函数:
L
(
w
,
b
,
λ
)
=
1
2
w
T
w
+
∑
i
=
1
n
λ
i
(
1
−
y
i
(
w
T
x
i
+
b
i
)
)
L(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^n\lambda_i(1-y_i(w^Tx_i+b_i))
L(w,b,λ)=21wTw+i=1∑nλi(1−yi(wTxi+bi))
构造强对偶条件(1)、(2)分别为
{
min
w
,
b
max
λ
L
(
w
,
b
,
λ
)
,
s
.
t
.
λ
i
≥
0
(
1
)
{
min
λ
min
w
,
b
L
(
w
,
b
,
λ
)
,
s
.
t
.
λ
i
≥
0
(
2
)
\begin{cases} \min_{w,b} \max_\lambda L(w,b,\lambda),\\ s.t.~\lambda_i\geq0 \end{cases} (1)\\ \begin{cases} \min_\lambda \min_{w,b}L(w,b,\lambda),\\ s.t.~\lambda_i\geq0 \end{cases}(2)
{minw,bmaxλL(w,b,λ),s.t. λi≥0(1){minλminw,bL(w,b,λ),s.t. λi≥0(2)
对于条件(1),当
1
−
y
i
(
w
T
x
i
+
b
i
)
>
0
时,
max
λ
L
(
w
,
b
,
λ
)
→
+
∞
1-y_i(w^Tx_i+b_i)>0时,\\ \max_\lambda L(w,b,\lambda) \rightarrow+\infty
1−yi(wTxi+bi)>0时,λmaxL(w,b,λ)→+∞
当
1
−
y
i
(
w
T
x
i
+
b
i
)
≤
0
时,
max
λ
L
(
w
,
b
,
λ
)
=
1
2
w
T
w
1-y_i(w^Tx_i+b_i)\leq 0时,\\ \max_\lambda L(w,b,\lambda)=\frac{1}{2}w^Tw
1−yi(wTxi+bi)≤0时,λmaxL(w,b,λ)=21wTw
约束条件(1)变为
m
i
n
w
,
b
1
2
w
T
w
(
1
)
min_{w,b}~\frac{1}{2}w^Tw~(1)
minw,b 21wTw (1)
对于条件(2),当
令
∂
∂
b
L
(
w
,
b
,
x
)
=
0
,
解得
∑
i
−
1
n
λ
i
y
i
=
0
,
代入
L
,
得
L
1
(
w
,
x
)
=
1
2
w
T
w
+
∑
i
=
1
n
λ
i
−
∑
i
=
1
n
λ
i
y
i
w
T
x
i
,
(
2.1
)
令\frac{\partial }{\partial b}L(w,b,x) = 0,\\ 解得\sum_{i-1}^n\lambda_iy_i=0, \\代入L,得\\L_1(w,x)=\frac{1}{2}w^Tw+\sum_{i=1}^n\lambda_i-\sum_{i=1}^n\lambda_iy_iw^Tx_i,~~~(2.1)
令∂b∂L(w,b,x)=0,解得i−1∑nλiyi=0,代入L,得L1(w,x)=21wTw+i=1∑nλi−i=1∑nλiyiwTxi, (2.1)
接着对L1求偏导,即
∂
∂
w
L
(
w
,
x
)
=
0
,
解得
w
=
∑
i
=
1
n
λ
i
y
i
x
i
,
(
2.2
)
,
将
(
2.2
)
代入
L
1
,
得:
L
2
=
−
1
2
∑
i
=
1
n
∑
j
=
1
n
λ
i
λ
j
y
i
y
j
x
i
x
j
T
+
∑
i
=
1
n
λ
i
,
(
2.3
)
\frac{\partial }{\partial w}L(w,x) = 0,\\ 解得w=\sum_{i=1}^n\lambda_iy_ix_i,~~~(2.2),\\ 将(2.2)代入L_1,得:\\ L_2=-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_jx_ix_j^T+\sum_{i=1}^n\lambda_i,~~(2.3)
∂w∂L(w,x)=0,解得w=i=1∑nλiyixi, (2.2),将(2.2)代入L1,得:L2=−21i=1∑nj=1∑nλiλjyiyjxixjT+i=1∑nλi, (2.3)
最终,条件(2)转化为
{
min
1
2
∑
i
=
1
n
∑
j
=
1
n
λ
i
λ
j
y
i
y
j
x
i
x
j
T
−
∑
i
=
1
n
λ
i
,
s
.
t
.
λ
i
≥
0
,
∑
i
=
1
n
λ
i
y
i
=
0.
(
2
)
\begin{cases} \min \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_jx_ix_j^T-\sum_{i=1}^n\lambda_i,~~\\ s.t.~\lambda_i\geq0,\sum_{i=1}^n\lambda_iy_i=0. \end{cases}~(2)
{min21∑i=1n∑j=1nλiλjyiyjxixjT−∑i=1nλi, s.t. λi≥0,∑i=1nλiyi=0. (2)
3)KKT条件
原强对偶问题具有强对偶关系的充要条件为KKT条件,即
{
∂
L
∂
w
=
0
,
∂
L
∂
b
=
0
,
∂
L
∂
x
=
0
,
λ
i
(
1
−
y
i
(
w
T
x
i
+
b
)
)
=
0
,
(
3.1
)
λ
i
≥
0
,
1
−
y
i
(
w
T
x
i
+
b
)
≤
0.
\begin{cases} \frac{\partial L }{\partial w} = 0,\frac{\partial L }{\partial b} = 0,\frac{\partial L }{\partial x} = 0,\\ \lambda_i(1-y_i(w^Tx_i+b))=0,~~~~~(3.1)\\ \lambda_i \geq0,\\ 1-y_i(w^Tx_i+b) \leq0. \end{cases}
⎩
⎨
⎧∂w∂L=0,∂b∂L=0,∂x∂L=0,λi(1−yi(wTxi+b))=0, (3.1)λi≥0,1−yi(wTxi+b)≤0.
其中(3.1)为slackness complementary,
对于超平面
w
T
x
+
b
w^Tx+b
wTx+b
上一节已经解出
w
∗
=
∑
i
=
1
n
λ
i
y
i
x
i
w^*=\sum_{i=1}^n\lambda_iy_ix_i
w∗=i=1∑nλiyixi
假设
∃
(
x
k
,
y
k
)
,
s
.
t
.
1
−
y
k
(
w
T
x
k
+
b
)
=
0.
对此解得
b
∗
=
y
k
−
w
T
x
k
=
y
k
−
∑
i
=
1
n
λ
i
y
i
x
i
\exists (x_k,y_k),s.t.~1-y_k(w^Tx_k+b)=0.\\ 对此解得b^*=y_k-w^Tx_k=y_k-\sum_{i=1}^n\lambda_iy_ix_i
∃(xk,yk),s.t. 1−yk(wTxk+b)=0.对此解得b∗=yk−wTxk=yk−i=1∑nλiyixi
最终得到决策函数
f
(
x
)
=
s
i
g
n
(
w
∗
T
x
+
b
∗
)
f(x)=sign(w^{*T}x+b^*)
f(x)=sign(w∗Tx+b∗)