SVM
- 最大间隔
- 决策公式
- 目标函数
- 损失函数
最大间隔
让最大间隔作为衡量一条决策边界的好坏的原因是,如果一条决策边界有最大间隔,那么这条决策边界就具有很好的鲁棒性,相当于增加了一个缓冲地带,再来一个数据集我可以很从容的包容你进行分类不至于分错类别。
下面讲下最大间隔的概念,如上图,假如存在一条图中的决策边界,A为边界上的某一点,那么连接原点可以作出通过A点的一个向量u找到一个垂直于决策边界的法向量w,那么决策边界与虚线的距离AB可以用向量w与向量u的内积来表示,我们知道,w.u即为向量u在w上的投影的长度,那么距离C即为间隔.
决策公式
翻译成数学语言:
给定一训练样本,假设样本的特征矩阵为X,类别标签为y,取值为-1或者1,分布代表正样本和负样本.SVM为这些样本寻找一个最优分类超平面,其方程为:
W
T
∗
X
+
b
=
0
W^{T}*X+b=0
WT∗X+b=0
对于正样本有:
W
T
∗
X
+
b
>
=
0
W^{T}*X+b>=0
WT∗X+b>=0
对于负样本有:
W
T
∗
X
+
b
<
=
0
W^{T}*X+b<=0
WT∗X+b<=0
统一方程为:
y
i
(
W
T
∗
X
+
b
)
>
=
0
y_{i}(W^{T}*X+b)>=0
yi(WT∗X+b)>=0
其中
γ
~
=
y
i
(
W
T
∗
X
+
b
)
\widetilde{\gamma} = y_{i}(W^{T}*X+b)
γ
=yi(WT∗X+b)称为函数距离
目标函数
- 函数距离
γ ~ = y i ( W T ∗ X + b ) \widetilde{\gamma}= y_{i}(W^{T}*X+b) γ =yi(WT∗X+b)
- 几何距离
γ = ∣ W T ∗ X + b ∣ ∣ ∣ ω ∣ ∣ \gamma=\frac {|W^{T}*X+b|}{||\omega ||} γ=∣∣ω∣∣∣WT∗X+b∣
目标:
确定超平面,因此可以把无关的变量固定下来:
γ
=
γ
~
∣
∣
ω
∣
∣
\gamma =\frac {\widetilde{\gamma}}{||\omega ||}
γ=∣∣ω∣∣γ
固定的方式有两种:
- 固定 ∣ ∣ ω ∣ ∣ ||\omega || ∣∣ω∣∣
- 固定
γ
~
\widetilde{\gamma}
γ
为了方便推导和优化,选择第二种,令 γ ~ = 1 \widetilde{\gamma}=1 γ =1,则目标函数化为:
m a x 1 ∣ ∣ ω ∣ ∣ max \frac{1}{||\omega||} max∣∣ω∣∣1
s.t. y i ∗ ( W T x i + b ) > = 1 , i = 1 , 2 , . . . , n y_{i}*(W^{T} x^i+b)>=1 , i = 1,2,...,n yi∗(WTxi+b)>=1,i=1,2,...,n
损失函数
那么几何间隔最大问题转化为:
m
a
x
2
∣
∣
ω
∣
∣
max \frac{2}{||\omega||}
max∣∣ω∣∣2
等价于
m
i
n
∣
∣
ω
∣
∣
2
min \frac{||\omega||}{2}
min2∣∣ω∣∣
等价于
m
i
n
∣
∣
ω
∣
∣
2
2
min \frac{||\omega||^{2}}{2}
min2∣∣ω∣∣2
上式称为约束最优化问题的原始问题
构造拉格朗日函数:
L
(
α
,
ω
,
b
)
=
1
2
∣
∣
ω
∣
∣
2
−
∑
i
=
1
n
α
∗
[
y
i
∗
(
W
T
x
i
+
b
)
−
1
]
L(\alpha,\omega,b)=\frac{1}{2}||\omega||^{2}-\sum_{i=1}^{n}\alpha*[y_{i}*(W^{T} x^i+b)-1]
L(α,ω,b)=21∣∣ω∣∣2−i=1∑nα∗[yi∗(WTxi+b)−1]
令
∂
L
∂
ω
=
0
\frac {\partial L}{\partial \omega}=0
∂ω∂L=0
可以得到:
ω
=
∑
i
=
1
n
α
i
∗
x
i
∗
y
i
\omega=\sum_{i=1}^{n}\alpha_{i}*x_{i}*y_{i}
ω=i=1∑nαi∗xi∗yi
令
∂
L
∂
b
=
0
\frac {\partial L}{\partial b}=0
∂b∂L=0
可以得到:
∑
i
=
1
n
α
i
∗
y
i
=
0
\sum_{i=1}^{n}\alpha_{i}*y_{i}=0
i=1∑nαi∗yi=0
将这两个值分别带入到拉格朗日函数L中,得
L
(
α
,
ω
,
b
)
=
∑
i
=
1
n
α
i
−
1
2
∗
∑
i
=
1
n
α
i
α
j
y
i
y
j
x
T
x
j
L(\alpha,\omega,b)=\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}*\sum_{i=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x^Tx_{j}
L(α,ω,b)=i=1∑nαi−21∗i=1∑nαiαjyiyjxTxj
然后解得一个最优解α之后分别可以求出对应的w和b.