关于支持向量机SVM,下列说法错误的是()
A. L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
B. Hinge损失函数,作用是最小化经验分类错误
C. 分类间隔为 1 ∣ ∣ w ∣ ∣ , ∣ ∣ w ∣ ∣ \frac{1}{||w||},||w|| ∣∣w∣∣1,∣∣w∣∣代表向量的模
D. 当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习
分类间隔为 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} ∣∣w∣∣2
详细见下图
各选项:
选项A. L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
L2正则项:
minimize
w
,
b
∣
∣
w
∣
∣
2
2
\underset{\mathbf{w},b}{\text{minimize}}{||\mathbf{w}||_2^2}
w,bminimize∣∣w∣∣22
选项B. Hinge损失函数,作用是最小化经验分类错误
hinge
loss
function:
max
(
0
,
1
−
y
i
(
w
⊺
x
i
−
b
)
)
\textbf {hinge loss function:}\text{max}(0,1-y_i(\mathbf{w}^{\intercal}\mathbf{x}_i-b))
hinge loss function:max(0,1−yi(w⊺xi−b))
优化目标:
minimize
w
,
b
,
ζ
∣
∣
w
∣
∣
2
2
+
C
∑
n
i
=
1
ζ
i
\underset{\mathbf{w},b,\zeta} {\text{minimize}} \hspace{8pt}||\mathbf{w}||^2_2+C \underset{i=1}{\overset{n}\sum}\zeta_i
w,b,ζminimize∣∣w∣∣22+Ci=1∑nζi
subject to
y
i
(
w
⊺
x
i
−
b
)
≥
1
−
ζ
i
,
ζ
i
≥
0
,
∀
i
∈
{
1
,
.
.
.
,
n
}
\text{subject to}\hspace{6pt}y_i(\mathbf{w}^\intercal\mathbf{x_i}-b)\ge1-\zeta_i,\zeta_i\ge0,\forall i \in\{1,...,n\}
subject toyi(w⊺xi−b)≥1−ζi,ζi≥0,∀i∈{1,...,n}
选项D. 当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习
考虑Lagrange目标函数
L
=
1
2
∣
∣
w
∣
∣
2
−
∑
α
i
[
y
i
(
w
⊺
x
+
b
)
−
1
]
L=\frac{1}{2}\mathbf{||w||}^2-\sum\alpha_i[y_i(\mathbf{w^\intercal x}+b)-1]
L=21∣∣w∣∣2−∑αi[yi(w⊺x+b)−1]
∂
L
∂
w
=
w
−
∑
α
i
y
i
x
i
=
0
⇒
w
=
∑
i
α
i
y
i
x
i
\frac{\partial L}{\partial \mathbf{w}}=\mathbf{w}-\sum\alpha_iy_i\mathbf{x}_i=0\Rightarrow\mathbf{w}=\underset{i}\sum\alpha_iy_i\mathbf{x}_i
∂w∂L=w−∑αiyixi=0⇒w=i∑αiyixi
∂
L
∂
b
=
−
∑
α
i
y
i
=
0
⇒
∑
α
i
y
i
=
0
\frac{\partial L}{\partial b }=-\sum\alpha_iy_i=0\Rightarrow\sum\alpha_iy_i=0
∂b∂L=−∑αiyi=0⇒∑αiyi=0
L
=
1
2
(
∑
α
i
y
i
x
i
)
(
∑
α
j
y
j
x
j
)
−
∑
α
i
y
i
x
i
⋅
(
∑
α
j
y
j
x
j
)
−
∑
α
i
y
i
b
+
∑
α
i
L=\frac{1}{2}(\sum\alpha_iy_i\mathbf{x}_i)(\sum\alpha_jy_j\mathbf{x}_j)-\sum\alpha_iy_i\mathbf{x}_i\cdot(\sum\alpha_jy_j\mathbf{x}_j)-\sum\alpha_iy_ib+\sum\alpha_i
L=21(∑αiyixi)(∑αjyjxj)−∑αiyixi⋅(∑αjyjxj)−∑αiyib+∑αi
=
∑
α
i
−
1
2
∑
i
∑
j
α
i
α
j
y
i
y
j
x
i
⋅
x
j
=\sum\alpha_i-\frac{1}{2}\underset{i}\sum\underset{j}\sum\alpha_i\alpha_jy_iy_j\mathbf{x}_i\cdot\mathbf{x}_j
=∑αi−21i∑j∑αiαjyiyjxi⋅xj
∴
∑
α
i
y
i
x
i
⋅
x
j
+
b
>
0
,
plus samples
\therefore\sum\alpha_iy_i\mathbf{x}_i\cdot\mathbf{x}_j+b\gt0,\text{plus samples}
∴∑αiyixi⋅xj+b>0,plus samples
∑
α
i
y
i
x
i
⋅
x
j
+
b
<
0
,
minus samples
\hspace{9pt}\sum\alpha_iy_i\mathbf{x}_i\cdot\mathbf{x}_j+b\lt0,\text{minus samples}
∑αiyixi⋅xj+b<0,minus samples
C
=
α
i
+
μ
i
[
1
]
C=\alpha_i+\mu_i\mathbf{_{[1]}}
C=αi+μi[1]
C作为惩罚因子,C越大确保准确度越大,牺牲间隔,反之亦然。
参考文献
[1] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 132.[PDF]