完整资料进入【数字空间】查看——搜索"writebug"
- 理论知识
1.1 SVM 模型的基本理论
在之前的课程中讨论的分类器都是线性的,而在实际问题中,很多数据并不是线性可分的,也就是说找不到这样的超平面,能完全区分不同的数据。所以,需要在分类器中引入非线性成分,使得模型更好地贴合数据,让分类更加准确。为了使模型非线性化,我们可以通过基函数将原始特征x变换到另一个空间。问题变为了原始最大裕度优化问题: min w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ n = 1 N ξ n s . t . : y ( n ) ⋅ ( w T ϕ ( x ( n ) ) + b ) ≥ 1 − ξ n \min_{\bold w,b,\bold \xi}\frac12||\bold w||^2+C\sum^N_{n=1}\xi_n\ s.t.:y^{(n)}\cdot(\bold w^T\bold \phi(\bold x^{(n)})+b)\geq1-\xi_n w,b,ξmin21∣∣w∣∣2+Cn=1∑Nξn s.t.:y(n)⋅(wTϕ(x(n))+b)≥1−ξn 得到的分类器为: y ^ ( x ) = s i g n ( w T ϕ ( x ( n ) ) + b ) \hat y(\bold x)=sign(\bold w^{T}\phi(\bold x^{(n)})+b^) y^(x)=sign(wTϕ(x(n))+b) 从直观上看,数据在高维空间中更容易分离。为了获得更好的性能,我们希望映射后的x到更高维的空间。然而太高的话代价也很大。使用对偶形式方法解决时会要计算映射值的转置与自身的内积,导致高开销。这个问题可以通过使用内核技巧来解决。
核函数是一个二元函数,可以表示为某些函数的内积: k ( x , x ′ ) = ϕ ( x ) T ϕ ( x ′ ) k(\bold x,\bold x')=\phi(\bold x)^T\phi(\bold x') k(x,x′)=ϕ(x)Tϕ(x′) Mercer定理:如果函数 k ( x , x ′ ) k(\bold x,\bold x') k(x,x′)是对称正定的,即: ∫ ∫ g ( x ) k ( x , y ) g ( y ) d x d y ≥ 0 ∀ g ( ⋅ ) ∈ L 2 \int\int g(\bold x)k(\bold x,\bold y)g(\bold y)d\bold xd\bold y\geq0\forall g(\cdot)\in L^2 ∫∫g(x)k(x,y)g(y)dxdy≥0∀g(⋅)∈L2 就存在函数 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)使得 k ( x , x ′ ) = ϕ ( x ) T ϕ ( x ′ ) k(\bold x,\bold x')=\phi(\bold x)^T\phi(\bold x') k(x,x′)=ϕ(x)Tϕ(x′)。一个函数如果满足正定条件就必然是核函数。
最常用的核函数之一是高斯核,有着无限维:
k
(
x
,
x
′
)
=
exp
−
1
2
σ
2
∣
∣
x
−
x
′
∣
∣
2
k(\bold x,\bold x')=\exp{-\frac1{2\sigma^2}||\bold x-\bold x'||^2}
k(x,x′)=exp−2σ21∣∣x−x′∣∣2 利用核函数,可以将对偶最大边距分类器重写为:
max
a
g
(
a
)
s
.
t
.
:
a
n
≥
0
,
a
n
≤
C
,
∑
n
=
1
N
a
n
y
(
n
)
=
0
\max_{\bold a}g(\bold a)s.t.:a_n\geq0,a_n\leq C,\sum^N_{n=1}a_ny^{(n)}=0
amaxg(a)s.t.:an≥0,an≤C,n=1∑Nany(n)=0 其中,
g
(
a
)
=
∑
n
=
1
N
a
n
−
1
2
∑
n
=
1
N
∑
m
=
1
N
a
n
a
m
y
(
n
)
y
(
m
)
k
(
x
(
n
)
,
x
(
m
)
)
g(\bold a)=\sum^N_{n=1}a_n-\frac12\sum^N_{n=1}\sum^N_{m=1}a_na_my^{(n)}y^{(m)}k(\bold x^{(n)},\bold x^{(m)})
g(a)=n=1∑Nan−21n=1∑Nm=1∑Nanamy(n)y(m)k(x(n),x(m)) 从而得到诱导分类器: KaTeX parse error: Double superscript at position 40: …um^N_{n=1}a_n^y^̲{(n)})k(\bold x… 核技巧:将函数k代入。如果
ϕ
\phi
ϕ不改变
x
\bold x
x则为线性最大边际分类器,否则为基于基函数的有限维非线性最大边际分类器,如果为高斯核,则为无限维非线性最大边际分类器。