支持向量分类机(SVM)

1、硬间隔(hard-margin)

1)基础公式推导

口头禅:SVM有三宝:间隔对偶核技巧

分类:
h a r d − m a r g i n S V M s o f t − m a r g i n S V M k e m e l − m a r g i n S V M hard-margin SVM\\soft-marginSVM\\kemel-marginSVM hardmarginSVMsoftmarginSVMkemelmarginSVM
函数:
f ( x ) = s i g n ( w T x + b ) , 判别模型 f(x)=sign(w^Tx+b),判别模型 f(x)=sign(wTx+b),判别模型
距离样本点间隔最大

最大间隔分类器(max margin(w,b)):
{ s . t . w T x + b > 0 , y i = 1 w T x + b < 0 , y i = − 1 \begin{cases} s.t. w^Tx+b>0,y_i=1\\ w^Tx+b<0,y_i=-1 \end{cases} {s.t.wTx+b>0,yi=1wTx+b<0,yi=1
整合之后为:
y i ∗ ( w T x i + b ) > 0 , i = 1 , 2 , . . . , n , y_i*(w^Tx_i+b)>0,i=1,2,...,n, yi(wTxi+b)>0,i=1,2,...,n,
定义变量
m a r g i n ( w , b ) , d i s t a n c e ( w . b , x i ) , margin(w,b),distance(w.b,x_i), margin(w,b),distance(w.b,xi),

{ m a r g i n ( w , b ) = m i n   d i s t a n c e ( w . b , x i ) , i = 1 , 2 , . . . , n = m i n   1 ∣ ∣ w ∣ ∣ ∣ w T x i + b ∣ , \begin{cases} margin(w,b)=min~distance(w.b,x_i),i=1,2,...,n\\ =min~\frac{1}{||w||}|w^Tx_i+b|, \end{cases} {margin(w,b)=min distance(w.b,xi),i=1,2,...,n=min ∣∣w∣∣1wTxi+b,
则约束条件变为:
{   max ⁡ min ⁡ 1 ∣ ∣ w ∣ ∣ y i ( w T + b ) = max ⁡ w . b 1 w min ⁡ y i ( w T x i + b ) , s . t .   y i ( w T x i + b ) > 0 ⇒   ∃   γ > 0 , s . t .   min ⁡ y i ( w T + b ) = γ \begin{cases} ~\max\min\frac{1}{||w||}y_i(w^T+b)=\max_{w.b}\frac{1}{w}\min y_i(w^Tx_i+b),\\ s.t.~y_i(w^Tx_i+b)>0\Rightarrow~\exists~\gamma>0,s.t.~\min y_i(w^T+b)=\gamma\\ \end{cases} { maxmin∣∣w∣∣1yi(wT+b)=maxw.bw1minyi(wTxi+b),s.t. yi(wTxi+b)>0  γ>0,s.t. minyi(wT+b)=γ

将 γ 按比例放缩为 1 ,并代入方程,得 s . t . { max ⁡ w . b 1 w min ⁡ y i ( w T x i + b ) = max ⁡ 1 ∣ ∣ w ∣ ∣ = min ⁡ 1 2 w T w s . t .   y i ( w T x i ) ≥ 1   i = 1 , 2 , . . . , n 将\gamma按比例放缩为1,并代入方程,得\\ s.t.\begin{cases} \max_{w.b}\frac{1}{w}\min y_i(w^Tx_i+b)=\max\frac{1}{||w||}=\min\frac{1}{2}w^Tw\\ s.t.~y_i(w^Tx_i)\geq1~i=1,2,...,n \end{cases} γ按比例放缩为1,并代入方程,得s.t.{maxw.bw1minyi(wTxi+b)=max∣∣w∣∣1=min21wTws.t. yi(wTxi)1 i=1,2,...,n

以上就是几何意义的约束转化成数学表达式以及约束条件。

2)拉格朗日乘子

上一小节里构造出了最终的有约束条件,现在构造拉格朗日函数将有约束问题转化为无约束问题,具体操作为构造拉格朗日函数:
L ( w , b , λ ) = 1 2 w T w + ∑ i = 1 n λ i ( 1 − y i ( w T x i + b i ) ) L(w,b,\lambda)=\frac{1}{2}w^Tw+\sum_{i=1}^n\lambda_i(1-y_i(w^Tx_i+b_i)) L(w,b,λ)=21wTw+i=1nλi(1yi(wTxi+bi))
构造强对偶条件(1)、(2)分别为
{ min ⁡ w , b max ⁡ λ L ( w , b , λ ) , s . t .   λ i ≥ 0 ( 1 ) { min ⁡ λ min ⁡ w , b L ( w , b , λ ) , s . t .   λ i ≥ 0 ( 2 ) \begin{cases} \min_{w,b} \max_\lambda L(w,b,\lambda),\\ s.t.~\lambda_i\geq0 \end{cases} (1)\\ \begin{cases} \min_\lambda \min_{w,b}L(w,b,\lambda),\\ s.t.~\lambda_i\geq0 \end{cases}(2) {minw,bmaxλL(w,b,λ),s.t. λi01{minλminw,bL(w,b,λ),s.t. λi02
对于条件(1),当
1 − y i ( w T x i + b i ) > 0 时, max ⁡ λ L ( w , b , λ ) → + ∞ 1-y_i(w^Tx_i+b_i)>0时,\\ \max_\lambda L(w,b,\lambda) \rightarrow+\infty 1yi(wTxi+bi)>0时,λmaxL(w,b,λ)+

1 − y i ( w T x i + b i ) ≤ 0 时, max ⁡ λ L ( w , b , λ ) = 1 2 w T w 1-y_i(w^Tx_i+b_i)\leq 0时,\\ \max_\lambda L(w,b,\lambda)=\frac{1}{2}w^Tw 1yi(wTxi+bi)0时,λmaxL(w,b,λ)=21wTw
约束条件(1)变为
m i n w , b   1 2 w T w   ( 1 ) min_{w,b}~\frac{1}{2}w^Tw~(1) minw,b 21wTw (1)
对于条件(2),当
令 ∂ ∂ b L ( w , b , x ) = 0 , 解得 ∑ i − 1 n λ i y i = 0 , 代入 L , 得 L 1 ( w , x ) = 1 2 w T w + ∑ i = 1 n λ i − ∑ i = 1 n λ i y i w T x i ,     ( 2.1 ) 令\frac{\partial }{\partial b}L(w,b,x) = 0,\\ 解得\sum_{i-1}^n\lambda_iy_i=0, \\代入L,得\\L_1(w,x)=\frac{1}{2}w^Tw+\sum_{i=1}^n\lambda_i-\sum_{i=1}^n\lambda_iy_iw^Tx_i,~~~(2.1) bL(w,b,x)=0,解得i1nλiyi=0,代入L,L1(w,x)=21wTw+i=1nλii=1nλiyiwTxi,   (2.1)
接着对L1求偏导,即
∂ ∂ w L ( w , x ) = 0 , 解得 w = ∑ i = 1 n λ i y i x i ,     ( 2.2 ) , 将 ( 2.2 ) 代入 L 1 , 得: L 2 = − 1 2 ∑ i = 1 n ∑ j = 1 n λ i λ j y i y j x i x j T + ∑ i = 1 n λ i ,    ( 2.3 ) \frac{\partial }{\partial w}L(w,x) = 0,\\ 解得w=\sum_{i=1}^n\lambda_iy_ix_i,~~~(2.2),\\ 将(2.2)代入L_1,得:\\ L_2=-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_jx_ix_j^T+\sum_{i=1}^n\lambda_i,~~(2.3) wL(w,x)=0,解得w=i=1nλiyixi,   (2.2),(2.2)代入L1,得:L2=21i=1nj=1nλiλjyiyjxixjT+i=1nλi,  (2.3)
最终,条件(2)转化为
{ min ⁡ 1 2 ∑ i = 1 n ∑ j = 1 n λ i λ j y i y j x i x j T − ∑ i = 1 n λ i ,    s . t .   λ i ≥ 0 , ∑ i = 1 n λ i y i = 0.   ( 2 ) \begin{cases} \min \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_jx_ix_j^T-\sum_{i=1}^n\lambda_i,~~\\ s.t.~\lambda_i\geq0,\sum_{i=1}^n\lambda_iy_i=0. \end{cases}~(2) {min21i=1nj=1nλiλjyiyjxixjTi=1nλi,  s.t. λi0,i=1nλiyi=0. (2)

3)KKT条件

原强对偶问题具有强对偶关系的充要条件为KKT条件,即
{ ∂ L ∂ w = 0 , ∂ L ∂ b = 0 , ∂ L ∂ x = 0 , λ i ( 1 − y i ( w T x i + b ) ) = 0 ,       ( 3.1 ) λ i ≥ 0 , 1 − y i ( w T x i + b ) ≤ 0. \begin{cases} \frac{\partial L }{\partial w} = 0,\frac{\partial L }{\partial b} = 0,\frac{\partial L }{\partial x} = 0,\\ \lambda_i(1-y_i(w^Tx_i+b))=0,~~~~~(3.1)\\ \lambda_i \geq0,\\ 1-y_i(w^Tx_i+b) \leq0. \end{cases} wL=0,bL=0,xL=0,λi(1yi(wTxi+b))=0,     (3.1)λi0,1yi(wTxi+b)0.
其中(3.1)为slackness complementary,

对于超平面
w T x + b w^Tx+b wTx+b
上一节已经解出
w ∗ = ∑ i = 1 n λ i y i x i w^*=\sum_{i=1}^n\lambda_iy_ix_i w=i=1nλiyixi
假设
∃ ( x k , y k ) , s . t .   1 − y k ( w T x k + b ) = 0. 对此解得 b ∗ = y k − w T x k = y k − ∑ i = 1 n λ i y i x i \exists (x_k,y_k),s.t.~1-y_k(w^Tx_k+b)=0.\\ 对此解得b^*=y_k-w^Tx_k=y_k-\sum_{i=1}^n\lambda_iy_ix_i (xk,yk),s.t. 1yk(wTxk+b)=0.对此解得b=ykwTxk=yki=1nλiyixi
最终得到决策函数
f ( x ) = s i g n ( w ∗ T x + b ∗ ) f(x)=sign(w^{*T}x+b^*) f(x)=sign(wTx+b)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值