SVM推导

个人笔记,非教程

将两类样本用以下超平面进行划分

w T x + b = 0 w^Tx+b=0 wTx+b=0

让所有样本都划分正确

w T x + + b ≥ 1 , x + ∈ 第 一 类 数 据 , y + = + 1 w^Tx_++b\geq 1, x_+\in 第一类数据,y_+=+1 wTx++b1,x+,y+=+1
w T x − + b ≤ − 1 , x − ∈ 第 二 类 数 据 , y − = − 1 w^Tx_-+b\leq -1, x_-\in 第二类数据,y_-=-1 wTx+b1,x,y=1

目标:找到最靠近划分超平面的数据 x x x x x x到划分超平面的距离 d d d,最大化这个距离 d d d

d = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ d=\frac{|w^Tx+b|}{||w||} d=wwTx+b

max ⁡ ∣ w T x + + b ∣ ∣ ∣ w ∣ ∣ + ∣ w T x − + b ∣ ∣ ∣ w ∣ ∣ \max \frac{|w^Tx_++b|}{||w||}+\frac{|w^Tx_-+b|}{||w||} maxwwTx++b+wwTx+b

因为改变 w w w的长度来改变 ∣ w T x + b ∣ |w^Tx+b| wTx+b的大小,所以我们可以固定 ∣ w T x + b ∣ = 1 |w^Tx+b|=1 wTx+b=1

max ⁡ 1 ∣ ∣ w ∣ ∣ + 1 ∣ ∣ w ∣ ∣ = 2 ∣ ∣ w ∣ ∣ \max \frac{1}{||w||}+\frac{1}{||w||}=\frac{2}{||w||} maxw1+w1=w2
等价于
min ⁡ 1 2 ∣ ∣ w ∣ ∣ 2 \min \frac 12 ||w||^2 min21w2

同理可以将划分标准改为
w T x + + b ≥ + 1 , x + ∈ 第 一 类 数 据 , y + = + 1 w^Tx_++b\geq +1, x_+\in 第一类数据,y_+=+1 wTx++b+1,x+,y+=+1
w T x − + b ≤ − 1 , x − ∈ 第 二 类 数 据 , y − = − 1 w^Tx_-+b\leq -1, x_-\in 第二类数据,y_-=-1 wTx+b1,x,y=1

上面二式可统一写为
y i ( w T x i + b ) ≥ 1 y_i(w^Tx_i+b)\geq 1 yi(wTxi+b)1

最终目标

min ⁡ w , b     1 2 ∣ ∣ w ∣ ∣ 2 \min_{w,b} \ \ \ \frac 12 ||w||^2 w,bmin   21w2
s . t .     y i ( w T x i + b ) ≥ 1 s.t.\ \ \ y_i(w^Tx_i+b)\geq 1 s.t.   yi(wTxi+b)1

拉格朗日

L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 N α i ( 1 − y i ( w T x i + b ) ) L(w,b,\alpha)=\frac 12 ||w||^2+\sum_{i=1}^{N}\alpha_i(1-y_i(w^Tx_i+b)) L(w,b,α)=21w2+i=1Nαi(1yi(wTxi+b))
其中
α i ≥ 0 , 1 − y i ( w T x i + b ) ≤ 0 \alpha_i\geq 0,1-y_i(w^Tx_i+b)\leq 0 αi0,1yi(wTxi+b)0

∂ L ( w , b , α ) ∂ w = w + ∑ i = 1 N α i y i x i \frac{\partial L(w,b,\alpha)}{\partial w}=w+\sum_{i=1}^{N}\alpha_iy_ix_i wL(w,b,α)=w+i=1Nαiyixi
∂ L ( w , b , α ) ∂ b = ∑ i = 1 N α i y i \frac{\partial L(w,b,\alpha)}{\partial b}=\sum_{i=1}^{N}\alpha_iy_i bL(w,b,α)=i=1Nαiyi

令偏导为零得

w = ∑ i = 1 N α i y i x i w=\sum_{i=1}^{N}\alpha_iy_ix_i w=i=1Nαiyixi
∑ i = 1 N α i y i = 0 \sum_{i=1}^{N}\alpha_iy_i=0 i=1Nαiyi=0

代回 L ( w , b , α ) L(w,b,\alpha) L(w,b,α)中得

L ( w , b , α ) = 1 2 ( ∑ i = 1 N α i y i x i ) T ( ∑ j = 1 N α j y j x j ) + ∑ j = 1 N α j ( 1 − y j ( ( ∑ i = 1 N α i y i x i ) T x j + b ) ) = 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j + ∑ i = 1 N α i − ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j − ∑ i = 1 N α i y i b = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j + ∑ i = 1 N α i \begin{aligned} L(w,b,\alpha)&=\frac 12 (\sum_{i=1}^{N}\alpha_iy_ix_i)^T(\sum_{j=1}^{N}\alpha_jy_jx_j)+\sum_{j=1}^{N}\alpha_j(1-y_j((\sum_{i=1}^{N}\alpha_iy_ix_i)^Tx_j+b)) \\ &=\frac 12 \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{N}\alpha_i-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^{N}\alpha_iy_ib \\ &=-\frac 12 \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{N}\alpha_i \end{aligned} L(w,b,α)=21(i=1Nαiyixi)T(j=1Nαjyjxj)+j=1Nαj(1yj((i=1Nαiyixi)Txj+b))=21i=1Nj=1NαiαjyiyjxiTxj+i=1Nαii=1Nj=1NαiαjyiyjxiTxji=1Nαiyib=21i=1Nj=1NαiαjyiyjxiTxj+i=1Nαi
s . t .     ∑ i = 1 N α i y i = 0 ,     α i ≥ 0 s.t. \ \ \ \sum_{i=1}^{N}\alpha_iy_i=0,\ \ \ \alpha_i\geq0 s.t.   i=1Nαiyi=0,   αi0

定义 θ ( w , b ) = max ⁡ α L ( w , b , α ) \theta(w,b)=\max_{\alpha}L(w,b,\alpha) θ(w,b)=maxαL(w,b,α)

θ ( w , b ) = { 1 2 ∣ ∣ w ∣ ∣ 2     ∀ x i , 1 − y i ( w T x i + b ) ≤ 0 + ∞     ∃ x i , 1 − y i ( w T x i + b ) > 0 \theta(w,b)= \begin{cases} \frac12 ||w||^2\ \ \ \forall x_i,1-y_i(w^Tx_i+b)\leq0\\ +\infty\ \ \ \exist x_i,1-y_i(w^Tx_i+b)>0 \end{cases} θ(w,b)={21w2   xi,1yi(wTxi+b)0+   xi,1yi(wTxi+b)>0

则最终目标

min ⁡ w , b θ ( w , b ) = min ⁡ w , b max ⁡ α − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j + ∑ i = 1 N α i \min_{w,b} \theta(w,b)=\min_{w,b} \max_{\alpha}-\frac 12 \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^{N}\alpha_i w,bminθ(w,b)=w,bminαmax21i=1Nj=1NαiαjyiyjxiTxj+i=1Nαi
s . t .     ∑ i = 1 N α i y i = 0 ,     α i ≥ 0 s.t. \ \ \ \sum_{i=1}^{N}\alpha_iy_i=0,\ \ \ \alpha_i\geq0 s.t.   i=1Nαiyi=0,   αi0

软间隔SVM

采用hinge损失
ξ i = max ⁡ ( 0 , 1 − y i ( w T x i + b ) ) \xi_i=\max(0,1-y_i(w^Tx_i+b)) ξi=max(0,1yi(wTxi+b))
min ⁡ w , b     1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 N ξ i \min_{w,b} \ \ \ \frac 12 ||w||^2+C\sum_{i=1}^{N}\xi_i w,bmin   21w2+Ci=1Nξi
s . t .     y i ( w T x i + b ) ≥ 1 − ξ i ,    ξ i ≥ 0 s.t.\ \ \ y_i(w^Tx_i+b)\geq 1-\xi_i,\ \ \xi_i\geq 0 s.t.   yi(wTxi+b)1ξi,  ξi0

拉格朗日

L ( w , b , α , ξ , μ ) = 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 N ξ i + ∑ i = 1 N α i ( 1 − y i ( w T x i + b ) − ξ i ) − ∑ i = 1 N μ i ξ i L(w,b,\alpha,\xi,\mu)=\frac12||w||^2+C\sum_{i=1}^{N}\xi_i+\sum_{i=1}^{N}\alpha_i(1-y_i(w^Tx_i+b)-\xi_i)-\sum_{i=1}^{N}\mu_i \xi_i L(w,b,α,ξ,μ)=21w2+Ci=1Nξi+i=1Nαi(1yi(wTxi+b)ξi)i=1Nμiξi
其中 α i ≥ 0 \alpha_i\geq 0 αi0, ξ i ≥ 0 \xi_i\geq 0 ξi0,为拉格朗日乘子

L ( w , b , α , ξ , μ ) L(w,b,\alpha,\xi,\mu) L(w,b,α,ξ,μ) w , b , ξ i w,b,\xi_i w,b,ξi的偏导为零可得
w = ∑ i = 1 N α i y i x i w=\sum_{i=1}^{N}\alpha_iy_ix_i w=i=1Nαiyixi
∑ i = 1 N α i y i = 0 \sum_{i=1}^{N}\alpha_iy_i=0 i=1Nαiyi=0
C = α i + μ i C=\alpha_i+\mu_i C=αi+μi
代入 L ( w , b , α , ξ , μ ) L(w,b,\alpha,\xi,\mu) L(w,b,α,ξ,μ)得原目标函数的对偶问题
max ⁡ α ∑ i = 1 N α i − ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j \max_{\alpha}\sum_{i=1}^{N}\alpha_i-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j αmaxi=1Nαii=1Nj=1NαiαjyiyjxiTxj
s . t .     ∑ i = 1 N α i y i = 0 ,     0 ≤ α i ≤ C s.t.\ \ \ \sum_{i=1}^{N}\alpha_iy_i=0,\ \ \ 0\leq \alpha_i\leq C s.t.   i=1Nαiyi=0,   0αiC

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值