SVM原理探究及其详细公式推导

本文深入探讨支持向量机(SVM)的原理,从最优线性分类器出发,讲解函数间隔与几何间隔的概念,并通过几何间隔的推导揭示权重向量作为超平面法向量的原因。接着,形式化SVM的优化目标,利用拉格朗日乘子法解决约束优化问题,最后讨论SVM中支持向量的关键作用以及如何处理非线性问题。
摘要由CSDN通过智能技术生成

1、最优线性分类器

对于下图的二分类任务,我们想要得到一个分类平面将其分开:
这里写图片描述
显然图中的1、2、3、4、5号平面均能达成这个目的,这五个平面我们可以用下式来表示

wTx+b=0(1) (1) w T x + b = 0

对于任意的样本点 (xi,yi) ( x i , y i ) 均满足

{ wTxi+b<0,yi=1wTxi+b>0,yi=+1(2) (2) { w T x i + b < 0 , y i = − 1 w T x i + b > 0 , y i = + 1

记模型为:
f(x)=wTx+b(3) (3) f ( x ) = w T x + b

则当新的样本特征 x x ′ 到来时只需代入式(3),观察输出 f(x) f ( x ′ ) 的正负即可判断。

五个平面的差别就在于 w w b b 不同。图中1、2、4、5号平面虽然完成了分类任务,但是其抗扰动性不佳,在这些平面附近的样本点容易被错分类,相对来说3号平面因为距离两类样本点都足够“远”,因此其抗扰动性比较好,这样的平面我们称为最优线性分类器,支持向量机(SVM)就是要寻找这样的平面,为此要引入间隔的概念。

2、函数间隔和几何间隔

2.1 函数间隔

对于每一个样本点,我们可以定义这个样本点到超平面间隔,称为样本点的函数间隔

(4) γ i = y i f ( x i )

那么 超平面的函数间隔可以从下式得到:

γ=min1inγi(5) (5) γ 函 = min 1 ≤ i ≤ n γ i 函

我们的目标就是要找到一组 w w b b 使得 γ 最大,形式化表示如下:
maxw,bγ=maxw,bmin1inγi=maxw,bmin1inyi(wTxi+b)(6) (6) max w , b γ 函 = max w , b min 1 ≤ i ≤ n γ i 函 = max w , b min 1 ≤ i ≤ n y i ∗ ( w T x i + b )

仔细分析式(6)我们可以发现,当 w w b b 成倍数增长时,函数间隔会不断地增大,此时找不到目标函数的最优解,而此时超平面并没有改变( 2 w T x + 2 b = 0 与式(1)并没有区别 ),所以函数间隔还不足以帮助我们寻找最优 w w b b ,故需要进一步引入几何间隔

2.2 几何间隔

如下图所示:
这里写图片描述
图中 x 表示样本点, x0 x 0 x x 垂直投影到超平面上对应的点 , w w 是式(1)中的权重向量, 该向量是超平面的法向量(详情见 2.4* 节介绍), γ γ 表示样本点 x x 到超平面的 几何间隔

容易得到以下推导过程:

x=x0+wwγx0=xwwγ x0f(x0)=0 x = x 0 + w ‖ w ‖ γ x 0 = x − w ‖ w ‖ γ ∵   x 0 在 超 平 面 上 ∴ f ( x 0 ) = 0
即有
f(xwwγ)=wT(xwwγ)+b=wTx+bwTwwγ=f(x)wγ=0(7)(8) f ( x − w ‖ w ‖ γ ) = w T ( x − w ‖ w ‖ γ ) + b (7) = w T x + b − w T w ‖ w ‖ γ (8) = f ( x ) − ‖ w ‖ γ = 0

所以
γ=f(x)w(9) (9) γ = f ( x ) ‖ w ‖

其中式(7)到式(8)这一步到转化,前一半无需赘述是很直观的,后一半主要依据向量内积与二范数的关系:
w=w21+w22+w23++w2n=<w,w>=wTw(10) (10) ‖ w ‖ = w 1 2 + w 2 2 + w 3 2 + ⋯ + w n 2 = < w , w > = w T w

样本点

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值