1、最优线性分类器
对于下图的二分类任务,我们想要得到一个分类平面将其分开:
显然图中的1、2、3、4、5号平面均能达成这个目的,这五个平面我们可以用下式来表示
wTx+b=0(1) (1) w T x + b = 0
对于任意的样本点 (xi,yi) ( x i , y i ) 均满足
{
wTxi+b<0,yi=−1wTxi+b>0,yi=+1(2) (2) { w T x i + b < 0 , y i = − 1 w T x i + b > 0 , y i = + 1
记模型为:
f(x)=wTx+b(3) (3) f ( x ) = w T x + b
则当新的样本特征 x′ x ′ 到来时只需代入式(3),观察输出 f(x′) f ( x ′ ) 的正负即可判断。
五个平面的差别就在于 w w 和 b b 不同。图中1、2、4、5号平面虽然完成了分类任务,但是其抗扰动性不佳,在这些平面附近的样本点容易被错分类,相对来说3号平面因为距离两类样本点都足够“远”,因此其抗扰动性比较好,这样的平面我们称为最优线性分类器,支持向量机(SVM)就是要寻找这样的平面,为此要引入间隔的概念。
2、函数间隔和几何间隔
2.1 函数间隔
对于每一个样本点,我们可以定义这个样本点到超平面间隔,称为样本点的函数间隔:
那么 超平面的函数间隔可以从下式得到:
γ函=min1≤i≤nγi函(5) (5) γ 函 = min 1 ≤ i ≤ n γ i 函
我们的目标就是要找到一组 w w 和 b b 使得 最大,形式化表示如下:
maxw,bγ函=maxw,bmin1≤i≤nγi函=maxw,bmin1≤i≤nyi∗(wTxi+b)(6) (6) max w , b γ 函 = max w , b min 1 ≤ i ≤ n γ i 函 = max w , b min 1 ≤ i ≤ n y i ∗ ( w T x i + b )
仔细分析式(6)我们可以发现,当 w w 和 b b 成倍数增长时,函数间隔会不断地增大,此时找不到目标函数的最优解,而此时超平面并没有改变( 与式(1)并没有区别 ),所以函数间隔还不足以帮助我们寻找最优 w w 和 b b ,故需要进一步引入几何间隔
2.2 几何间隔
如下图所示:
图中
表示样本点, x0 x 0 是 x x 垂直投影到超平面上对应的点 , w w 是式(1)中的权重向量, 该向量是超平面的法向量(详情见 2.4* 节介绍), γ γ 表示样本点 x x 到超平面的 几何间隔
容易得到以下推导过程:
x=x0+w‖w‖γx0=x−w‖w‖γ∵ x0在超平面上∴f(x0)=0 x = x 0 + w ‖ w ‖ γ x 0 = x − w ‖ w ‖ γ ∵ x 0 在 超 平 面 上 ∴ f ( x 0 ) = 0
即有
f(x−w‖w‖γ)=wT(x−w‖w‖γ)+b=wTx+b−wTw‖w‖γ=f(x)−‖w‖γ=0(7)(8) f ( x − w ‖ w ‖ γ ) = w T ( x − w ‖ w ‖ γ ) + b (7) = w T x + b − w T w ‖ w ‖ γ (8) = f ( x ) − ‖ w ‖ γ = 0
所以
γ=f(x)‖w‖(9) (9) γ = f ( x ) ‖ w ‖
其中式(7)到式(8)这一步到转化,前一半无需赘述是很直观的,后一半主要依据向量内积与二范数的关系:
‖w‖=w21+w22+w23+⋯+w2n‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√=<w,w>‾‾‾‾‾‾‾‾‾√=wTw‾‾‾‾‾√(10) (10) ‖ w ‖ = w 1 2 + w 2 2 + w 3 2 + ⋯ + w n 2 = < w , w > = w T w
样本点