通俗来说,SVM就是找到一个平面把不同类别的样本分开。这个平面在一维中是一个点,二维中是一条线,三维是一个平面。
SVM基本型
划分超平面可以用下面线性方程表述:
wTx+b=0
W 是法向量,决定超平面的方向;
若对 yi=+1 ,则有 wTxi+b≥+1 ;若 yi=−1 ,则有 WTxi+b≤1 。使等号成立的点称为“支持向量”(support vector),两个异类支持向量到超平面的距离为:
γ=2∥w∥
这被称为“间隔”(margin),要找到最大间隔(maximum margin)划分超平面,也就是要求解:
maxw,b2∥w∥
s.t.yiwTxi+b≥1
我们通常把它写成求最小值的形式,前面1/2是为了求导方便。
maxw,b12∥w∥2
s.t.yiwTxi+b≥1
这就是支持向量机的基本型。
对偶形式
基本型本身是一个凸二次规划(convex quadratic programming)问题。数学基础部分请参照机器学习部分数学基础的相关章节。对其用拉格朗日乘子法可得其对偶问题(dual problem)。具体来说,对每条约束添加拉格朗日乘子 ai≥0 ,则拉格朗日函数可写为:
L(w,b,a)=1