线性模型,又分为线性可分(Liner Spearable)和线性不可分两类(None Liner Spearable)两种。作为初学,首先用二维介绍线性可分:
比如这样子(这个图实在是太low,但能看懂)
方框代表一类,假设为A类,圆圈代表另一类,假设为B类,中间的黄线将AB两类区分了开来。而支持向量机SVM的任务,就是确定中间唯一的那条中线L,使得L距离A/B类的距离最大并且L在最大间隔的中间。
用数学表示如下:
(1)训练样本集D = {(x1, y1),(x2,y2)…(xn,yn)},其中Yi取值是+1或-1,x为向量,y为标签
(2)在样本空间中,划分超平面,用如下方程表示:
WtX + b = 0,t是转置的意思,W={w1,w2…},其纬度与X相同,b为偏执
(3)一个训练集线性可分,则有{xi,yi},i=1-N,存在a,b使得任给i=1-N,有:
若Yi = +1, 则WtXi + b >= 0
若Yi = -1, 则WtXi +b < 0
显然,大于或小于零并没有明显的定义。但这里跟我们在树上看到的右侧为1并不一样,原因在于b是一个偏置,这个值是任意给的,右侧是几都无所谓。
基于前面图的描述,最大间隔的定义如下:
1)最小化(minimize) ||W||
2)限制条件(subject to)Yi[WtXi + b] >= 1 i=1-N
基于以下理论:
1)WtX + b = 0与 aWtX + ab = 0为同一平面
2)点到平面的距离公式
3)向量X到平面的距离公式
最后用a去放缩(W,b),会得到限制条件(subject to),此时的单侧最大距离为d = 1/||w||