一、SVM的基本思想
假设有两个线性可分的的类别的一些样点,我们要为这些样本点设计一个线性分类器。可以设计出很多个线性的分类器,就像下面的每一条区分出红蓝的直线都是一个线性分类器,图中的每一个线性分类器都可以用这样的决策函数来表示:
sign表示将
的值映射成-1和1。当为-1的时候属于一类,当为1的时候属于另一类。既然存在这么多可能的线性分类器,这时候我们就想要知道,那到底哪一条才是最佳的线性分类器?
根据SVM的思想,具有最大间隔(maximum the margin)的线性分类器是最佳的。比如说下面这张图,用decision 1也可以做分类,用decision 2也可以做分类,根据maximum the margin的思想,我们认为decision 2要优于decision 1。
为什么要maximum the margin呢?因为当margin最大的时候,对于样本点的噪声可以有最好的容忍程度。另外,还暗示着一个这样思想:那些很重要的样本点(位于边缘的那条线上,用圆圈圈起来的点)起到很重要的作用,剩下的样本点则无足轻重。