本文构成:
- 1.线性不可分时的线性支持向量机
- 2.学习的对偶算法
对于线性不可分时的线性支持向量机问题,最关键的部分是如何理解软间隔最大化
1.线性不可分时的线性支持向量机
(1).线性不可分概念
假设给第一个特征空间上的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={
(x1,y1),(x2,y2),⋯,(xN,yN)}其中 x i ∈ X = R n , y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , ⋯   , N x_{i} \in \mathcal{X}=\mathbf{R}^{n}, \quad y_{i} \in \mathcal{Y}=\{+1,-1\}, \quad i=1,2, \cdots, N xi∈X=Rn,yi∈Y={
+1,−1},i=1,2,⋯,N, x i x_i xi为第 i i i个特征向量,也称为实例, y i y_i yi为 x i x_i xi的类标记.假设训练数据集是线性不可分的,也就是训练数据中有一些特异顶点,若将这些特异点除去,剩下的大部分样本点组成的集合是线性可分的.
(2).引进松弛变量及软间隔最大化
线性不可分意味着某些样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)不能满足函数间隔大于等于1的约束条件 ( 14 ) (14) (14),为了解决这个问题,可以将每个样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)引进一个松弛变量 ξ i ⩾ 0 \xi_{i} \geqslant 0 ξi⩾0,使函数间隔加上松弛变量大于等于1.这样约束条件变为 y i ( w ⋅ x i + b ) ⩾ 1 − ξ i y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i} yi(w⋅xi+b)⩾1−ξi,同时,对每个松弛变量 ξ i \xi_{i} ξi,支付一个代价 ξ i \xi_{i} ξi,目标函数由原来的 1 2 ∥ w ∥ 2 \frac{1}{2}\|w\|^{2} 21∥w∥2变成
1 2 ∥ w ∥ 2 + C ∑ j = 1 N ξ i ( 31 ) \frac{1}{2}\|w\|^{2}+C \sum_{j=1}^{N} \xi_{i} \quad(31) 21∥w∥2+Cj=1∑Nξi(31)
这里, C > 0 C>0 C>0称为惩罚函数,一般由应用问题决定, C C C值大时对误分类的惩罚增大, C C C值小时对误分类的惩罚减小.最小化目标函数 ( 31 ) (31) (31)包含两层含义,使 1 2 ∥ w ∥ 2 \frac{1}{2}\|w\|^{2} 21∥w∥2尽量小即间隔尽量大,同时使误分类点的个数尽量小, C C C是调和二者的系数.
这样可以和数据集可分时一样来考虑训练数据集线性不可分时的线性支持向量机学习问题,对应于硬间隔最大化,它称为软间隔最大化.
图中,分离超平面由实线表示,间隔边界由虚线表示,正例点由“。”表示,负例点由“×”表示,图中还标出了实例 x i x_i xi到间隔边界的距离 ξ i ∥ w ∥ \frac{\xi_{i}}{\|w\|} ∥w∥ξi.
(3).凸二次规划问题
线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题
min w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i ( 32 ) \min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i} \quad(32) w,b,ξmin21∥w∥2+Ci=1∑Nξi(32) s.t. y i ( w ⋅ x i + b ) ⩾ 1 − ξ i , i = 1 , 2 , ⋯   , N ( 33 ) \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \quad(33) s.t. yi(w⋅xi+b)⩾1−ξi,i=1,2,⋯,N(33) ξ i ⩾ 0 , i = 1 , 2 , ⋯   , N ( 34 ) \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N \quad(34) ξi⩾0,i=1,2,⋯,N(34)原始问题 ( 32 ) ∼ ( 34 ) (32)~\sim(34) (32) ∼(34)是一个凸二次规划问题,因而关于 ( w , b , ξ ) (w, b, \xi) (w,b,