第七章:支持向量机
线性支持向量机
线性可分或硬间隔支持向量机
前提:训练数据集 线 性 可 分 \color{red}{线性可分} 线性可分;
学习目标:特征空间的分离超平面: w ⋅ x + b = 0 , w ≠ 0 w\cdot{x}+b=0,w\neq{0} w⋅x+b=0,w=0;这个超平面是 唯 一 的 \color{red}{唯一的} 唯一的;
学习策略:最大间隔法,等价于下列的最优化问题:
min w , b 1 2 ∣ ∣ w ∣ ∣ 2 \color{red}{\displaystyle\min_{w,b}\frac{1}{2}||w||^2} w,bmin21∣∣w∣∣2
s t . y i ( w ⋅ x i + b ) − 1 ≥ 0 , i = 1 , 2 , . . . N \color{red}{st. {y_i(w\cdot{x_i}+b)-1}\geq{0},i=1,2,...N} st.yi(w⋅xi+b)−1≥0,i=1,2,...N
由于是条件约束的最优化问题,所以自然想到采用 拉 格 朗 日 乘 数 法 \color{red}{拉格朗日乘数法} 拉格朗日乘数法来求解问题,一般转化为求解 对 偶 问 题 \color{red}{对偶问题} 对偶问题,引入拉格朗日乘子后,原始问题成为下式:
L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 − ∑ i = 1 N α i y i ( w ⋅ x + b ) + ∑ i = 1 N α i ; \color{red}{L(w,b,\alpha)=\frac{1}{2}||w||^2-\displaystyle\sum_{i=1}^{N}{\alpha}_iy_i(w\cdot{x}+b)+\displaystyle\sum_{i=1}^N{\alpha}_i;} L(w,b,α)=21∣∣w∣∣2−i=1∑Nαiyi(w⋅x+b)+i=1∑Nαi;,每一个 α \alpha α对应一个样本;
原始问题的对偶问题是极大极小问题:
max α min w , b L ( w , b , α ) ; \color{red}{\displaystyle\max_{\alpha}\min_{w,b}L(w,b,\alpha);} αmaxw,bminL(w,b,α);
-
先求解极小化问题:求导、等于0解得:
w = ∑ i = 1 N α i y i x i ; \color{red}{w=\displaystyle\sum_{i=1}^{N}{\alpha}_iy_ix_i}; w=i=1∑Nαiyixi;
∑ i = 1 N α i y i ; \color{red}{\displaystyle\sum_{i=1}^N{\alpha}_iy_i}; i=1∑Nαiyi; -
然后使用最优化方法来求解 α \alpha α
min α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i \color{red}{\displaystyle\min_{\alpha}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^N{\alpha}_i{\alpha}_jy_iy_j(x_i\cdot{x_j})-\sum_{i=1}^N{\alpha}_i} αmin21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−