统计学习方法——支持向量机（四）

最新推荐文章于 2019-04-16 16:58:47 发布

你的名字5686

最新推荐文章于 2019-04-16 16:58:47 发布

阅读量152

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/89095168

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

统计学习方法——支持向量机

支持向量机（四）
- 序列最小最优化算法

支持向量机（四）

在前面的基础上，接下来我们关注支持向量机学习的实现问题——序列最小最优化算法（SMO）。

序列最小最优化算法

SMO算法要解决如下的凸二次规划的对偶问题：
$\mathop {\min }\limits_\alpha \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}K\left( {{x_i},{x_j}} \right)} } - \sum\limits_{i = 1}^N {{\alpha _i}}$
$s.t.\quad \sum\limits_{i = 1}^N {{\alpha _i}{y_i} = 0}$
$\le {\alpha _i} \le C,\quad i = 1,2, \cdots ,N$
SMO算法的基本思路
如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。
SMO算法的主要部分
- 求解两个变量二次规划的解析方法
- 选择变量的启发式方法

两个变量二次规划的求解方法

假设选择的两个变量 $\alpha_1,\alpha_2$ ，其他变量 ${\alpha _i}\left( {i = 3,4, \cdots ,N} \right)$ 是固定的，于是SMO的最优化问题的子问题可以写为：
$\mathop {\min }\limits_{{\alpha _1},{\alpha _2}} W\left( {{\alpha _1},{\alpha _2}} \right) = \frac{1}{2}{K_{11}}\alpha _1^2 + \frac{1}{2}{K_{22}}\alpha _2^2 + {y_1}{y_2}{K_{12}}{\alpha _1}{\alpha _2} - \left( {{\alpha _1} + {\alpha _2}} \right) + {y_1}{\alpha _1}\sum\limits_{i = 3}^N {{y_i}{\alpha _i}{K_{i1}}} + {y_2}{\alpha _2}\sum\limits_{i = 3}^N {{y_i}{\alpha _i}{K_{i2}}}$
$s.t.\quad {\alpha _1}{y_1} + {\alpha _2}{y_2} = - \sum\limits_{i = 3}^N {{y_i}{\alpha _i}} = \varsigma$
$\le {\alpha _i} \le C,\quad i = 1,2$
其中 $K_{ij}=K\left(x_i,x_j\right),i,j=1,2,\cdots,N$ ， $\varsigma$ 为常数。

假设初始解为 $\alpha _1^{old},\alpha _2^{old}$ ，最优解为 $\alpha _1^{new},\alpha _2^{new}$ ，并假设在沿着约束方向未经剪辑时 $\alpha_2$ 的最优解为 $\alpha _2^{new,unc}$ 。

定理：优化问题沿着约束方向未经剪辑时的解为：
$\alpha _2^{new,unc} = \alpha _2^{old} + \frac{{{y_2}\left( {{E_1} - {E_2}} \right)}}{\eta }$
其中：
$\eta = {K_{11}} + {K_{22}} - 2{K_{12}} = {\left\| {\Phi \left( {{x_1}} \right) - \Phi \left( {{x_2}} \right)} \right\|^2}$
${E_i} = g\left( {{x_i}} \right) - {y_i} = \left( {\sum\limits_{j = 1}^N {{\alpha _j}{y_j}K\left( {{x_j},{x_i}} \right) + b} } \right) - {y_i},i = 1,2$
$KaTeX parse error: Expected 'EOF', got '\[' at position 1: \̲[̲{\Phi \left( {{…$ 是输入空间到特征空间的映射。
经剪辑后的解为：
$\alpha _2^{new} = \left\{ \begin{array}{l} H,\quad \alpha _2^{new,unc} > H\\ \alpha _2^{new,unc},\quad L \le \alpha _2^{new,unc} \le H\\ L,\quad \alpha _2^{new,unc} < L \end{array} \right.$
由 $\alpha _2^{new}$ 求得 $\alpha _1^{new}$ 是：
$\alpha _1^{new} = \alpha _1^{old} + {y_1}{y_2}\left( {\alpha _2^{old} - \alpha _2^{new}} \right)$

变量的选择方法

SMO算法在每个问题中选择两个变量优化，其中至少一个变量是违反KKT条件的。

第一个变量的选择
SMO称选择第1个变量的过程为外层循环，
- 标准
  在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量。
- 检测训练样本点 $\left( {{x_i},{y_i}} \right)$ 是否满足KKT条件，即
  ${\alpha _i} = 0 \Leftrightarrow {y_i}g\left( {{x_i}} \right) \ge 1$
  ${\alpha _i} < C \Leftrightarrow {y_i}g\left( {{x_i}} \right) = 1$
  ${\alpha _i} = C \Leftrightarrow {y_i}g\left( {{x_i}} \right) \le 1$
  其中 $g\left( {{x_i}} \right) = \sum\limits_{j = 1}^N {{\alpha _j}{y_j}K\left( {{x_i},{x_j}} \right)} + b$ 。
第2个变量的选择
SMO称选择第2个变量的过程为内层循环，假设在外层循环已经找到第一个变量 $\alpha_1$ ，要在内层循环中找到第2个变量 $\alpha_2$ 。
- 标准：
  希望使 $\alpha_2$ 有足够大的变化。
- 方法
  $\alpha_2^{new}$ 依赖于 $\left| {{E_1} - {E_2}} \right|$ ， $\alpha_1$ 确定 $E_1$ 也确定，选择 $\alpha_2$ 使得 $\left| {{E_1} - {E_2}} \right|$ 最大。
- 特殊情况
  如果目标函数没有足够的下降，使用启发式方法或重新选择 $\alpha_1$ 。
计算阈值 $b$ 和差值 $E_i$
- 当 $\alpha _1^{new} < C$ 时，由KKT可知：
  $\sum\limits_{i = 1}^N {{\alpha _i}{y_i}{K_{i1}}} + b = {y_1}$
  于是有：
  $b_1^{new} = {y_1} - \sum\limits_{i = 3}^N {{\alpha _i}{y_i}{K_{i1}}} - \alpha _1^{new}{y_1}{K_{11}} - \alpha _2^{new}{y_2}{K_{21}}$
  $b_2^{new} = - {E_2} - {y_1}{K_{12}}\left( {\alpha _1^{new} - \alpha _1^{old}} \right) - {y_2}{K_{22}}\left( {\alpha _2^{new} - \alpha _2^{old}} \right) + {b^{old}}$
  如果 $\alpha _1^{new}, \alpha _2^{new}$ 同时满足 $\alpha _1^{new} < C,i=1,2$ ，则 $b_1^{new} =b_2^{new}$ ，如果 $\alpha _1^{new}, \alpha _2^{new}$ 是 $0$ 或 $C$ ，选择中间点作为 $b^{new}$ 。
- $E_i^{new}$ 的计算为：
  $E_i^{new} = \sum\limits_S {{y_j}{\alpha _j}K\left( {{x_i},{x_j}} \right) + {b^{new}} - {y_i}}$

SMO算法

输入：训练数据集 $T$ ，精度 $\varepsilon$
输出：近似解 ${\hat \alpha }$
过程
- 取初始值 ${\alpha ^{\left( 0 \right)}} = 0$ ，令 $k = 0$
- 选取优化变量 $\alpha _1^{\left( k \right)},\alpha _2^{\left( k \right)}$ ，解析求解两个变量的最优化问题，得到最优解 $\alpha _1^{\left( k+1 \right)},\alpha _2^{\left( k+1 \right)}$ ，更新 $\alpha$ 为 $\alpha^{\left( k+1 \right)}$
- 若在精度 $\varepsilon$ 范围内满足下面的停止条件则进行下一步
  $\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0$
  $\le {\alpha _i} \le C,i = 1,2, \cdots ,N$
  ${y_i} \cdot g\left( {{x_i}} \right) = \left\{ \begin{array}{l} \ge 1,\left\{ {{x_i}\left| {{\alpha _i} = 0} \right.} \right\}\\ = 1,\left\{ {{x_i}\left| {0 < {\alpha _i} < C} \right.} \right\}\\ \le 1,\left\{ {{x_i}\left| {{\alpha _i} = C} \right.} \right\} \end{array} \right.$
  其中
  $g\left( {{x_i}} \right) = \sum\limits_{j = 1}^N {{\alpha _j}{y_j}K\left( {{x_j},{x_i}} \right)} + b$
  否则令 $k = k + 1$ 回到上一步。
- 取 $\hat \alpha = {\alpha ^{\left( {k + 1} \right)}}$