SVM-7-SMO（序列最小优化算法）

最新推荐文章于 2024-04-30 12:56:52 发布

yzheately

最新推荐文章于 2024-04-30 12:56:52 发布

阅读量3.9k

点赞数 1

分类专栏：机器学习打基础

本文链接：https://blog.csdn.net/yzheately/article/details/50972484

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

参考http://www.cnblogs.com/jerrylead

坐标上升法

首先介绍坐标上升法（Coordinate ascent）：
假设要解决下面的没有约束的最优化问题：

max α W (α 1, α 2, . . ., α m)

$\max_\alpha \ W(\alpha_1,\alpha_2,...,\alpha_m)$ .
对于这类最优化问题，我们可以使用地图下降法或者牛顿迭代法，这里我们使考虑使用坐标上升法：
坐标上升伪代码

也就是说，每次循环我们我们固定除当前

αi $\alpha_i$ 之外的所有

αj(j≠i) $\alpha_j(j \not =i)$ 。每次循环，W只看作是关于当前

αi $\alpha_i$ 的函数，此时只需直接对

αi $\alpha_i$ 求导优化即可。然后依次进行m循环。
在优化是，我们可以通过调整优化的

α $\alpha$ 的顺序提高算法的性能。

下图展示了坐标上升法：

上图中中的椭圆代表我们要优化的二次方程的轮廓，最优值就是中心的黑点，我们的初始值在右下角（2，-2），从图中可以看出，每次都平行于某个坐标轴，因为每次我们只优化一个变量。

SMO

现在重新新回到我们要优化的问题（原问题的对偶问题）：

max α W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y i y j α i α j < x i, x j > s . t . 0 \leq α i \leq C, i = 1, . . ., m \sum i = 1 m α i y i = 0

$\max_\alpha\ W(\alpha)= \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}y^iy^j\alpha_i\alpha_j<x^i,x^j>\\ \qquad s.t.\ 0\leq\alpha_i\leq C,\ i=1,...,m\\ \sum^m_{i=1}\alpha_iy^i=0$
假如我们有满足上述约束的

α $\alpha$ 的集合，那么我们能直接使用上面的坐标上升算法吗？
假设我们保持

α2,...αm $\alpha2,...\alpha_m$ 固定不变，利用坐标上升通过改变

α1 $\alpha_1$ 的值来优化问题，这样可行吗？答案是不行！

因为根据上面的等式约束条件我们可以得到：

α 1 y 1 = - \sum i = 2 m α i y i

$\alpha_1y^1=-\sum^m_{i=2}\alpha_iy^i$
由于

y∈{−1,1} $y\in\{-1,1\}$ ，因此上式可以改写成：

α 1 = - y 1 \sum i = 2 m α i y i

$\alpha_1=-y^1\sum^m_{i=2}\alpha_iy^i$
可以看出，

α1 $\alpha_1$ 的值是和

α2,...αm $\alpha2,...\alpha_m$ 相关联的。

因此我们一次最少选取两个变量才能满足约束。然后SMO算法就诞生啦：
SMO伪代码
可以看到每次选取 $\alpha_i,\alpha_j$ 时都根据经验选取最好的一对组合。
然后固定除 $\alpha_i,\alpha_j$ 之外的参数，进行优化。
SMO 之所以高效就是因为在固定其他参数后，仅对两个参数 $\alpha_i,\alpha_j$ 优化的过程很高效。

现在假设我们有满足约束条件的参数集合 $\{\alpha_1,...\alpha_m\}$ ，假设固定 $\{\alpha_3,...\alpha_m\}$ ，这样W就是 $\alpha_1和\alpha_2$ 的函数，且根据等式约束 $\alpha_1和\alpha_2$ 满足下式：

α 1 y 1 + α 2 y 2 = - \sum i = 3 m α i y i

$\alpha_1y^1+\alpha_2y^2=-\sum^m_{i=3}\alpha_iy^i$
因为

{α3,...αm} $\{\alpha_3,...\alpha_m\}$ 以固定，为了方便，我们用

ζ $\zeta$ 代替等式右面：

α 1 y 1 + α 2 y 2 = ζ

$\alpha_1y^1+\alpha_2y^2=\zeta$
显然我们可以改写成：

α1=(ζ−α2y2)y1 $\alpha_1=(\zeta-\alpha_2y^2)y^1$

我们可以用下面的图说明 $\alpha_1,\alpha_2$ 取值情况，以及它们的关系:
这里写图片描述
横轴是 $\alpha_1$ 纵轴是 $\alpha_2$ ，从之前的KKT约束条件我们已经知道 $\alpha$ 的取值范围是[0，C]，因此 $\alpha_1,\alpha_2$ 的值必然在[0,C]X[0,C]的矩形框内。并且在上图中 $\alpha_1,\alpha_2$ 必然在直线 $\alpha_1y^1+\alpha_2y^2=\zeta$ 上，因此必然存在 $0\leq L \leq H \leq C$ 使得， $L \leq \alpha_2 \leq H$ 。

现在我们可得：

W (α 1 ， α 2, . . . α m) = W ((ζ - α 2 y 2) y 1, α 2, . . ., α m)

$W(\alpha_1，\alpha_2,...\alpha_m)=W((\zeta -\alpha_2y^2)y^1,\alpha_2,...,\alpha_m)$
同样的对于

{α1,...αm} $\{\alpha_1,...\alpha_m\}$ 我们也可以用

α2 $\alpha_2$ 来表示。
因为我们的优化问题是一个2次方程（

就那max12||w||2什么的 $就那\max \frac{1}{2}||w||^2什么的$ ），因此现在我们可以将它表示成一个关于

α2 $\alpha_2$ 的2次方程,例如：

aα22+bα2+c $a\alpha_2^2+b\alpha_2+c$ 。
这样我们就可以通过求导直接计算出函数的最优值。当然我们同时也要保证

α2 $\alpha_2$ 满足约束。
将在不考虑约束的情况下求得的

α2 $\alpha_2$ 的值表示成

αwithoutconstraints2 $\alpha_2^{withoutconstraints}$ ，由于

α2 $\alpha_2$ 的取值范围是[L,H]
可通过如下方式确定

α2 $\alpha_2$ 的值:

α 2 = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ H α w i t h o u t c o n s t r a i n t s 2 L if α w i t h o u t c o n s t r a i n t s 2 > H i f L \leq α w i t h o u t c o n s t r a i n t s 2 \leq H i f α w i t h o u t c o n s t r a i n t s 2 < L

$\begin{eqnarray} \alpha_2= \left \{ \begin{array}{lll} H & \textrm{if$\ \alpha^{withoutconstraints}_2>H$}\\ \alpha_2^{withoutconstraints} & \textrm {$if\ L\leq \alpha_2^{withoutconstraints} \leq H$}\\ L & \textrm{$if \ \alpha_2^{withoutconstraints} < L$} \end{array} \right. \end{eqnarray}$
然后我们就可以通过

α2 $\alpha_2$ 得到其他的

α $\alpha$ 的值了。

yzheately

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
SVM-7-SMO（序列最小优化算法）

坐标上升法首先介绍坐标上升法（Coordinate ascent）：假设要解决下面的没有约束的最优化问题： maxα W(α1,α2,...,αm)\max_\alpha \ W(\alpha_1,\alpha_2,...,\alpha_m). 对于这类最优化问题，我们可以使用地图下降法或者牛顿迭代法，这里我们使考虑使用坐标上升法：也就是说，每次循环我们我们固定除当前αi\al
复制链接

扫一扫