SMO算法

最新推荐文章于 2023-08-06 20:00:05 发布

xbmatrix

最新推荐文章于 2023-08-06 20:00:05 发布

阅读量559

点赞数

分类专栏：数据挖掘与机器学习

数据挖掘与机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

参考：http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=207467263&idx=6&sn=e6f5af59fe8776cd9bc872b8194fe158&mpshare=1&scene=1&srcid=0301wDKYOFIcIZhnvFQf0ukI#rd

http://blog.csdn.net/timruning/article/details/49779767

我有一双神奇的解题小手，不断的化简——代入——化简——代入，不断的迭代——搜索——迭代——搜索，咦，答案出来了！！！

本集大纲：

1.回顾

2.处理奇葩值

3.SMO算法

1. 回顾

第2-4话中，我们介绍了如何去拟合一个SVM模型，第5话我们假设把这个SVM模型拟合好了，讨论如何去实现它，前几话的逻辑关系如下图所示：

看到上面的图，你已经明白，本集第六话要讲的，就是SVM模型的拟合过程——SMO序列最小优化算法。

2. 处理奇葩值

第五话中，我们说到，有一些无法用线性分类器分开的情况，其解决办法是映射到高维。映射到高维是可以解决，但是计算要复杂了，所以我们又用核函数简化计算。这是第五话的内容。但是，看看下面这个例子，你建不建议用映射的办法？

我勒个去！！！

如果把它当做非线性问题，那么要用下面左图的办法（映射+核函数），但是不是觉得太亏了，就因为一个点，计算量要复杂很多，而且这个点非常有可能是噪音！

因此，在实际建模中，我们应该考虑到这样的情况，允许个别离群点的存在。把心放宽一点，用下图右边的方法去解决。

当然，把心放多宽，那要你自己把握了，万一你是处女座……

那么具体到数学表达上，怎么个容忍法呢？我用下面的对照图来说明：

下面这幅图一步一步不用去推，这么展示有两个目的：一是想要说明，加了松弛变量的推导其实也就多了那么个小尾巴ξ，在最后要使用的那个对偶问题里，也就是对偶变量a多了一个上线C；二是正好让大家也复习一下前面的推导过程，忘记的同学可以对照着翻看一下前面五话。

3. SMO算法

前面我们用那么多篇幅，一步步推导，把要解决的问题打造成如下形式：

为了方便下面的说明，我们给这个问题起个代号吧，就叫“终极问题”和“终极约束”！

现在我们就用SMO序列最小优化算法来解决这个“终极问题”。

还记得梯度上下降法吗？算了还是不把事情搞复杂了，感兴趣的在公众号“数说工作室”（微信号shushuojun）中回复“得到”查看。

这里我们的解决思路，简单来说，就是固定a₁以外的所有参数，然后在a₁上求极值。

这样可以吗？不可以，因为我们这题多了一个

也就是说，当我固定a₁以外的所有参数时，a₁的值也就定下来了：

所以固定一个参数是不行的，我们要一次选取两个参数做优化。那么我们选取a₁，a₂，其他变量a_i（i=3,4,…）是固定的。

好了，我们现在开始解，思路如下图：

好了，我们先化简“终极约束”

化简“终极约束”

由于我们是固定除了a₁，a₂所有的参数，因此有：

这里D我们用一个常数表示，是被我们固定了的。我们就可以利用这个来表示a₁：

其实，y的取值要么是1，要么是-1，所以上式等价于：

这是我们化简得到的第一个信息。别忘了我们还有，

以上是我们直接得到的两个信息，把这两个信息合并，我们还能进一步缩小参数a₁，a₂的取值范围：

1. 当y₁和y₂异号的时候，有

这个时候两个参数a₁和a₂怎么取值的呢？我们用下面这个图直观的看出来：

此时a_i（i=1,2）的取值范围一定是正方形内的紫色线或红色线段。

（1）以a₂为例，我们来看一下它的上限：

它的上限要么是点1的C，要么是点2的C-D。这个很明显吧，如果a₂<a₁，那么上限就是红色线段的点2的C-D，如果a₂>a₁，那么上限就是紫色线段的点1的C，整理一下（上限用H表示）：

如果a₂<a₁，H=C-D=C+a₂-a₁；

如果a₂>a₁，H=C；

把这两个总和一下，用一个式子表示就是，H=min(C , C+a₂-a₁)，想一想，是不是这样的？

（2）我们再来看一下a₂的下限：

它的下限要么是点3的-D，要么是点4的0。如果a₂<a₁，那么下限就是红色线段的点4的0，如果a₂>a₁，那么下限就是紫色线段的点3的-D，整理一下（上限用L表示）：

如果a₂<a₁，L=0；

如果a₂>a₁，L=-D=a₂-a₁；

把这两个总和一下怎么表示？这个时候我建议你把下面的答案盖着，自己写一下，你写出来的一定是——

L=max(0 , a₂-a₁)

总结起来，当y₁和y₂异号的时候，有

L=max(0, a₂-a₁) <= a₂ <= H=min(C , C+a₂-a₁)

2. 当y₁和y₂同号的时候，有

同与（1）相同的方法，可以推出a₂的取值范围是

L=max(0, a₂+a₁-C) <= a₂ <= H=min(C , a₁+a₂)

这同时也是a₁的取值范围，好了，这是我们化简“终极约束”后，得到的三个“究极约束”。

化简“终极问题”

复习一下，终极问题是这样的：

现在我们来化简它，我们把a₁，a₂专门拿出来，给“终极进化”做一个等价变形：

这个式子，不建议推导，知道就好。

我们再接着化简，引用记号：代入到上式中去，终极问题化简为

=究极问题J(a₁,a₂)

l “究极约束”代入到“究极问题”中去——解“究极问题”

我们首先将“究极约束”代入到“究极问题”中去，有：

究极问题J(a₂)=

对a₂求导，使其为0，得

另外，，，还记得吧，SVM的模型，可别忘了）代入进去，有：

好了，式子出来了，我们下面代入实际值进行迭代求解。

迭代求值

迭代求值不用多说，给定一个初始值，然后进行迭代更新。

给定a₂和a₁的初始值a^old₂，a^old₁，有

D= a^old₂+ a^old₁

代入到最终解里去，得到

a₂上面的unc是什么？别忘了a₂还要满足L<= a₂ <= H，我们暂且不考虑这个范围，故用unc表示，考虑了这个范围，再把这个小尾巴unc去掉。

令，原式等价于

，迭代得到：

现在把小尾巴unc去掉，

===================================

最近在学习SVM时，对于SMO代码(代码源自《机器学习实战》)中判断是否需要优化alpha[i]不太理解。

挣扎了一番，说说自己小小的见解。

也希望大神们能指导一下。

SMO是一种启发式同时优化两个alpha值的算法。

过程中会先选择一个alpha[i]先判断是否需要优化之然后再选择另外一个alpha[j]。

而判断的代码大概是这样的：

[python]view plaincopy 
   
 if ((labelMat[i] * Ei < -toler) and (alphas[i] < C)) or ((labelMat[i] * Ei > toler) and (alphas[i] > 0)):  
                 # coding  

判断条件翻译成公式就是：

两个条件能否成立一个，如果成立则说明alpha[i]是需要优化的。

在我的理解中对于SVM划分的区域可以看成三个个部分a区域，b区域，和作为支持向量的蓝线区域：

对应起来在a区域的点，其alpha值是等于C的。b区域的点alpha值为0。而恰好在蓝线上的点也就是支持向量，alpha>0。

那么对于一个点采用svm划分。它被划错就有两种情况：

1.该点属于b区域，其几何距离应该大于1，但是alpha>0，比如点p。

也就是公式中第一个判别条件。

2.该点属于a区域，其几何距离应该是c，但是alpha<c，不如点q。

公式中第二个判别条件。

对于这两种划错情况，其alpha值都是有必要优化的。所以也就有了代码中，对应的判断条件。

xbmatrix

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SMO算法

参考：http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=207467263&idx=6&sn=e6f5af59fe8776cd9bc872b8194fe158&mpshare=1&scene=1&srcid=0301wDKYOFIcIZhnvFQf0ukI#rd我有一双神奇的解题小手，不断的化简——代入——化简——代入，不断的迭代——
复制链接

扫一扫