SMO算法

参考:http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=207467263&idx=6&sn=e6f5af59fe8776cd9bc872b8194fe158&mpshare=1&scene=1&srcid=0301wDKYOFIcIZhnvFQf0ukI#rd

http://blog.csdn.net/timruning/article/details/49779767

我有一双神奇的解题小手,不断的化简——代入——化简——代入,不断的迭代——搜索——迭代——搜索,咦,答案出来了!!!


本集大纲:


1.回顾

2.处理奇葩值

3.SMO算法




1. 回顾

2-4话中,我们介绍了如何去拟合一个SVM模型,第5话我们假设把这个SVM模型拟合好了,讨论如何去实现它,前几话的逻辑关系如下图所示:




看到上面的图,你已经明白,本集第六话要讲的,就是SVM模型的拟合过程——SMO序列最小优化算法。


2. 处理奇葩值

第五话中,我们说到,有一些无法用线性分类器分开的情况,其解决办法是映射到高维。映射到高维是可以解决,但是计算要复杂了,所以我们又用核函数简化计算。这是第五话的内容。但是,看看下面这个例子,你建不建议用映射的办法?




我勒个去!!!


如果把它当做非线性问题,那么要用下面左图的办法(映射+核函数),但是不是觉得太亏了,就因为一个点,计算量要复杂很多,而且这个点非常有可能是噪音!

因此,在实际建模中,我们应该考虑到这样的情况,允许个别离群点的存在。把心放宽一点,用下图右边的方法去解决。




当然,把心放多宽,那要你自己把握了,万一你是处女座……



那么具体到数学表达上,怎么个容忍法呢?我用下面的对照图来说明:

下面这幅图一步一步不用去推,这么展示有两个目的:一是想要说明,加了松弛变量的推导其实也就多了那么个小尾巴ξ,在最后要使用的那个对偶问题里,也就是对偶变量a多了一个上线C;二是正好让大家也复习一下前面的推导过程,忘记的同学可以对照着翻看一下前面五话。




3. SMO算法

前面我们用那么多篇幅,一步步推导,把要解决的问题打造成如下形式:




为了方便下面的说明,我们给这个问题起个代号吧,就叫“终极问题”和“终极约束”!


现在我们就用SMO序列最小优化算法来解决这个“终极问题”。


还记得梯度上下降法吗?算了还是不把事情搞复杂了,感兴趣的在公众号“数说工作室”(微信号shushuojun)中回复“得到”查看。

这里我们的解决思路,简单来说,就是固定a1以外的所有参数,然后在a1上求极值。

这样可以吗?不可以,因为我们这题多了一个




也就是说,当我固定a1以外的所有参数时,a1的值也就定下来了:




所以固定一个参数是不行的,我们要一次选取两个参数做优化。那么我们选取a1a2,其他变量ai(i=3,4,…)是固定的。

好了,我们现在开始解,思路如下图:




好了,我们先化简“终极约束”


  • 化简“终极约束”

由于我们是固定除了a1a2所有的参数,因此有:



这里D我们用一个常数表示,是被我们固定了的。我们就可以利用这个来表示a1




其实,y的取值要么是1,要么是-1,所以上式等价于:




这是我们化简得到的第一个信息。别忘了我们还有,




以上是我们直接得到的两个信息,把这两个信息合并,我们还能进一步缩小参数a1a2的取值范围:

1. y1y2异号的时候,有



这个时候两个参数a1a2怎么取值的呢?我们用下面这个图直观的看出来:





此时ai(i=1,2)的取值范围一定是正方形内的紫色线或红色线段。

(1)以a2为例,我们来看一下它的上限:

它的上限要么是点1的C,要么是点2的C-D。这个很明显吧,如果a2<a1,那么上限就是红色线段的点2的C-D,如果a2>a1,那么上限就是紫色线段的点1的C,整理一下(上限用H表示):

如果a2<a1,H=C-D=C+a2-a1

如果a2>a1,H=C;

把这两个总和一下,用一个式子表示就是,H=min(C , C+a2-a1),想一想,是不是这样的?


(2)我们再来看一下a2的下限:

它的下限要么是点3的-D,要么是点4的0。如果a2<a1,那么下限就是红色线段的点4的0,如果a2>a1,那么下限就是紫色线段的点3的-D,整理一下(上限用L表示):

如果a2<a1,L=0;

如果a2>a1,L=-D=a2-a1

把这两个总和一下怎么表示?这个时候我建议你把下面的答案盖着,自己写一下,你写出来的一定是——

L=max(0 , a2-a1)

总结起来,当y1y2异号的时候,有

L=max(0, a2-a1) <= a2 <= H=min(C , C+a2-a1)

2. y1y2同号的时候,有



同与(1)相同的方法,可以推出a2的取值范围是

L=max(0, a2+a1-C) <= a2 <= H=min(C , a1+a2)


这同时也是a1的取值范围,好了,这是我们化简“终极约束”后,得到的三个“究极约束”。

  • 化简“终极问题”

复习一下,终极问题是这样的:


现在我们来化简它,我们把a1a2专门拿出来,给“终极进化”做一个等价变形:




这个式子,不建议推导,知道就好。

我们再接着化简,引用记号:代入到上式中去,终极问题化简为



=究极问题J(a1,a2)


l “究极约束”代入到“究极问题”中去——解“究极问题”

我们首先将“究极约束”代入到“究极问题”中去,有:


究极问题J(a2)=


a2求导,使其为0,得




另外,,还记得吧,SVM的模型,可别忘了)代入进去,有:




好了,式子出来了,我们下面代入实际值进行迭代求解。


  • 迭代求值

迭代求值不用多说,给定一个初始值,然后进行迭代更新。

给定a2和a1的初始值aold2,aold1,有

D= aold2+ aold1

代入到最终解里去,得到




a2上面的unc是什么?别忘了a2还要满足L<= a2 <= H,我们暂且不考虑这个范围,故用unc表示,考虑了这个范围,再把这个小尾巴unc去掉。

,原式等价于




,迭代得到:




现在把小尾巴unc去掉,





===================================

最近在学习SVM时,对于SMO代码(代码源自《机器学习实战》)中判断是否需要优化alpha[i]不太理解。

挣扎了一番,说说自己小小的见解。

也希望大神们能指导一下。

SMO是一种启发式同时优化两个alpha值的算法

过程中会先选择一个alpha[i]先判断是否需要优化之然后再选择另外一个alpha[j]。

而判断的代码大概是这样的:

[python]  view plain  copy
  1. if ((labelMat[i] * Ei < -toler) and (alphas[i] < C)) or ((labelMat[i] * Ei > toler) and (alphas[i] > 0)):  
  2.                 # coding  

判断条件翻译成公式就是:


两个条件能否成立一个,如果成立则说明alpha[i]是需要优化的。

在我的理解中对于SVM划分的区域可以看成三个个部分a区域,b区域,和作为支持向量的蓝线区域:


对应起来在a区域的点,其alpha值是等于C的。b区域的点alpha值为0。而恰好在蓝线上的点也就是支持向量,alpha>0。

那么对于一个点采用svm划分。它被划错就有两种情况:

1.该点属于b区域,其几何距离应该大于1,但是alpha>0,比如点p。

也就是公式中第一个判别条件。

2.该点属于a区域,其几何距离应该是c,但是alpha<c,不如点q。

公式中第二个判别条件。

对于这两种划错情况,其alpha值都是有必要优化的。所以也就有了代码中,对应的判断条件。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值