支持向量机—SMO算法详细总结汇总

最新推荐文章于 2023-07-06 15:19:40 发布

旅途中的宽~

最新推荐文章于 2023-07-06 15:19:40 发布

阅读量261

点赞数 1

文章标签：算法支持向量机机器学习人工智能学习

本文链接：https://blog.csdn.net/wzk4869/article/details/125908819

版权

引言

面对这样的优化问题: $\begin{split} &\min_{\alpha}\;\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha^{(i)}\alpha^{(j)}K(x^{(i)}\cdot x^{(j)})-\sum_{i=1}^{m}\alpha^{(i)}\\ &s.t.\;\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}=0\;,\;0\leq\alpha^{(i)}\leq C\;,\;i=1,2,\cdots,m \end{split}$

参数: $\alpha$ 是拉格朗日乘子构成的变量，有 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^T$ ，每一个拉格朗日乘子对应一个样本点，例如: $\alpha_1\rightarrow (x_1,y_1)$ 。

1.坐标下降法

每次只完成一个参数的更新。

我们接下来举一个简单的例子来说明:
$arg\;\min_{x_1,x_2}f(x_1,x_2)=x_1^2+2x_2^2-x_1x_2+1$

:初始值 $x_1^{(0)},x_2^{(0)})^T$

:选择其中一个进行更新

例如选择 $x_1^{(0)}$ ，固定 $x_2^{(0)}$ ，使得问题转化为:
$arg\;\min_{x_1,x_2}f(x_1,x_2^{(0)})$

我们采用费马原理如下:
$\frac{\partial f}{\partial x_1}=2x_1-x_2^{(0)}=0\Rightarrow x_2=\frac{x_2^{0}}{2}$

:更新 $x_2$ ，固定 $x_1=x_1^{1}$ ，求解 $x_2$

$arg\;\min_{x_1,x_2}f(x_1^{(1)},x_2)$

$\frac{\partial f}{\partial x_2}=4x_2-x_1^{(1)}\Rightarrow x_2^{(1)}=\frac{x_1^{1}}{4}$

:重复上面的 $\rightarrow$ 直到收敛为止。

坐标下降法可以应用在非线性支持向量机吗？

不妨选取 $\alpha_1$ ，固定 $\alpha_2,\alpha_3,\cdots,\alpha_N$ 。

:初始值 $\alpha^{(0)}=(\alpha_1^{(0)},\alpha_2^{(0)},\cdots,\alpha_N^{(0)})$

:在固定 $\alpha_2,\alpha_3,\cdots,\alpha_N$ 下，求 $\alpha_1$

使得: $\begin{split} &\min_{\alpha}\;W(\alpha_1,\alpha_2^{(0)},\alpha_3^{(0)},\cdots,\alpha_N^{(0)})\\ &s.t.\;\alpha_iy_i=-\sum_{i=2}^{N}\alpha_i^{(0)}y_i\;,\;0\leq \alpha_i\leq C \end{split}$

此时 $\alpha_1$ 可以直接由约束条件得到具体的值，无法进行更新。

所以坐标下降法用于非线性支持向量机的方法失败了。

但是我们可以换个思路，固定剩余的 $N - 2$ 个变量，求两个变量，这就是接下来要讲的序列最小最优算法的最初想法。

2.SMO算法

SMO算法要解决如下问题: $\begin{split} &\min_{\alpha}\;\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha^{(i)}\alpha^{(j)}K(x^{(i)}\cdot x^{(j)})-\sum_{i=1}^{m}\alpha^{(i)}\\ &\textbf{s.t.}\;\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}=0\;,\;0\leq\alpha^{(i)}\leq C\;,\;i=1,2,\cdots,m \end{split}$

我们选择两个变量， $\alpha_1\;,\;\alpha_2$ ，其他变量固定，于是SMO的最优化问题的子问题为:
$\begin{split} \min_{\alpha_1,\alpha_2}W(\alpha^{(1)},\alpha^{(2)})&=\frac{1}{2}K_{11}{\alpha^{(1)}}^2+\frac{1}{2}K_{22}{\alpha^{(2)}}^2+y^{(1)}y^{(2)}K_{12}\alpha^{(1)}\alpha^{(2)}\\ &-(\alpha^{(1)}+\alpha^{(2)})+y^{(1)}\alpha^{(1)}\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}K_{i1}+y^{(2)}\alpha^{(2)}\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}K_{i2}\\ \textbf{s.t.}\quad \quad \alpha^{(1)}y^{(1)}+&\alpha^{(2)}y^{(2)}=-\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}=\zeta\;,\;0\leq\alpha^{(i)}\leq C\;,\;i=1,2 \end{split}$

其中， $K_{ij}=K(x_i,x_j)\;,\;i,j=1,2,\cdots,N$ ， $\zeta$ 是常数，目标函数中省略了不含 $\alpha^{(1)}\;,\;\alpha^{(2)}$ 项。

为了叙述简单，记: $\begin{split} &g(x)=\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}K(x^{(i)},x)+b\\ &E_i=g(x^{(i)})-y^{(i)}=(\sum_{j=1}^{m}\alpha^{(j)}y^{(j)}K(x^{(j)},x^{(i)})+b)-y^{(i)}\\ &V_i=\sum_{j=3}^{m}\alpha^{(j)}y^{(j)}K(x^{(j)},x^{(i)})=g(x^{(i)})-\sum_{j=1}^2\alpha^{(j)}y^{(j)}K(x^{(j)},x^{(i)})-b \end{split}$

目标函数可写成:
$W(\alpha^{(1)},\alpha^{(2)})=\frac{1}{2}K_{11}{\alpha^{(1)}}^{2}+\frac{1}{2}K_{22}{\alpha^{(2)}}^{2}+y^{(1)}y^{(2)}K_{12}\alpha^{(1)}\alpha^{(2)}-(\alpha^{(1)}+\alpha^{(2)})+y^{(1)}\alpha^{(1)}v_1+y^{(2)}\alpha^{(2)}v_2$

我们的表示方法如下: $\begin{split} &K_{11}=K(x_1,x_2)\;,\;K_{22}=K(x_2,x_2)\\ &K_{12}=K(x_1,x_2)\;,\;K_{1j}=K(x_1,x_j)\\ &K_{2j}=K(x_2,x_j) \end{split}$

由 $\alpha^{(1)}y^{(1)}=\zeta-\alpha^{(2)}y^{(2)}$ 可将 $\alpha^{(1)}$ 表示为:
$\alpha^{(1)}=(\zeta-\alpha^{(2)}y^{(2)})y^{(1)}$ 且 ${y^{(i)}}^2=1$ 。

$\begin{split} W(\alpha^{(2)})&=\frac{1}{2}K_{11}(\zeta-\alpha^{(2)}y^{(2)})^2+\frac{1}{2}K_{22}{\alpha^{(2)}}^{2}+y^{(2)}K_{12}(\zeta-\alpha^{(2)}y^{(2)})\alpha^{(2)}\\ &-((\zeta-\alpha^{(2)}y^{(2)})y^{(1)}+\alpha^{(2)})+(\zeta-\alpha^{(2)}y^{(2)})v_1+y^{(2)}\alpha^{(2)}v_2 \end{split}$

对 $\alpha^{(2)}$ 求导:
$\frac{\partial W}{\partial \alpha^{(2)}}=K_{11}\alpha^{(2)}+K_{22}\alpha^{(2)}-2K_{12}\alpha^{(2)}-K_{11}\zeta y^{(2)}+K_{12}\zeta y^{(2)}+y^{(1)}y^{(2)}-1-v_{1}y^{(2)}+y^{(2)}v_2$

令其为0，得到: $\begin{split} &(K_{11}+K_{22}-2K_{12})\alpha^{(2)}=y^{(2)}(y^{(2)}-y^{(1)}+\zeta K_{11}-\zeta K_{12}+v_1-v_2)\\ &=y^{(2)}(y^{(2)}-y^{(1)}+\zeta K_{11}-\zeta K_{12}+(g(x_1)-\sum_{j=1}^2\alpha^{(j)}y^{(j)}K_{1j}-b)-(g(x_2)-\sum_{j=1}^2\alpha^{(j)}y^{(j)}K_{2j}-b)) \end{split}$

将 $\zeta=\alpha_{old}^{(1)}y^{(1)}+\alpha_{old}^{(2)}y^{(2)}$ 代入，得到:
$\begin{split} (K_{11}+K_{22}-2K_{12})\alpha_{new,unc}^{(2)}&=y^{(2)}((K_{11}+K_{22}-2K_{12})\alpha_{old}^{(2)}y^{(2)}+y^{(2)}-y^{(1)}+g(x_1)-g(x_2))\\ &=(K_{11}+K_{22}-2K_{12})\alpha_{old}^{(2)}+y^{(2)}(E_1-E_2) \end{split}$

令 $\eta=K_{11}+K_{22}-2K_{12}$ 代入，得到:
$\alpha_{new,unc}^{(2)}=\alpha_{old}^{(2)}+\frac{y^{(2)}(E_1-E_2)}{\eta}$

上面的结果我们求得的是无约束的解，我们需要看一个经过约束条件后的迭代条件。条件如下:
$\left\{ \begin{split} &\alpha_1y_1+\alpha_2y_2=\zeta\\ &0\leq \alpha_1\leq C\\ &0\leq \alpha_2\leq C\\ \end{split} \right.$

我们分情况讨论:

$y_1=y_2$ : $\alpha_1+\alpha_2=y_1\zeta=k$

$y_1\neq y_2$ : $\alpha_1-\alpha_2=y_1\zeta=k$

我们对于第一种情况:

此时的区间为: $\begin{split} &L=\max(0,\zeta-C)=\max(0,\alpha_{old}^{(2)}+\alpha_{old}^{(1)}-C)\\ &H=\min(C,\zeta)=\min(C,\alpha_{old}^{(2)}+\alpha_{old}^{(1)}) \end{split}$

我们对于第二种情况:

此时的区间为: $\begin{split} &L=\max(0,-\zeta)=\max(0,\alpha_{old}^{(2)}-\alpha_{old}^{(1)})\\ &H=\min(C,C-\zeta)=\min(C,C+\alpha_{old}^{(2)}-\alpha_{old}^{(1)}) \end{split}$

我们的 $\alpha^{(2)}$ 的区间为: $L\leq \alpha^{(2)}\leq H$

因此我们得到的最终的 $\alpha^{(2)}$ 的解为: $\alpha_{new}^{(2)}=\left\{ \begin{split} &H\;,\;\alpha_{new,unc}^{(2)}>H\\ &\alpha_{new,unc}^{(2)}\;,\;L\leq \alpha_{new,unc}^{(2)}\leq H\\ &L\;,\;\alpha_{new,unc}^{(2)}<L \end{split} \right.$

求得 $\alpha_{new}^{(1)}$ 为:
$\alpha_{new}^{(1)}=\alpha_{old}^{(1)}+y^{(1)}y^{(2)}(\alpha_{old}^{(2)}-\alpha_{new}^{(2)})$

我们接下来是计算 $b$ 值，我们有: $\begin{split} &g(x)=\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}K(x^{(i)},x)+b\\ &E_i=g(x^{(i)})-y^{(i)}=(\sum_{j=1}^{m}\alpha^{(j)}y^{(j)}K(x^{(j)},x^{(i)})+b)-y^{(i)} \end{split}$

(1)当 $0<\alpha_{new}^{(1)}<C$ 时，有:
$\sum_{i=1}^{m}y^{(i)}\alpha^{(i)}K_{i1}+b=y^{(1)}$

因此:
$b_{new}^{(1)}=y^{(1)}-\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}K_{i1}-\alpha_{new}^{(1)}y^{(1)}K_{11}-\alpha_{new}^{(2)}y^{(2)}K_{21}$

由 $E_1$ 定义可知:
$E_1=\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}K_{i1}+\alpha_{old}^{(1)}y^{(1)}K_{11}+\alpha_{old}^{(2)}y^{(2)}K_{21}+b_{old}-y^{(1)}$

变形得:
$y^{(1)}-\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}K_{i1}=-E_1+\alpha_{old}^{(1)}y^{(1)}K_{11}+\alpha_{old}^{(2)}y^{(2)}K_{21}+b_{old}$

代入 $b_{new}^{(1)}=y^{(1)}-\sum_{i=3}^{m}y^{(i)}\alpha^{(i)}K_{i1}-\alpha_{new}^{(1)}y^{(1)}K_{11}-\alpha_{new}^{(2)}y^{(2)}K_{21}$ 得:
$b_{new}^{(1)}=-E_1-y^{(1)}K_{11}(\alpha_{new}^{(1)}-\alpha_{old}^{(1)})-y^{(2)}K_{21}(\alpha_{new}^{(2)}-\alpha_{old}^{(2)})+b_{old}$

(2)同理若 $0<\alpha_{new}^{(2)}<C$ ，可得:
$b_{new}^{(2)}=-E_2-y^{(1)}K_{12}(\alpha_{new}^{(1)}-\alpha_{old}^{(1)})-y^{(2)}K_{22}(\alpha_{new}^{(2)}-\alpha_{old}^{(2)})+b_{old}$

(3)若 $\alpha_{new}^{(1)}$ 和 $\alpha_{new}^{(2)}$ 同时满足 $0<\alpha_{new}^{(i)}<C$ ，则:
$b_{new}^{(1)}=b_{new}^{(2)}$

若 $\alpha_{new}^{(1)}$ 和 $\alpha_{new}^{(2)}$ 是0或者 $C$ ，则:
$b_{new}=\frac{b_{new}^{(1)}+b_{new}^{(2)}}{2}$

3.SMO算法推导结果

$\begin{split} &g(x)=\sum_{i=1}^{m}\alpha^{(i)}y^{(i)}K(x^{(i)},x)+b\\ &E_i=g(x^{(i)})-y^{(i)}=(\sum_{j=1}^{m}\alpha^{(j)}y^{(j)}K(x^{(j)},x^{(i)})+b)-y^{(i)}\\ &\eta=K_{11}+K_{22}-2K_{12}\\ &\alpha_{new,unc}^{(2)}=\alpha_{old}^{(2)}+\frac{y^{(2)}(E_1-E_2)}{\eta} \end{split}$

若 $y^{(1)}\neq y^{(2)}$ : $\begin{split} &L=\max(0,-\zeta)=\max(0,\alpha_{old}^{(2)}-\alpha_{old}^{(1)})\\ &H=\min(C,C-\zeta)=\min(C,C+\alpha_{old}^{(2)}-\alpha_{old}^{(1)}) \end{split}$

若 $y^{(1)}=y^{(2)}$ : $\begin{split} &L=\max(0,\zeta-C)=\max(0,\alpha_{old}^{(2)}+\alpha_{old}^{(1)}-C)\\ &H=\min(C,\zeta)=\min(C,\alpha_{old}^{(2)}+\alpha_{old}^{(1)}) \end{split}$

$\alpha_{new}^{(2)}=\left\{ \begin{split} &H\;\;,\;\;\alpha_{new,unc}^{(2)}>H\\ &\alpha_{new,unc}^{(2)}\;\;,\;\;L\leq \alpha_{new,unc}^{(2)}\leq H\\ &L\;\;,\;\;\alpha_{new,unc}^{(2)}<L \end{split} \right.$

$\begin{split} &\alpha_{new}^{(1)}=\alpha_{old}^{(1)}+y^{(1)}y^{(2)}(\alpha_{old}^{(2)}-\alpha_{new}^{(2)})\\ &b_{new}^{(1)}=-E_1-y^{(1)}K_{11}(\alpha_{new}^{(1)}-\alpha_{old}^{(1)})-y^{(2)}K_{21}(\alpha_{new}^{(2)}-\alpha_{old}^{(2)})\\ &b_{new}^{(2)}=-E_2-y^{(1)}K_{12}(\alpha_{new}^{(1)}-\alpha_{old}^{(1)})-y^{(2)}K_{22}(\alpha_{new}^{(2)}-\alpha_{old}^{(2)}) \end{split}$