【支持向量机 / SVM】原始SVM优化问题中原问题和对偶问题的理解

Deno_V

已于 2022-06-06 15:09:15 修改

阅读量628

点赞数 1

文章标签：支持向量机机器学习算法

于 2022-06-05 15:09:17 首次发布

本文链接：https://blog.csdn.net/weixin_44839047/article/details/125131524

版权

本文深入探讨了支持向量机（SVM）的原问题和对偶问题，详细解释了如何从原始的优化问题转换到对偶问题。通过介绍间隔最大化和约束条件的添加，展示了原问题的推导过程，同时阐述了对偶问题的形成及其与原问题的关系。最后，讨论了为何在实际应用中倾向于解决对偶问题，尤其是其在引入核方法时的优势。

摘要由CSDN通过智能技术生成

原始SVM优化问题中原问题和对偶问题的理解

~~这个问题已经烂大街了，也不介意我掺一脚，算是个人小总结，目的是优雅的追求，Elegant！~~

SVM的原问题

原始问题的形式如下：
$\min_{w,b} \frac12\|w\|^2\\ s.t.\quad 1-y_i(w^Tx_i+b)\le 0$

原问题的推理过程：
对于所有样本 $x_i$ ，我们需要找到一个超平面 $w^Tx+b=0$ 将空间划分，那么对于任何样本 $x_i,y_i)$ ，y是标签x是特征，要求满足 $y_i(w^Tx_i+b)>0$ 。
此外SVM要求间隔最大，间隔可以描述为在所有样本中距离超平面距离最小的那个点与超平面的距离。我们需要这样的一个最小的距离最大：
最小间隔为 $\min_{x_i} \frac{|w^Tx_i+b|}{\|w\|}$ （注意这里是 $\|w\|$ 而不是 $w\|^2$ ）
再让间隔最大，优化问题写作：
$\max_{w,b}\min_{x_i} \frac{|w^Tx_i+b|}{\|w\|}\\ s.t.\quad y_i(w^Tx_i+b)\ge0$
很明显这个优化问题是多解的，如果 $w^*,b^*)$ 是一个最优解，那么 $2w^*,2b^*)$ 也必须是一个最优解，因此我们总可以调整 $w^*,b^*)$ 的放缩系数得到一个最优解使得最小间隔 $\min_{x_i} \frac{|(w^*)^Tx_i+b^*|}{\|w^*\|}=\frac{1}{\|w^*\|}$
我们让过程再优雅一点，Elegant一点！
我们可以通过添加限制条件排除多解的问题
$\max_{w,b}\min_{x_i} \frac{|w^Tx_i+b|}{\|w\|}\\ s.t.\quad y_i(w^Tx_i+b)\ge0\\ s.t.\quad \min_{x_i}|w^Tx_i+b|=1$
把添加的约束代入到目标函数中，同时合并两个约束：
$\max_{w,b} \frac{1}{\|w\|}\\ s.t.\quad y_i(w^Tx_i+b)\ge1$
这样和最上面的式子只有一步之遥了～

SVM的对偶问题

我们想要优化这个式子：
$\min_{w,b} \frac12\|w\|^2\\ s.t.\quad 1-y_i(w^Tx_i+b)\le 0$

令 $L=\min_{w,b} \frac12\|w\|^2 \ s.t.\ 1-y_i(w^Tx_i+b)\le 0$
即 $L$ 为 $w, b$ 取可行解时 $\frac12\|w\|^2$ 的最小值
又令 $J(\alpha)=\min_{w,b} \frac12\|w\|^2+\sum_i \alpha_i(1-y_i(w^Tx_i+b))$ ，定义域为 $\alpha_i\ge0$
即 $J(\alpha)$ 为 $\alpha_i\ge0$ 时，且对 $(w, b)$ 不加限制的条件下， $\frac12\|w\|^{2}+\sum_i \alpha_i(1-y_i(w^Tx_i+b))$ 的最小值

显然 $J(\alpha) \le L$

推理过程:
设计算 $L=\min_{w,b} \frac12\|w\|^2 \ s.t.\ 1-y_i(w^Tx_i+b)\le 0$ 时，最小值对应的 $w, b$ 取值为 $w^*,b^*$ （原问题的最优解）
$w^*,b^*$ 必须满足 $1-y_i((w^*)^Tx_i+b^*)\le 0$ ，又有 $\alpha_i\ge0$ ，因此
$\frac12\|w^*\|^2+\sum_i \alpha_i(1-y_i((w^*)^Tx_i+b^*))\le \frac12\|w^*\|^2=L$
依据上面 $J(\alpha)$ 的定义有：
$J(\alpha)\le\frac12\|w^*\|^2+\sum_i \alpha_i(1-y_i((w^*)^Tx_i+b^*))$
因此 $J(\alpha) \le L$

接上文， $J(\alpha)\le L \Rightarrow \max_{\alpha} J(\alpha)\le L$
对偶问题求解的就是 $\max_\alpha J(\alpha)$ ，也就是原始最优问题的一个下界，而事实上 $\max_\alpha J(\alpha) = L$

说明：
取等号的性质，由凸优化问题的强对偶性决定
取等号的 $\alpha$ 满足如果 $1-y_i((w^*)^Tx_i+b^*)<0$ ，那么 $\alpha_i=0$ （互补松弛性）
（btw，上面所有内容中涉及了对偶优化中的弱对偶性/强对偶性/互补松弛性）

因此，对偶问题本质上就是优化求解：
$\max_\alpha J(\alpha)$

对偶问题的化简

为了在 $J(\alpha)$ 的表达式中消去 $w, b$ ，令 $J(\alpha)=\min_{w,b}L(w,b,\alpha)$
其中 $L(w,b,\alpha)=\frac12\|w\|^2+\sum_i \alpha_i(1-y_i(w^Tx_i+b))$
可以求得
$\partial L(w,b,\alpha)/\partial w = w-\sum_i \alpha_iy_ix_i \\ \partial L(w,b,\alpha)/\partial b = \sum_i \alpha_iy_i$
令 $\partial L(w,b,\alpha)/\partial w = 0$ 且 $\partial L(w,b,\alpha)/\partial b=0$ 得到 $w=\sum_i \alpha_iy_ix_i,\ \sum \alpha_iy_i=0$
故而
$\begin{aligned} J(\alpha )&=\frac12 \left(\sum_i \alpha_iy_ix_i^T\right)\left(\sum_j \alpha_jy_jx_j\right)+\sum_i \alpha_i\\ &-\sum_i\left(\alpha_iy_i\sum_k\alpha_ky_kx_k^Tx_i\right)-\sum_i\alpha_iy_ib\\ &=-\frac12\sum_i\sum_j \alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_i\alpha_i \end{aligned}$
因此最后的对偶问题为:
$\max_\alpha -\frac12\sum_i\sum_j \alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_i\alpha_i \\ s.t. \quad \sum_i\alpha_iy_i=0\\ (s.t.\quad \alpha_i\ge0)$