SVM-2-拉格朗日与对偶问题

最新推荐文章于 2023-02-24 22:06:26 发布

yzheately

最新推荐文章于 2023-02-24 22:06:26 发布

阅读量933

点赞数

分类专栏：机器学习打基础文章标签： SVM

本文链接：https://blog.csdn.net/yzheately/article/details/50930346

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

参考http://www.cnblogs.com/jerrylead

引入拉格朗日乘法

对于下面的最优化问题：

m i n w f (w)

$min_w\ f(w)$

s . t . h i (w) = 0, i = 1, . . ., l

$s.t.\ h_i(w)=0,\ i=1,...,l$
通常的解法是引入拉格朗日算子：

L (w, β) = f (w) + \sum i = 1 l β i h i (w)

$L(w,\beta) =f(w)+\sum^l_{i=1}\beta_ih_i(w)$
注：
1、所谓最优化问题，即在约束条件（这里是等式约束

hi(w)=0, i=1,...,l $h_i(w)=0,\ i=1,...,l$ ）下，求解目标函数(这里是

f(w) $f(w)$ )的最大值，或最小值。
2、

l $l$ 是等式约束的个数
3、

βi $\beta_i$ 是拉格朗日算子。
我们求

L(w,β) $L(w,\beta)$ 关于

w $w$ 和

β $\beta$ 的偏导数:

\partial L \partial w i = 0; \partial L \partial β i = 0

$\frac{\partial{L}}{\partial{w_i}}=0;\ \frac{\partial{L}}{\partial{\beta_i}}=0\\$
计算得到

w $w$ 和

β $\beta$ .

下面讨论广义拉格朗日算子（带有不等式约束）

给出原始优化问题（primal optimization problem）：

m i n w f (w)

$min_w\ \ \ f(w)$

s . t . g i (w) \leq 0, i = 1, . . ., k h i (w) = 0, i = 1, . . ., l

$s.t.\ \ \ g_i(w)\leq0,\ i=1,...,k\\h_i(w)=0,\ i=1,...,l$
定义广义拉格朗日算子：

L (w, α, β) = f (w) + \sum i = 1 k α i g i (w) + \sum i = 1 l β i h i (w) .

$L(w,\alpha,\beta)=f(w)+\sum^k_{i=1}\alpha_ig_i(w)+\sum^l_{i=1}\beta_ih_i(w).\\$
这里的

αi,βi $\alpha_i,\beta_i$ 都是拉格朗算子

下面定义： $\theta_P(w)=\max_{\alpha,\beta:\alpha_i\geq0}L(w,\alpha,\beta)\\$
注： $\theta_P$ 中的”P”是”primal”的缩写
上式中若 $w$ 违反原始约束条件( $g_i(w)>0或者h_i(w)\not=0$ )我么必然可以通过调整 $\alpha_i$ 的值使得 $\theta_P(w)=\max_{\alpha,\beta:\alpha_i\geq0}f(w)+\sum^k_{i=1}\alpha_ig_i(w)+\sum^l_{i=1}\beta_ih_i(w)=\infty$
相反的，如果原始约束条件都满足，则可得： $\theta_P(w)=f(w)$ ，因此可以写出下面的式子：

θ P (w) = {f (w) \infty if w satisfies primal constraints otherwise

$\theta_P(w)=\left\{\begin{array}{ll} f(w) & \textrm{if w satisfies primal constraints}\\ \infty & \textrm{otherwise} \end{array}\right.$

因此我们再考虑下面的式子：

min w θ P (w) = min w max α, β : α i \geq 0 L (w, α, β)

$\min_w\theta_P(w)=\min_w\ \max_{\alpha,\beta:\alpha_i\geq0} L(w,\alpha,\beta)$
注：当原始约束条件满足时，

minwθP(w)⟺minf(w) $\min_w\theta_P(w) \iff \min f(w)$

定义 $p^*=\min_w \theta_P(w)$ ，即用 $p^*$ 代表优化问题的值。此时如果直接求解，首先面对的是两个参数，而 $\alpha_i$ 也是不等式约束，然后再在 $w$ 上求最小值。这个过程可不容易做。

引入对偶问题

现在我们考虑下面的问题，定义：

$\theta_D(\alpha,\beta) = \min_w L(w,\alpha,\beta)$
注：
1、这里” $D$ ”是“ $dual$ ”的缩写
2、在之前定义的 $\theta_P$ 中，我们是取的 $\max$
下面给出原问题的对偶问题公式：

max α, β : α i \geq 0 θ D (α, β) = max α, β : α i \geq 0 min w L (w, α, β)

$\max_{\alpha,\beta:\alpha_i\geq 0} \theta_D(\alpha,\beta) = \max_{\alpha,\beta:\alpha_i\geq 0} \min_w L(w,\alpha,\beta)$
明显和原问题相比只是交换了

max和min $\max和\min$ 的位置。
和之前定义

p∗ $p^*$ 一样，定义

d∗=maxα,β:αi≥0θD(α,β) $d^*= \max_{\alpha,\beta:\alpha_i\geq 0} \theta_D(\alpha,\beta)$
一般的有

maxminf(x)≤minmaxf(x) $\max \min f(x) \leq \min \max f(x)$
因此可得：

d * = max α, β : α i \geq 0 min w L (w, α, β) \leq min w max α, β : α i \geq 0 L (w, α, β) = p *

$d^*= \max_{\alpha,\beta:\alpha_i\geq 0} \min_w L(w,\alpha,\beta) \leq \min_w\ \max_{\alpha,\beta:\alpha_i\geq0} L(w,\alpha,\beta) =p^*$
在一定的条件下对偶问题等价于原问题，即在一定条件下我们可以得到

d∗=p∗ $d^*=p^*$ ，这样我们就可以用求解对偶问题代替求解原始问题了。

$\\$
下面让我们来看看

d∗=p∗ $d^*=p^*$ 的条件
假设

f和gi $f和g_i$ 都是凸函数，

hi $h_i$ 是仿射(affine)的,(仿射函数即由1阶多项式构成的函数，一般形式为 f (x) = A x + b，这里，A 是一个 m×k 矩阵，x 是一个 k 向量,b是一个m向量，实际上反映了一种从 k 维到 m 维的空间映射关系。)
，且对于所有

gi(w) $g_i(w)$ 存在

w $w$ 使得

gi(w)≤0 $g_i(w) \leq 0\\$
注：
仿射函数：I.e., there exists

ai $a_i$ , bi, so that

hi(w)=aTiw+bi $h_i(w) = a^T _i w + b_i$ . “Affine” means the same thing as linear, except that we also allow the extra intercept term

bi $b_i$ .也就是说，去掉

bi $b_i$ 他就是一个线性函数，加上

bi $b_i$ 就叫仿射函数。

基于上面的假设必然存在 $w^*,\alpha^*,\beta^*$ ，使得 $w^*$ 是原问题的解， $\alpha^*, \beta^∗$ 是对偶问题的解,且满足 $p^*=d^*=L(w^*,\alpha^*,\beta^*)$ 。最重要的是这样的 $w^*,\alpha^*,\beta^*$ 满足Karush-Kuhn-Tucker (KKT)conditions，KKT规则如下：

\partial \partial w i L (w *, α *, β *) = 0, i = 1, . . ., n \partial \partial β i L (w *, α *, β *) = 0, i = 1, . . ., l α * i g i (w *) = 0, i = 1, . . ., k g i (w *) \leq 0, i = 1, . . ., k α * \geq 0, i = 1, . . ., k

$\frac{\partial}{\partial w_i} L(w^*,\alpha^*,\beta^*) =0,\ i=1,...,n\\ \frac{\partial}{\partial \beta_i} L(w^*,\alpha^*,\beta^*) =0,\ i=1,...,l\\ \alpha_i^* g_i(w^*) = 0,\ i=1,...,k\\ g_i(w^*) \leq 0,\ i=1,...,k\\ \alpha^*\geq 0,\ i=1,...,k$
对于满足KKT规则的

w∗,α∗,β∗ $w^*,\alpha^*,\beta^*$ ，其必然同时满足原始问题和对偶问题。
上式中公式

α∗igi(w∗)=0 $\alpha_i^* g_i(w^*) = 0$ 被称为KKT对偶互补条件( KKT dual complementarity condition)，它隐含了下面的条件：
如果

α∗i>0 $\alpha^*_i > 0$ ，则

gi(w∗)=0 $g_i(w^*)=0$ 。（即约束条件

gi(w)≤0 $g_i(w) \leq 0$ 成立，只是将不等式约束变成了等式约束）

yzheately

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM-2-拉格朗日与对偶问题

1、引入拉格朗日乘法对于下面的最优化问题：minw f(w)min_w\ f(w) s.t. hi(w)=0, i=1,...,ls.t.\ h_i(w)=0,\ i=1,...,l 通常的解法是引入拉格朗日算子： L(w,β)=f(w)+∑i=1lβihi(w)L(w,\beta) =f(w)+\sum^l_{i=1}\beta_ih_i(w) 注： 1、所谓最优化问题，即在约束条件（这
复制链接

扫一扫

专栏目录