【机器学习杂记】拉格朗日对偶性（Lagrange duality）

最新推荐文章于 2022-09-18 14:08:47 发布

此心安处是吾乡_

最新推荐文章于 2022-09-18 14:08:47 发布

阅读量287

点赞数

分类专栏： Machine Learning 文章标签：机器学习算法支持向量机

本文链接：https://blog.csdn.net/wjpwjpwjp0831/article/details/107457896

版权

Machine Learning 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

1.原始问题

假设 $f(x),c_i(x),h_j(x)$ 是定义在 $R^n$ 上的连续可微函数。考虑约束最优化问题：
$\min_{x\in R^n}f(x) \\ s.t. \quad c_j (x)\le0,\,i=1,2,\dots k \\ h_j(x)=0,\, j=1,2,\dots l$
这个约束最优化问题称作原始问题。
解这个原始问题需引进广义拉格朗日函数：
$L(x,\alpha ,\beta )=f(x)+\sum_{i=1}^n \alpha_ic_i (x)+\sum_{j=1}^n\beta _j h_j (x)$
其中 $\alpha_i,\beta _j$ 为拉格朗日乘子。
考虑 $x$ 的函数：
$\theta_p(x)=\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta)$
下面考虑两种情况：

$x$ 不违反约束条件
这时很显然， $L$ 的第三项为0，若使 $L$ 最大，由于 $\alpha_i \ge0,c_j (x)\le0$ ，则第二项也必为0，因此有
$\theta_p(x)=f(x),\quad当x满足约束条件$
x违反约束条件
这时我们可以直接人为定义:
若某个i使 $c_i(x)>0$ ,令 $\alpha_i \to+\infty$ ,同理，若某个j使 $h_j(x)\neq0$ ,令 $\beta_i \to+\infty$ ，这样就有
$\theta_p(x)=+\infty$
且不影响解的结果。

因此如下极小化问题
$\min_{x}\theta_p(x)=\min_x\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta)$
是和原问题等价的。
问题 $\min_x\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta)$ 称作广义拉格朗日的极小极大问题。
定义原始问题的最优值
$p^*=\min_{x}\theta_p(x)$
为原始问题的值。

对偶问题

定义
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta )$
再将上式极大化
$\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)= \max_{\alpha,\beta:\alpha_i\ge0}\min_xL(x,\alpha,\beta )$
上式成为广义拉格朗日函数的极大极小问题。原始问题中，是极小极大问题。原始问题的下标p表示prime，对偶问题的下标D表示dual（duality）.
可以将广义拉格朗日函数的极大极小问题表示为如下约束最优化问题：
$\max_{\alpha,\beta}\min_xL(x,\alpha,\beta )\\ s.t. \quad \alpha_i\ge0$
同样，定义对偶问题的最优值
$d^*=\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)$

原始问题和对偶问题的关系

定理1
若原始问题和对偶问题都有最优值，则
$d^*=\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)\le p^*=\min_{x}\theta_p(x)$
证明略。
定理2
假设函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数（最高次数为1的多项式函数），且不等式约束 $c_i(x)$ 是严格可行的，即存在 $x$ ，对所有i有 $c_i(x)<0$ ，则存在 $x^*,\alpha^*,\beta^*$ ，使 $x^*,$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解，并且
$p^*=d^*=L(x^*,\alpha^*,\beta^*)$
定理3
假设函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数（最高次数为1的多项式函数），且不等式约束 $c_i(x)$ 是严格可行的，则 $x^*,\alpha^*,\beta^*$ 分别是原始问题和对偶问题的解的充要条件是 $x^*,\alpha^*,\beta^*$ 满足下面的KKT条件：
$\nabla _x L(x^*,\alpha^*,\beta^*)=0\\ \nabla_\alpha L(x^*,\alpha^*,\beta^*)=0\\ \nabla_\beta L(x^*,\alpha^*,\beta^*)=0\\ s.t.\quad \alpha _i^*c_i(x^*)=0 \\ c_i(x^*)\le0\\ \alpha _i^*\ge0 \\ h_j(x^*)=0\\ i=1,2, \dots ,k \quad j=1,2,\dots l$