拉格朗日乘子法与拉格朗日对偶性

最新推荐文章于 2022-03-23 15:14:50 发布

「已注销」

最新推荐文章于 2022-03-23 15:14:50 发布

阅读量2.1k

点赞数 3

分类专栏：数学准备文章标签： Machine Learning

本文链接：https://blog.csdn.net/xu_ampl/article/details/90004552

版权

拉格朗日乘子法

摘自周志华《机器学习》
拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法，通过引入拉格朗日乘子，可将有 $d$ 个变量和 $k$ 个约束条件的最优化问题转化为具有 $d + k$ 个变量的无约束优化问题求解.
先考虑一个等式约束的优化问题，假定 $\boldsymbol x$ 为 $d$ 维向量，欲寻求 $\boldsymbol x$ 的某个取值 $\boldsymbol x^*$ ,使目标函数 $f(\boldsymbol x)$ 最小且同时满足 $g(\boldsymbol x)=0$ 的约束. 从几何角度来看，该问题的目标是在方程 $g(\boldsymbol x)=0$ 确定的 $d - 1$ 维曲面上寻找能使目标函数 $f(\boldsymbol x)$ 最小化的点. 由此可以得出如下结论:

对于约束曲面上的任意点 $x$ ,该点的梯度 $\nabla g(\boldsymbol{x})$ 正交于约束曲面;
在最优点 $\boldsymbol x^*$ ，目标函数在该点的梯度 $\nabla f(\boldsymbol{x^*})$ 正交于约束曲面.

由此可知，在最优点 $\boldsymbol x^*$ ，如图1所示梯度 $\nabla g(\boldsymbol{x})$ 与梯度 $\nabla f(\boldsymbol{x})$ 的方向必相同或相反，即存在 $\lambda \neq 0$ 使得 $\nabla f\left(\boldsymbol{x}^{*}\right)+\lambda \nabla g\left(\boldsymbol{x}^{*}\right)=0 \quad(1)$ $\lambda$ 称为拉格朗日乘子定义拉格朗日函数 $L(\boldsymbol{x}, \lambda)=f(\boldsymbol{x})+\lambda g(\boldsymbol{x})\quad(2)$ 不难发现，将其对 $x$ 的偏导数 $\nabla_{\boldsymbol{x}} L(\boldsymbol{x}, \lambda)$ 置零得式 $(1)$ ，同时，将其对 $\lambda$ 的偏导数 $\nabla_{\boldsymbol{\lambda}} L(\boldsymbol{x}, \lambda)$ 置零的得约束条件 $\boldsymbol x)=0$ ，于是原约束优化问题可转化为对拉格朗日函数 $L(\boldsymbol{x}, \lambda)$ 的无约束优化问题

图1 拉格朗日乘子法的几何含义：在 $(a)$ 等式约束 $g(\boldsymbol x)=0$ 或不等式约束 $g(\boldsymbol{x}) \leqslant 0$ 下，最小化目标函数 $f (x)$ ，红色曲线表示 $g(\boldsymbol x)=0$ 构成的曲面，其围成的阴影区域表示 $g(\boldsymbol{x}) < 0$

现考虑不等式约束 $g(\boldsymbol{x}) \leqslant 0$ ，如图1所示，此时最优点 $\boldsymbol x^*$ 或在 $g(\boldsymbol{x}) < 0$ 的区域中，或在边界上 $g(\boldsymbol x)=0$ .

对于 $g(\boldsymbol{x}) < 0$ 的情形，约束 $g(\boldsymbol{x}) \leqslant 0$ 不起作用，可直接通过 $\nabla f(\boldsymbol{x})=0$
来获取最优点；这等价于将 $\lambda$ 置零然后对 $\nabla_{\boldsymbol{x}} L(\boldsymbol{x}, \lambda)$ 置零得到最优点.
$g(\boldsymbol x)=0$ 的情形类似于上面等式约束的分析，需注意的是，此时 $\nabla f(\boldsymbol{x^*})=0$ 的方向必与 $\nabla g(\boldsymbol{x^*})=0$ 相反，即存在常数 $\lambda >0$ 使得 $\nabla f\left(\boldsymbol{x}^{*}\right)+\lambda \nabla g\left(\boldsymbol{x}^{*}\right)=0$ .
整合这两种情形，必满足 $\lambda g(\boldsymbol x)=0$ 因此在约束 $g(\boldsymbol{x}) < 0$ 下最小化 $f(\boldsymbol x)$ ，可转化为在约束下最小化式 $(2)$ 的拉格朗日函数：
$\left\{\begin{array}{l}{g(\boldsymbol{x}) \leqslant 0} \\ {\lambda \geqslant 0} \qquad\qquad(3)\\ {\lambda g(\boldsymbol{x})=0}\end{array}\right.$ 式 $(3)$ 称为 $k a r u s h - K u h n - T u c k e r$ (KKT)条件.
上述做法可推广到多个约束
$\min _{\boldsymbol{x}} f(\boldsymbol{x})$ $\text { s.t. } \quad g_{j}(\boldsymbol{x}) \leqslant 0 \quad(j=1, \ldots, n) \qquad(4)$ $h_{i}(\boldsymbol{x})=0 \quad(i=1, \ldots, m)$

最低0.47元/天解锁文章

「已注销」

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
拉格朗日乘子法与拉格朗日对偶性

拉格朗日对偶性参考：《统计学习方法》李航约束优化问题中，常常利用拉格朗日对偶性将原始问题转换为对偶问题，通过解对对偶问题而得到原始问题。该方法应用在许多统计学习方法中，例如最大熵模型和支持向量机。1、原始问题假设f(x),ci(x),hj(x)f(x), c_{i}(x),h_{j}(x)f(x),ci(x),hj(x)是定义在R...
复制链接

扫一扫