拉格朗日对偶性

最新推荐文章于 2020-04-01 22:42:06 发布

「已注销」

最新推荐文章于 2020-04-01 22:42:06 发布

阅读量964

点赞数

分类专栏：机器学习-数学文章标签：优化

本文链接：https://blog.csdn.net/y954877035/article/details/52160860

版权

机器学习-数学专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在支持向量机中，需要用拉格朗日对偶性将原始问题转换成对偶问题，解得对偶问题的解从而得到原始问题的解。在此简单介绍拉格朗日对偶性的基本原理和方法。

原始问题

假设 $f(x)$ ， $c_{i}(x)$ ， $h_{j}(x)$ 是定义在 $\textbf{R}^n$ 上的连续可微函数。考虑约束最优化问题

min x \in R n f (x) s . t . c i (x) h j (x) \leq 0, i = 1, 2, \dots, k = 0, j = 1, 2, \dots, l (C.1) (C.2) (C.3)

$\begin{align} \min_{x\in{R^n}} f(x) \qquad \tag{C.1} \\ s.t.\qquad c_{i}(x)&\leq{0},\qquad i=1,2,\cdots,k \tag{C.2}\\ h_{j}(x)&=0, \qquad j = 1,2,\cdots ,l \tag{C.3} \end{align}$
称此约束最优化问题为原始最优化问题或原始问题。
首先引进拉格朗日函数

L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l h j (x) (C.4)

$L(x,\alpha,\beta)=f(x)+\sum\limits_{i=1}^{k}\alpha_{i}c_{i}(x)+\sum\limits_{j=1}^{l}h_{j}(x)\tag{C.4}$ 其中

x=(x(1),x(2),⋯,x(n))T∈Rn $x=(x^{(1)},x^{(2)},\cdots,x^{(n)})^{T}\in\textbf{R}^{n}$ ，

αi $\alpha_{i}$ ，

βj $\beta_{j}$ 是拉格朗日乘子，

αi≥0 $\alpha_i\geq0$ 。考虑

x $x$ 的函数

θ p (x) = max α, β; α i \geq 0 L (x, α, β) (C.5)

$\theta_{p}(x)=\max_{\alpha,\beta;\alpha_{i}\geq0}L(x,\alpha,\beta)\tag{C.5}$ ，下标p表示原始问题。假设有某个

x $x$ ，不符合原始问题的约束条件，也就是存在某个

i $i$ 或者

j $j$ 使得

ci(w)<0 $c_{i}(w)<0$ 或者

hj(x)≠0 $h_{j}(x)\neq0$ ，那么就可以使某个

αi→+∞ $\alpha_{i}\to+\infty$ 或

βj $\beta_{j}$ 使得

βhj(x)→∞ $\beta h_{j}(x)\to\infty$ ，因此

θp(x)→+∞ $\theta_{p}(x)\to+\infty$ ，如果

x $x$ 满足约束条件，显而易见的是

θp(x)=f(x) $\theta_{p}(x)=f(x)$ 。从而有下式：

θ p (x) = max α, β; α i \geq 0 L (x, α, β) = {f (x) + \infty, x 满 足 约 束 条 件, 其 他 (C.6)

$\theta_{p}(x)=\max_{\alpha,\beta;\alpha_{i}\geq0}L(x,\alpha,\beta)=\begin{cases} f(x)&, x满足约束条件\\ +\infty&,其他 \end{cases}\tag{C.6}$
所以考虑

min x θ p (x) = min x max α, β; α i \geq 0 L (x, α, β) (C.7)

$\min_{x}\theta_{p}(x)=\min_{x}\max_{\alpha,\beta;\alpha_{i}\ge0}L(x,\alpha,\beta)\tag{C.7}$ 与原始问题等价。问题

minxmaxα,β;αi≥0L(x,α,β) $\min_{x}\max_{\alpha,\beta;\alpha_{i}\ge0}L(x,\alpha,\beta)$ 成为广义拉格朗日函数的极小极大问题。因此原始问题转换成了广义拉格朗日的极小极大问题。设原始问题的最优值为

p * = min x θ p (x) (C.8)

$p^{*}=\min_{x}\theta_{p}(x)\tag{C.8}$ 称为原始问题的最优值。

对偶问题

定义

θ D (x) = min x L (x, α, β) (C.9)

$\theta_{D}(x)=\min_{x}L(x,\alpha,\beta)\tag{C.9}$ 在考虑极大化

θD(x) $\theta_{D}(x)$ 即:

max α, β; α i \geq 0 θ D (x) = max α, β; α i \geq 0 min x L (x, α, β) (c.10)

$\max_{\alpha,\beta;\alpha_{i}\geq0}\theta_{D}(x)=\max_{\alpha,\beta;\alpha_{i}\geq0}\min_{x}L(x,\alpha,\beta)\tag{c.10}$ 上式称为拉格朗日函数的极大极小问题。将此问题表示为约束最优化问题

max α, β θ D (x) = max α, β min x L (x, α, β) s . t . α i \geq 0, i = 1, 2, \dots, k (C.11)

$\begin{align} &\max_{\alpha,\beta}\theta_{D}(x)=\max_{\alpha,\beta}\min_{x}L(x,\alpha,\beta)\\ &\qquad s.t.\qquad \alpha_{i}\geq0, i= 1,2,\cdots,k \end{align}\tag{C.11}$ 称为原始问题的对偶问题。定义对偶问题的最优值

d * = max α, β θ D (α, β) (C.12)

$d^{*}=\max_{\alpha,\beta}\theta_{D}(\alpha,\beta)\tag{C.12}$ 称为对偶问题的最优值。

原始问题与对偶问题的关系

定理C.1 若原始问题和对偶问题都有最优值，则

d * = max α, β θ D (α, β) \leq min x θ p (x) = p *

$d^{*}=\max_{\alpha,\beta}\theta_{D}(\alpha,\beta)\le\min_{x}\theta_{p}(x)=p^{*}$
推论C.2 设

x∗ $x^{*}$ 和

α∗,β∗ $\alpha^{*},\beta^{*}$ 分别是原始问题和对偶问题的可行解，并且

d∗=p∗ $d^{*}=p^{*}$ ，则

x∗ $x^{*}$ 和

α∗,β∗ $\alpha^{*},\beta^{*}$ 分别是原始问题和对偶问题的额最优解。

在某些条件下，原始问题和对偶问题的最优值相等，即 $d^{*}=p^{*}$ 。这时可以用解对偶问题替代解原始问题。下面一定理的形式叙述有关的重要结论而不予证明。

定理C.2 对于原始问题和对偶问题，假设函数 $f(x)$ 和 $c_{i}(x)$ 都是凸函数， $h_{j}(x)$ 是仿射函数；并且不等式约束 $c_{i}(x)$ 是严格可行的，即存在 $x$ 使得对所有的 $i$ 有 $c_{i}(x)\le0$ ，则存在 $x^{*},\alpha^{*},\beta^{*}$ ，使 $x^{*}$ 是原始问题的解， $\alpha^{*},\beta^{*}$ 是对偶问题的解。并且

p * = d * = L (x *, α *, β *)

$p^{*}=d^{*}=L(x^{*},\alpha^{*},\beta^{*})$

定理C.3对于原始问题和对偶问题，假设函数 $f(x)$ 和 $c_{i}(x)$ 都是凸函数， $h_{j}(x)$ 是仿射函数；并且不等式约束 $c_{i}(x)$ 是严格可行的，即存在 $x$ 使得对所有的 $i$ 有 $c_{i}(x)\le0$ ，则 $x^{*}$ 和 $\alpha^{*},\beta^{*}$ 分别是原始问题和对偶问题的解的充分必要条件是 $x^{*},\alpha^{*},\beta^{*}$ ，使 $x^{*}$ 满足下面的KKT条件

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \nabla x L (x *, α *, β *) \nabla α L (x *, α *, β *) \nabla β L (x *, α *, β *) α * c i (x) c i (x) α i h j (x) = 0 = 0 = 0 = 0 \leq 0 \geq 0 = 0

$\begin{cases} \nabla_{x} L(x^{*},\alpha^{*},\beta^{*})&=0\\ \nabla_{\alpha} L(x^{*},\alpha^{*},\beta^{*})&=0\\ \nabla_{\beta} L(x^{*},\alpha^{*},\beta^{*})&=0\\ \alpha^{*}c_{i}(x)&=0\\ c_{i}(x)&\le0\\ \alpha_{i}&\ge0\\ h_{j}(x)&=0 \end{cases}$ 特别补充的是

α∗ci(x)=0 $\alpha^{*}c_{i}(x)=0$ 称为KKT的对偶互补条件。由此条件可知，若

αi>0 $\alpha_{i}>0$ 则

ci(x)=0 $c_{i}(x)=0$ 。

引自：李航. 统计学习方法[M]. 清华大学出版社, 2012.

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
拉格朗日对偶性

在支持向量机中，需要用拉格朗日对偶性将原始问题转换成对偶问题，解得对偶问题的解从而得到原始问题的解。在此简单介绍拉格朗日对偶性的基本原理和方法。原始问题假设f(x)f(x)，ci(x)c_{i}(x)，hj(x)h_{j}(x) 是定义在Rn\textbf{R}^n上的连续可微函数。考虑约束最优化问题 minx∈Rnf(x)s.t.ci(x)hj(x)≤0,i=1,2,⋯,k=0,j=1
复制链接

扫一扫

专栏目录