A-08 拉格朗日对偶性

拉格朗日对偶性

在这里插入图片描述

  在约束最优化问题中,拉格朗日对偶性(Lagrange duality)可以将原始问题转换为对偶问题,然后通过求解对偶问题的解得到原始问题的解。

原始问题

约束最优化问题

  假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_i(x),h_j(x) f(x),ci(x),hj(x)是定义在 R n R^n Rn上的连续可微函数,则约束最优化问题的原始问题为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…
  如果不考虑约束条件,约束问题就是
m i n ⏟ x ∈ R n f ( x ) \underbrace{min}_{x\in{R^n}}f(x) xRn minf(x)
  因为已经假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_i(x),h_j(x) f(x),ci(x),hj(x)连续可微,直接对 f ( x ) f(x) f(x)求导取0,即可求出最优解,但是这里有约束条件,因此得想办法去掉约束条件,而拉格朗日函数正是干这个的。

广义拉格朗日函数

  为了解决上述原始问题,引入广义拉格朗日函数(generalized Lagrange function)
L ( x , α , β ) = f ( x ) + ∑ i = 1 k α i c i ( x ) + ∑ j = 1 l β j h j ( x ) L(x,\alpha,\beta)=f(x)+\sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_jh_j(x) L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x)
其中 x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) ) T ∈ R n x=(x^{(1)},x^{(2)},\cdots,x^{(n)})^T\in{R^n} x=(x(1),x(2),,x(n))TRn α i ≥ 0 , β j \alpha_i\geq0,\beta_j αi0,βj是拉格朗日乘子。

  如果把 L ( x , α , β ) L(x,\alpha,\beta) L(x,α,β)看作是关于 α i , β j \alpha_i,\beta_j αi,βj的函数,求其最大值,即
m a x ⏟ α , β L ( x , α , β ) \underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta) α,β maxL(x,α,β)
  由于 α i , β j \alpha_i,\beta_j αi,βj作为拉格朗日乘子已经可知,因此可以把 L ( x , α , β ) L(x,\alpha,\beta) L(x,α,β)看作是关于 x x x的函数
θ P ( x ) = m a x ⏟ α , β L ( x , α , β ) \theta_P(x)=\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta) θP(x)=α,β maxL(x,α,β)
其中下标 P P P表示原始问题。

约束条件的考虑

  假设给定某个 x x x

  1. 如果 x x x违反原始问题的约束条件,即存在某个 i i i使得 c i ( w ) > 0 c_i(w)>0 ci(w)>0或存在某个 j j j使得 h j ( w ) ≠ 0 h_j(w)\neq0 hj(w)=0,则有
    θ P ( x ) = m a x ⏟ α , β : α i ≤ 0 [ f ( x ) + ∑ i = 1 k α i c i ( x ) + ∑ i = 1 l β j h j ( x ) ] = + ∞ \theta_P{(x)}=\underbrace{max}_{\alpha,\beta:\alpha_i\leq0}[f(x)+\sum_{i=1}^k\alpha_ic_i(x)+\sum_{i=1}^l\beta_jh_j(x)] = +\infty θP(x)=α,β:αi0 max[f(x)+i=1kαici(x)+i=1lβjhj(x)]=+
    因为如果某个 i i i使得约束条件 c i ( x ) > 0 c_i(x)>0 ci(x)>0,则可以令 α i → + ∞ \alpha_i\rightarrow{+\infty} αi+;如果某个 j j j使得 h j ( x ) ≠ 0 h_j(x)\neq0 hj(x)=0,则可以使得 β j h j ( x ) → + ∞ \beta_jh_j(x)\rightarrow{+\infty} βjhj(x)+
  2. 如果 x x x满足原始问题的约束条件, h j ( x ) = 0 h_j(x)=0 hj(x)=0并且 α i c i ( x ) ≤ 0 \alpha_ic_i(x)\leq0 αici(x)0,因此 θ P ( x ) \theta_P{(x)} θP(x)的最大值即为 f ( x ) f(x) f(x),即 θ P ( x ) = f ( x ) \theta_P{(x)}=f(x) θP(x)=f(x)

  通过对约束条件的考虑即可得
θ P ( x ) = { f ( x ) , x 满足约束条件 + ∞ , 其他 \theta_P{(x)} = \begin{cases} f(x), & \text{$x$满足约束条件} \\ +\infty, & \text{其他} \end{cases} θP(x)={f(x),+,x满足约束条件其他
  所以如果考虑极小化问题
m i n ⏟ x θ P ( x ) x = m i n ⏟ x   m a x ⏟ α , β L ( x , α , β ) = m i n ⏟ x f ( x ) \underbrace{min}_x\theta_P{(x)}_{x} = \underbrace{min}_{x}\,\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta) = \underbrace{min}_{x}f(x) x minθP(x)x=x minα,β maxL(x,α,β)=x minf(x)
它与原始问题是等价的,其中 m i n ⏟ x   m a x ⏟ α , β L ( x , α , β ) \underbrace{min}_{x}\,\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta) x minα,β maxL(x,α,β)被称作广义拉格朗日函数的极小极大问题。

  通过广义拉格朗日函数的极小极大问题,可以定义原始问题的最优值
p ∗ = m i n ⏟ x θ P ( x ) p^*=\underbrace{min}_x\theta_P(x) p=x minθP(x)
  这一节主要通过使用拉格朗日函数把原始约束问题转化为无约束问题,即将约束问题无约束化。

对偶问题

在这里插入图片描述

  定义一个关于 α , β \alpha,\beta α,β的函数
θ D ( α , β ) = m i n ⏟ x L ( x , α , β ) \theta_D(\alpha,\beta)=\underbrace{min}_xL(x,\alpha,\beta) θD(α,β)=x minL(x,α,β)
其中等式右边是关于 x x x的函数的最小化,即确定了 x x x的值,最小值只与 α , β \alpha,\beta α,β有关。
  如果极大化 θ D ( α , β ) \theta_D(\alpha,\beta) θD(α,β),即
m a x ⏟ α , β θ D ( α , β ) = m a x ⏟ α , β m i n ⏟ x L ( x , α , β ) \underbrace{max}_{\alpha,\beta}\theta_D(\alpha,\beta)=\underbrace{max}_{\alpha,\beta}\underbrace{min}_{x}L(x,\alpha,\beta) α,β maxθD(α,β)=α,β maxx minL(x,α,β)
上述就是原始问题的对偶问题,其中 m a x ⏟ α , β m i n ⏟ x L ( x , α , β ) \underbrace{max}_{\alpha,\beta}\underbrace{min}_{x}L(x,\alpha,\beta) α,β maxx minL(x,α,β)也称为广义拉格朗日函数的极大极小问题。

  该对偶问题的原始问题为
m i n ⏟ x θ P ( x ) x = m i n ⏟ x   m a x ⏟ α , β L ( x , α , β ) \underbrace{min}_x\theta_P{(x)}_{x} = \underbrace{min}_{x}\,\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta) x minθP(x)x=x minα,β maxL(x,α,β)
  原始问题是先固定 L ( x , α , β ) L(x,\alpha,\beta) L(x,α,β)中的 x x x,优化出参数 α , β \alpha,\beta α,β,再优化 x x x;对偶问题是先固定 α , β \alpha,\beta α,β,优化出 x x x,然后再确定 α , β \alpha,\beta α,β
  对偶问题的最优值为
d ∗ = m a x ⏟ α , β θ D ( α , β ) d^*=\underbrace{max}_{\alpha,\beta}\theta_D(\alpha,\beta) d=α,β maxθD(α,β)

原始问题和对偶问题的关系

定理1

  如果原始问题和对偶问题都有最优解,则
d ∗ = m a x ⏟ α , β m i n ⏟ x L ( x , α , β ) ≤ m i n ⏟ x m a x ⏟ α , β L ( x , α , β ) = p ∗ d^* = \underbrace{max}_{\alpha,\beta}\underbrace{min}_xL(x,\alpha,\beta)\leq\underbrace{min}_x\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta)=p^* d=α,β maxx minL(x,α,β)x minα,β maxL(x,α,β)=p
因为对任意的 α , β , x \alpha,\beta,x α,β,x,都有
θ D ( α , β ) = m i n ⏟ x L ( x , α , β ) ≤ L ( x , α , β ) ≤ m a x ⏟ α , β L ( x , α , β ) = θ P ( x ) \theta_D(\alpha,\beta)=\underbrace{min}_xL(x,\alpha,\beta)\leq{L(x,\alpha,\beta)}\leq\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta)=\theta_P(x) θD(α,β)=x minL(x,α,β)L(x,α,β)α,β maxL(x,α,β)=θP(x)

t h e t a D ( α , β ) ≤ θ P ( x ) theta_D(\alpha,\beta)\leq\theta_P(x) thetaD(α,β)θP(x)
  由于原始问题和对偶问题都有最优值,所以
m a x ⏟ α , β θ D ( α , β ) ≤ m i n ⏟ x θ P ( x ) \underbrace{max}_{\alpha,\beta}\theta_D(\alpha,\beta)\leq\underbrace{min}_x\theta_P(x) α,β maxθD(α,β)x minθP(x)

d ∗ = m a x ⏟ α , β m i n ⏟ x L ( x , α , β ) ≤ m i n ⏟ x m a x ⏟ α , β L ( x , α , β ) = p ∗ d^*=\underbrace{max}_{\alpha,\beta}\underbrace{min}_xL(x,\alpha,\beta)\leq\underbrace{min}_x\underbrace{max}_{\alpha,\beta}L(x,\alpha,\beta)=p^* d=α,β maxx minL(x,α,β)x minα,β maxL(x,α,β)=p
  上述说明了原始问题的最优值不小于对偶问题的最优值,但是我们要通过对偶问题来求解原始问题,就必须得使原始问题的最优值与对偶问题的最优值相等。

推论1

  通过定理1可以推出:假设 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β分别是原始问题和对偶问题的可行解,如果 d ∗ = p ∗ d^*=p^* d=p,则 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β分别是原始问题和对偶问题的最优解。

  当原始问题和对偶问题的最优值相等 d ∗ = p ∗ d^*=p^* d=p,如果使用对偶问题比求解原始问题简单,则可以用对偶问题求解原始问题。

定理2

  对于原始问题和对偶问题,假设函数 f ( x ) f(x) f(x) c i ( x ) c_i(x) ci(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数(注:仿射函数是一阶多项式构成的函数, f ( x ) = A x + b f(x)=Ax+b f(x)=Ax+b A A A是矩阵, x , b x,b x,b是向量);并且假设不等式约束 c i ( x ) c_i(x) ci(x)是严格可行的,即存在 x x x,对所有的 i i i c i ( x ) < 0 c_i(x)<0 ci(x)<0,则存在 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β,使 x ∗ x^* x是原始问题的解, α ∗ , β ∗ \alpha^*,\beta^* α,β是对偶问题的解,并且会有
p ∗ = d ∗ = L ( x ∗ , α ∗ , β ∗ ) p^*=d^*=L(x^*,\alpha^*,\beta^*) p=d=L(x,α,β)

定理3(KTT条件)

  对于原始问题和对偶问题,假设函数 f ( x ) f(x) f(x) c i ( x ) c_i(x) ci(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数;并且假设不等式约束 c i ( x ) c_i(x) ci(x)是严格可行的,即存在 x x x,对所有的 i i i c i ( x ) < 0 c_i(x)<0 ci(x)<0,则 x ∗ x^* x是原始问题的解, α ∗ , β ∗ \alpha^*,\beta^* α,β是对偶问题的解的充分必要条件是 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β满足下面的Karush-Kuhn-Tucker(KKT)条件
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \nabla_xL(x^…
其中 α i ∗ c i ( x ∗ ) = 0 , i = 1 , 2 , ⋯   , k \alpha_i^*c_i(x^*)=0,\quad{i=1,2,\cdots,k} αici(x)=0,i=1,2,,k是KKT的对偶互补条件,由该条件可知:如果 α i ∗ > 0 \alpha_i^*>0 αi>0,则 c i ( x ∗ ) = 0 c_i(x^*)=0 ci(x)=0

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值