【机器学习杂记】拉格朗日对偶性(Lagrange duality)

1.原始问题

假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_i(x),h_j(x) f(x),ci(x),hj(x)是定义在 R n R^n Rn上的连续可微函数。考虑约束最优化问题:
min ⁡ x ∈ R n f ( x ) s . t . c j ( x ) ≤ 0 ,   i = 1 , 2 , … k h j ( x ) = 0 ,   j = 1 , 2 , … l \min_{x\in R^n}f(x) \\ s.t. \quad c_j (x)\le0,\,i=1,2,\dots k \\ h_j(x)=0,\, j=1,2,\dots l xRnminf(x)s.t.cj(x)0,i=1,2,khj(x)=0,j=1,2,l
这个约束最优化问题称作原始问题。
解这个原始问题需引进广义拉格朗日函数:
L ( x , α , β ) = f ( x ) + ∑ i = 1 n α i c i ( x ) + ∑ j = 1 n β j h j ( x ) L(x,\alpha ,\beta )=f(x)+\sum_{i=1}^n \alpha_ic_i (x)+\sum_{j=1}^n\beta _j h_j (x) L(x,α,β)=f(x)+i=1nαici(x)+j=1nβjhj(x)
其中 α i , β j \alpha_i,\beta _j αi,βj为拉格朗日乘子。
考虑 x x x的函数:
θ p ( x ) = max ⁡ α , β : α i ≥ 0 L ( x , α , β ) \theta_p(x)=\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta) θp(x)=α,β:αi0maxL(x,α,β)
下面考虑两种情况:

  1. x x x不违反约束条件
    这时很显然, L L L的第三项为0,若使 L L L最大,由于 α i ≥ 0 , c j ( x ) ≤ 0 \alpha_i \ge0,c_j (x)\le0 αi0,cj(x)0,则第二项也必为0,因此有
    θ p ( x ) = f ( x ) , 当 x 满 足 约 束 条 件 \theta_p(x)=f(x),\quad当x满足约束条件 θp(x)=f(x),x

  2. x违反约束条件
    这时我们可以直接人为定义:
    若某个i使 c i ( x ) > 0 c_i(x)>0 ci(x)>0,令 α i → + ∞ \alpha_i \to+\infty αi+,同理,若某个j使 h j ( x ) ≠ 0 h_j(x)\neq0 hj(x)=0,令 β i → + ∞ \beta_i \to+\infty βi+,这样就有
    θ p ( x ) = + ∞ \theta_p(x)=+\infty θp(x)=+
    且不影响解的结果。

因此如下极小化问题
min ⁡ x θ p ( x ) = min ⁡ x max ⁡ α , β : α i ≥ 0 L ( x , α , β ) \min_{x}\theta_p(x)=\min_x\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta) xminθp(x)=xminα,β:αi0maxL(x,α,β)
是和原问题等价的。
问题 min ⁡ x max ⁡ α , β : α i ≥ 0 L ( x , α , β ) \min_x\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta) minxmaxα,β:αi0L(x,α,β)称作广义拉格朗日的极小极大问题。
定义原始问题的最优值
p ∗ = min ⁡ x θ p ( x ) p^*=\min_{x}\theta_p(x) p=xminθp(x)
为原始问题的值。

对偶问题

定义
θ D ( α , β ) = min ⁡ x L ( x , α , β ) \theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta ) θD(α,β)=xminL(x,α,β)
再将上式极大化
max ⁡ α , β : α i ≥ 0 θ D ( α , β ) = max ⁡ α , β : α i ≥ 0 min ⁡ x L ( x , α , β ) \max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)= \max_{\alpha,\beta:\alpha_i\ge0}\min_xL(x,\alpha,\beta ) α,β:αi0maxθD(α,β)=α,β:αi0maxxminL(x,α,β)
上式成为广义拉格朗日函数的极大极小问题。原始问题中,是极小极大问题。原始问题的下标p表示prime,对偶问题的下标D表示dual(duality).
可以将广义拉格朗日函数的极大极小问题表示为如下约束最优化问题:
max ⁡ α , β min ⁡ x L ( x , α , β ) s . t . α i ≥ 0 \max_{\alpha,\beta}\min_xL(x,\alpha,\beta )\\ s.t. \quad \alpha_i\ge0 α,βmaxxminL(x,α,β)s.t.αi0
同样,定义对偶问题的最优值
d ∗ = max ⁡ α , β : α i ≥ 0 θ D ( α , β ) d^*=\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta) d=α,β:αi0maxθD(α,β)

原始问题和对偶问题的关系

定理1
若原始问题和对偶问题都有最优值,则
d ∗ = max ⁡ α , β : α i ≥ 0 θ D ( α , β ) ≤ p ∗ = min ⁡ x θ p ( x ) d^*=\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)\le p^*=\min_{x}\theta_p(x) d=α,β:αi0maxθD(α,β)p=xminθp(x)
证明略。
定理2
假设函数 f ( x ) f(x) f(x) c i ( x ) c_i(x) ci(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数(最高次数为1的多项式函数),且不等式约束 c i ( x ) c_i(x) ci(x)是严格可行的,即存在 x x x,对所有i有 c i ( x ) < 0 c_i(x)<0 ci(x)<0,则存在 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β,使 x ∗ , x^*, x,是原始问题的解, α ∗ , β ∗ \alpha^*,\beta^* α,β是对偶问题的解,并且
p ∗ = d ∗ = L ( x ∗ , α ∗ , β ∗ ) p^*=d^*=L(x^*,\alpha^*,\beta^*) p=d=L(x,α,β)
定理3
假设函数 f ( x ) f(x) f(x) c i ( x ) c_i(x) ci(x)是凸函数, h j ( x ) h_j(x) hj(x)是仿射函数(最高次数为1的多项式函数),且不等式约束 c i ( x ) c_i(x) ci(x)是严格可行的,则 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β分别是原始问题和对偶问题的解的充要条件是 x ∗ , α ∗ , β ∗ x^*,\alpha^*,\beta^* x,α,β满足下面的KKT条件:
∇ x L ( x ∗ , α ∗ , β ∗ ) = 0 ∇ α L ( x ∗ , α ∗ , β ∗ ) = 0 ∇ β L ( x ∗ , α ∗ , β ∗ ) = 0 s . t . α i ∗ c i ( x ∗ ) = 0 c i ( x ∗ ) ≤ 0 α i ∗ ≥ 0 h j ( x ∗ ) = 0 i = 1 , 2 , … , k j = 1 , 2 , … l \nabla _x L(x^*,\alpha^*,\beta^*)=0\\ \nabla_\alpha L(x^*,\alpha^*,\beta^*)=0\\ \nabla_\beta L(x^*,\alpha^*,\beta^*)=0\\ s.t.\quad \alpha _i^*c_i(x^*)=0 \\ c_i(x^*)\le0\\ \alpha _i^*\ge0 \\ h_j(x^*)=0\\ i=1,2, \dots ,k \quad j=1,2,\dots l xL(x,α,β)=0αL(x,α,β)=0βL(x,α,β)=0s.t.αici(x)=0ci(x)0αi0hj(x)=0i=1,2,,kj=1,2,l

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值