第二章 对偶与最优性条件
标准形式优化问题
min x f 0 ( x ) s . t . f i ( x ) ≤ 0 , i = 1 , 2 , ⋯ , m h i ( x ) = 0 , i = 1 , 2 , ⋯ , p x ∈ D \begin{aligned} \underset{x}{\min}\ &f_0(x)\\ s.t.\ &f_i(x)\leq0,i=1,2,\cdots,m\\ &h_i(x)=0,i=1,2,\cdots,p\\ &x\in D \end{aligned} xmin s.t. f0(x)fi(x)≤0,i=1,2,⋯,mhi(x)=0,i=1,2,⋯,px∈D
- 目标函数 f 0 : R n → R f_0:\R^n\rightarrow\R f0:Rn→R
- 不等式约束函数 f i : R n → R , i = 1 , 2 , ⋯ , m f_i:\R^n\rightarrow\R,i=1,2,\cdots,m fi:Rn→R,i=1,2,⋯,m
- 等式约束函数 h i : R n → R , i = 1 , 2 , ⋯ , p h_i:\R^n\rightarrow\R,i=1,2,\cdots,p hi:Rn→R,i=1,2,⋯,p
- D = ( ⋂ i = 0 m d o m f i ) ∩ ( ⋂ i = 1 p d o m h i ) D=(\bigcap^m_{i=0}domf_i)\cap(\bigcap_{i=1}^pdomh_i) D=(⋂i=0mdomfi)∩(⋂i=1pdomhi)非空
- 最优值 p ∗ p^* p∗
拉格朗日对偶
-
对不等式约束 f i ( x ) ≤ 0 f_i(x)\leq0 fi(x)≤0引入拉格朗日乘子 λ i \lambda_i λi,对等式约束引入拉格朗日乘子 υ i \upsilon_i υi。记 λ = [ λ 1 , λ 2 , ⋯ , λ , ] T ∈ R m , υ = [ υ 1 , υ 2 , ⋯ , υ p ] T ∈ R p {\lambda}=[\lambda_1,\lambda_2,\cdots,\lambda_,]^T\in\R^m,{\upsilon}=[\upsilon_1,\upsilon_2,\cdots,\upsilon_p]^T\in\R^p λ=[λ1,λ2,⋯,λ,]T∈Rm,υ=[υ1,υ2,⋯,υp]T∈Rp
-
拉格朗日函数: L : R n × R m × R p → R L:\R^n\times\R^m\times\R^p\rightarrow\R L:Rn×Rm×Rp→R,
L ( x , λ , υ ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p υ i h i ( x ) , d o m L = D × R m × R p L(x,\pmb{\lambda},\pmb{\upsilon})=f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\upsilon_ih_i(x),\ domL=D\times\R^m\times\R^p L(x,λλλ,υυυ)=f0(x)+i=1∑mλifi(x)+i=1∑pυihi(x), domL=D×Rm×Rp
-
拉格朗日对偶函数: g : R m × R p → R g:\R^m\times\R^p\rightarrow\R g:Rm×Rp→R,
g ( λ , υ ) = inf x ∈ D L ( x , λ , υ ) = inf x ∈ D [ f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p υ i h i ( x ) ] g(\pmb{\lambda},\pmb{\upsilon})=\underset{x\in D}{\inf}L(x,\pmb{\lambda},\pmb{\upsilon})=\underset{x\in D}{\inf}[f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\upsilon_ih_i(x)] g(λλλ,υυυ)=x∈DinfL(x,λλλ,υυυ)=x∈Dinf[f0(x)+i=1∑mλifi(x)+i=1∑pυihi(x)]
![image-20210604203207293](https://gitee.com/MiaoHN/PictureMap/raw/master/img/20210604203214.png)
定理 1:拉格朗日对偶函数 g ( λ , υ ) = inf x ∈ D L ( x , λ , υ ) g({\lambda},{\upsilon})=\underset{x\in D}{\inf}L(x,{\lambda},{\upsilon}) g(λ,υ)=x∈DinfL(x,λ,υ)是凹函数
定理 2:对任意的 λ ≥ 0 {\lambda}\geq0 λ≥0和 υ {\upsilon} υ,对偶函数 g ( λ , υ ) g({\lambda},{\upsilon}) g(λ,υ)是优化问题最优值 p ∗ p^* p∗的下界,即 ∀ λ ≥ 0 , g ( λ , υ ) ≤ p ∗ \forall{\lambda}\geq0,g({\lambda},{\upsilon})\leq p^* ∀λ≥0,g(λ,υ)≤p∗。
推论: p ∗ ≥ max λ ≥ 0 g ( λ , υ ) p^*\geq\underset{{\lambda}\geq0}{\max}g({\lambda},{\upsilon}) p∗≥λ≥0maxg(λ,υ),即 p ∗ ≥ max λ ≥ 0 min x ∈ D L ( x , λ , υ ) p^*\geq\underset{{\lambda}\geq0}{\max}\underset{x\in D}{\min}L(x,{\lambda},{\upsilon}) p∗≥λ≥0maxx∈DminL(x,λ,υ)
拉格朗日对偶问题:
max λ , υ g ( λ , υ ) s . t . λ ≥ 0 \begin{aligned} \underset{\pmb{\lambda},\pmb{\upsilon}}{\max}\ & g(\pmb{\lambda},\pmb{\upsilon})\\ s.t.\ &\pmb{\lambda}\geq0 \end{aligned} λλλ,υυυmax s.t. g(λλλ,υυυ)λλλ≥0
- 对偶可行解 ( λ , υ ) ({\lambda},{\upsilon}) (λ,υ)需满足: λ ≥ 0 \lambda\geq0 λ≥0且 ( λ , υ ) ∈ d o m g ({\lambda},{\upsilon})\in dom\ g (λ,υ)∈dom g
- 拉格朗日对偶问题是凸优化问题
- ( λ ∗ , υ ∗ ) ({\lambda}^*,{\upsilon}^*) (λ∗,υ∗):对偶最优解或最优拉格朗日乘子
- 最优值 d ∗ d^* d∗
弱对偶与强对偶
- 对于任意的函数优化问题, inf x ∈ D sup λ ≥ 0 L ( x , λ , υ ) ≥ sup λ ≥ 0 inf x ∈ D L ( x , λ , υ ) \underset{x\in D}{\inf}\underset{\lambda\geq0}{\sup}L(x,\lambda,\upsilon)\geq\underset{\lambda\geq0}{\sup}\underset{x\in D}{\inf}L(x,\lambda,\upsilon) x∈Dinfλ≥0supL(x,λ,υ)≥λ≥0supx∈DinfL(x,λ,υ)成立
- 弱对偶(Weak Duality):
d
∗
≤
p
∗
d^*\leq p^*
d∗≤p∗,即
max
λ
≥
0
min
x
∈
D
L
(
x
,
λ
,
υ
)
≤
min
x
∈
D
max
λ
≥
0
L
(
x
,
λ
,
υ
)
\underset{\lambda\geq0}{\max}\underset{x\in D}{\min}L(x,\lambda,\upsilon)\leq\underset{x\in D}{\min}\underset{\lambda\geq0}{\max}L(x,\lambda,\upsilon)
λ≥0maxx∈DminL(x,λ,υ)≤x∈Dminλ≥0maxL(x,λ,υ)
- 总是成立
- 最优对偶间隙: p ∗ − d ∗ ≥ 0 p^*-d^*\geq0 p∗−d∗≥0
- 强对偶(Strong Duality):
d
∗
=
p
∗
d^*=p^*
d∗=p∗,即
max
λ
≥
0
min
x
∈
D
L
(
x
,
λ
,
υ
)
=
min
x
∈
D
max
λ
≥
0
L
(
x
,
λ
,
υ
)
\underset{\lambda\geq0}{\max}\underset{x\in D}{\min}L(x,\lambda,\upsilon)=\underset{x\in D}{\min}\underset{\lambda\geq0}{\max}L(x,\lambda,\upsilon)
λ≥0maxx∈DminL(x,λ,υ)=x∈Dminλ≥0maxL(x,λ,υ)
- 一般情况下不成立
- 对凸优化问题成立(通常)
强对偶性和 Slater’s 约束品性
- Slater 约束品性:存在集合 D D D的一个内点 x 0 x_0 x0,使得 f i ( x 0 ) < 0 ( i = 1 , 2 , ⋯ , m ) , A x 0 = b f_i(x_0)<0(i=1,2,\cdots,m),Ax_0=b fi(x0)<0(i=1,2,⋯,m),Ax0=b
- 凸优化问题,若 Slater 约束品性满足,则强对偶性成立
几何解释
![image-20210604223950182](https://gitee.com/MiaoHN/PictureMap/raw/master/img/20210604223957.png)
![image-20210604224026220](https://gitee.com/MiaoHN/PictureMap/raw/master/img/20210604224026.png)
最优性条件
-
原问题
min x f 0 ( x ) s . t . f i ( x ) ≤ 0 , i = 1 , 2 , ⋯ , m h i ( x ) = 0 , i = 1 , 2 , ⋯ , p x ∈ D \begin{aligned} \underset{x}{\min}\ &f_0(x)\\ s.t.\ &f_i(x)\leq0,i=1,2,\cdots,m\\ &h_i(x)=0,i=1,2,\cdots,p\\ &x\in D \end{aligned} xmin s.t. f0(x)fi(x)≤0,i=1,2,⋯,mhi(x)=0,i=1,2,⋯,px∈D
-
对偶问题
max λ , υ g ( λ , υ ) s . t . λ ≥ 0 \begin{aligned} \underset{\pmb\lambda,\pmb\upsilon}{\max} \ &g(\pmb\lambda,\pmb\upsilon)\\ s.t.\ &\pmb\lambda\geq0 \end{aligned} λλλ,υυυmax s.t. g(λλλ,υυυ)λλλ≥0
-
原问题可行解 x x x与对偶可行解 ( λ , υ ) (\lambda,\upsilon) (λ,υ)的对偶间隙 ϵ = f 0 ( x ) − g ( λ , υ ) \epsilon=f_0(x)-g(\lambda,\upsilon) ϵ=f0(x)−g(λ,υ),此时称 x x x是 ϵ \epsilon ϵ-次优的,即
f 0 ( x ) − p ∗ ≤ f 0 ( x ) − g ( λ , υ ) ⇒ f 0 ( x ) − p ∗ ≤ ϵ f_0(x)-p^*\leq f_0(x)-g(\pmb\lambda,\pmb\upsilon)\Rightarrow f_0(x)-p^*\leq\epsilon f0(x)−p∗≤f0(x)−g(λλλ,υυυ)⇒f0(x)−p∗≤ϵ
-
一对原问题可行解 𝑥 与对偶可行解 ( λ , υ ) (\lambda,\upsilon) (λ,υ)将原问题(对偶问题)的最优解限制在一个区间上,即
p ∗ ∈ [ g ( λ , υ ) , f 0 ( x ) ] , d ∗ ∈ [ g ( λ , υ ) , f 0 ( x ) ] p^*\in[g(\pmb\lambda,\pmb\upsilon),f_0(x)],\ d^*\in[g(\pmb\lambda,\pmb\upsilon),f_0(x)] p∗∈[g(λλλ,υυυ),f0(x)], d∗∈[g(λλλ,υυυ),f0(x)]
-
非启发式停止准则:令可行解 x k x^k xk及对偶可行解 ( λ k , υ k ) , k = 1 , 2 , ⋯ (\lambda^k,\upsilon^k),k=1,2,\cdots (λk,υk),k=1,2,⋯,绝对精度 ϵ a b s > 0 \epsilon_{abs}>0 ϵabs>0,停止准则
f 0 ( x ) − g ( λ k , υ k ) ≤ ϵ a b s f_0(x)-g(\pmb\lambda^k,\pmb\upsilon^k)\leq\epsilon_{abs} f0(x)−g(λλλk,υυυk)≤ϵabs
Karush-Kuhn-Tucker(KKT)方程
假设原问题与对偶问题最优解可取得,分别为 x ∗ x^* x∗和 ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ∗,υ∗),且强对偶性成立,则
f 0 ( x ∗ ) = g ( λ ∗ , υ ∗ ) = min x ∈ D f 0 ( x ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p υ i ∗ h i ( x ) = f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p υ i ∗ h i ( x ) = f 0 ( x ∗ ) \begin{aligned} f_0(x^*) &=g(\pmb\lambda^*,\pmb\upsilon^*)\\ &=\underset{x\in D}{\min} f_0(x) + \sum_{i=1}^{m} \lambda_i^*f_i(x)+\sum_{i=1}^{p}\upsilon_i^*h_i(x)\\ &=f_0(x^*)+\sum_{i=1}^{m}\lambda_i^*f_i(x)+\sum_{i=1}^{p}\upsilon_i^*h_i(x)\\ &=f_0(x^*) \end{aligned} f0(x∗)=g(λλλ∗,υυυ∗)=x∈Dminf0(x)+i=1∑mλi∗fi(x)+i=1∑pυi∗hi(x)=f0(x∗)+i=1∑mλi∗fi(x)+i=1∑pυi∗hi(x)=f0(x∗)
根据如上推导过程,可以得到如下KKT 方程:
f i ( x ∗ ) ≤ 0 , i = 1 , 2 , ⋯ , m λ i ∗ f i ( x ∗ ) = 0 , i = 1 , 2 , ⋯ , m λ i ∗ ≥ 0 , i = 1 , 2 , ⋯ , m h i ( x ∗ ) = 0 , i = 1 , 2 , ⋯ , p ∇ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ ∇ f i ( x ∗ ) + ∑ i = 1 k υ i ∗ ∇ h i ( x ∗ ) = 0 \begin{aligned} f_i(x^*)\leq0,\ &i=1,2,\cdots,m\\ \lambda_i^*f_i(x^*)=0,\ &i=1,2,\cdots,m\\ \lambda_i^*\geq0,\ &i=1,2,\cdots,m\\ h_i(x^*)=0,\ &i=1,2,\cdots,p\\ \nabla f_0(x^*)+\sum_{i=1}^m\lambda_i^*\nabla f_i(x^*)+&\sum_{i=1}^k\upsilon_i^*\nabla h_i(x^*)=0 \end{aligned} fi(x∗)≤0, λi∗fi(x∗)=0, λi∗≥0, hi(x∗)=0, ∇f0(x∗)+i=1∑mλi∗∇fi(x∗)+i=1,2,⋯,mi=1,2,⋯,mi=1,2,⋯,mi=1,2,⋯,pi=1∑kυi∗∇hi(x∗)=0
- 对于目标函数和约束函数可微的任意优化问题,若强对偶性成立(对偶间隙为 0),则任意一 对原问题最优解和对偶问题最优解必须满足 KKT 条件。
- 目标函数和约束函数可微的任意凸函数问题,任意满足 KKT 条件的点分别是原、对偶最优解且对偶间隙为零
- 若对偶间隙为 0,则解凸优化问题等价于解相应的 KKT 方程
- 定理:若 x ~ , λ ~ , υ ~ \widetilde x,\widetilde{\lambda},\widetilde{\upsilon} x ,λ ,υ 满足凸优化问题的 KKT 条件,则 x ~ , ( λ ~ , υ ~ ) \widetilde x,(\widetilde{\lambda},\widetilde{\upsilon}) x ,(λ ,υ )分别是原问题和对偶问题的最优解且对偶间隙为 0
通过解对偶问题求解原问题
假设:强对偶性成立且 x ∗ x^* x∗是原问题的最优解, ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ∗,υ∗)为对偶问题的最优解,则
- 对于凸优化问题,若
L
(
x
,
λ
∗
,
υ
∗
)
L(x,\lambda^*,\upsilon^*)
L(x,λ∗,υ∗)是
x
x
x的严格凸函数,拉格朗日函数
L
(
x
,
λ
∗
,
υ
∗
)
L(x,\lambda^*,\upsilon^*)
L(x,λ∗,υ∗)关于
x
x
x求极小值时在
x
∗
x^*
x∗处取得最小值,下列优化问题的解唯一
min x ∈ D f 0 ( x ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p υ i ∗ h i ( x ) \underset{x\in D}{\min} f_0(x)+\sum_{i=1}^m\lambda_i^*f_i(x)+\sum_{i=1}^p\upsilon_i^*h_i(x) x∈Dminf0(x)+i=1∑mλi∗fi(x)+i=1∑pυi∗hi(x)
强弱对偶性的极大极小描述
-
极大极小不等式:对于任意函数 f : R n × R m → R f:\R^n\times\R^m\rightarrow\R f:Rn×Rm→R以及任意的 W ⊆ R n W\sube\R^n W⊆Rn和 Z ⊆ R m Z\sube\R^m Z⊆Rm,有
sup z ∈ Z inf w ∈ W f ( w , z ) ≤ inf w ∈ W sup z ∈ Z f ( w , z ) \underset{z\in Z}{\sup}\underset{w\in W}{\inf} f(w,z)\leq\underset{w\in W}{\inf}\underset{z\in Z}{\sup} f(w,z) z∈Zsupw∈Winff(w,z)≤w∈Winfz∈Zsupf(w,z)
-
若上式等号成立,则称 f f f(以及 W W W和 Z Z Z)满足强极大极小性质或者鞍点性质
-
鞍点:若 ∀ w ∈ W , z ∈ Z , f ( w ~ , z ) ≤ f ( w ~ , z ~ ) ≤ f ( w , z ~ ) \forall w\in W,z\in Z,f(\widetilde w,z)\leq f(\widetilde w,\widetilde z)\leq f(w,\widetilde z) ∀w∈W,z∈Z,f(w ,z)≤f(w ,z )≤f(w,z ),则称 w ~ ∈ W , z ~ ∈ Z \widetilde w\in W,\widetilde z\in Z w ∈W,z ∈Z是函数 f f f的鞍点
-
如果 x ∗ x^* x∗和 ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ∗,υ∗)分别是原问题和对偶问题的最优解且强对偶性成立,则它们是拉格朗日函数的一个鞍点
-
反过来,如果 x ∗ x^* x∗和 ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ∗,υ∗)是拉格朗日函数 L ( x , λ , υ ) L(x,\lambda,\upsilon) L(x,λ,υ)的一个鞍点,那么 x ∗ x^* x∗是原问题的最优解, ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ∗,υ∗)是对偶问题的最优解,且对偶间隙为零。