系列文章目录
凸优化理论学习一|最优化及凸集的基本概念
凸优化理论学习二|凸函数及其相关概念
凸优化理论学习三|凸优化问题(一)
凸优化理论学习四|凸优化问题(二)
文章目录
一、拉格朗日和对偶函数
(一)标准形式的优化问题
- 优化目标:minimize f 0 ( x ) f_0(x) f0(x)
- 约束条件:
- 非等式约束: f i ( x ) ≤ 0 , i = 1 , . . . , m f_i(x)\leq0,i=1,...,m fi(x)≤0,i=1,...,m
- 等式约束: h i ( x ) = 0 , i = 1 , . . . , p h_i(x)=0,i=1,...,p hi(x)=0,i=1,...,p
(二)拉格朗日函数和拉格朗日对偶函数
拉格朗日函数将目标函数
f
0
(
x
)
f_0(x)
f0(x)与约束函数
f
i
(
x
)
f_i(x)
fi(x)和
h
i
(
x
)
h_i(x)
hi(x)进行加权求和,以构建一个联合优化目标。通过对拉格朗日函数进行最小化,可以获得原始优化问题的解:
L
(
x
,
λ
,
v
)
=
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
L(x,\lambda,v)=f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^pv_ih_i(x)
L(x,λ,v)=f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)
拉格朗日对偶函数
g
:
R
m
×
R
p
→
R
g:R^m\times R^p\rightarrow R
g:Rm×Rp→R:
g
(
λ
,
v
)
=
i
n
f
x
∈
D
(
f
0
(
x
)
+
∑
i
=
1
m
λ
i
f
i
(
x
)
+
∑
i
=
1
p
v
i
h
i
(
x
)
)
g(\lambda,v)=inf_{x\in D}(f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^pv_ih_i(x))
g(λ,v)=infx∈D(f0(x)+i=1∑mλifi(x)+i=1∑pvihi(x))
- 拉格朗日对偶函数是凹函数,因此对于任意的 λ \lambda λ和 v v v,对偶函数的值都不会超过对应的最大值
- 对于某些 λ \lambda λ和 v v v,对偶函数的值可能是负无穷
- 拉格朗日对偶函数的下界特性:如果 λ ≥ 0 \lambda\geq 0 λ≥0,则对偶函数的值不会超过原始问题的最优解( g ( λ , v ) ≤ p ∗ g(\lambda,v)\leq p^* g(λ,v)≤p∗)
下界特性的证明:
(三)共轭函数
共轭函数衡量了函数
f
(
x
)
f(x)
f(x)在点
y
y
y处的切线与y轴的最大偏差。
f
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
(
y
T
x
−
f
(
x
)
)
f^*(y)=sup_{x\in domf}(y^Tx-f(x))
f∗(y)=supx∈domf(yTx−f(x))
如果已知共轭函数,对偶问题就能得到简化。
二、拉格朗日对偶问题
(一)对偶问题定义及性质
对偶问题(Dual Problem)在优化理论中是与原始问题相关联的一个问题。对偶问题的目标函数和约束条件是通过拉格朗日函数构造的,其形式可能有所不同,具体取决于原始问题的形式。一般而言,对偶问题可以表达为:
- 目标函数:最大化 g ( λ , v ) g(\lambda,v) g(λ,v)
- 约束条件: λ ≥ 0 \lambda \geq0 λ≥0
对偶问题的性质:
- 凸性:无论原始问题是否为凸,对偶问题始终为凸优化问题,因此对偶问题比原始问题更容易求解
- 弱对偶性:对于任何原始可行解
x
x
x和任何对偶可行解
(
λ
,
v
)
(\lambda,v)
(λ,v),对偶目标函数的值始终是原始目标函数值的下界:
f ( x ) ≤ g ( λ , v ) f(x)\leq g(\lambda,v) f(x)≤g(λ,v) - 强对偶性:在某些条件下(如凸问题满足Slater条件),原始问题和对偶问题的最优值相等
Slater约束条件是一种用于保证凸优化问题存在强对偶性的条件。对于一个凸优化问题,如果存在一个严格可行点,则称该问题满足Slater条件。除了Slater条件外,还有许多其他类型的约束资格条件,它们适用于不同类型的优化问题,并且在不同情况下可能更具优势。选择适当的约束资格条件通常取决于问题的特定性质和所需的结果保证。
- 对偶可行性:如果 λ > 0 \lambda>0 λ>0且 ( λ , v ) ∈ d o m g (\lambda,v)\in dom\ g (λ,v)∈dom g,则 ( λ , v ) (\lambda,v) (λ,v)是对偶可行的,通常通过显式地约束 ( λ , v ) ∈ d o m g (\lambda,v)\in dom\ g (λ,v)∈dom g可以解决问题
示例:标准形式LP(对偶线性规划的一个重要特性是强对偶性。如果原始线性规划(Primal LP)有解,那么对偶线性规划(Dual LP)也有解,并且它们的最优值相等。)
示例:二次规划
(二)对偶问题的几何解释
为了简化问题,这里只考虑包含一个约束条件 f 1 ( x ) ≤ 0 f_1(x)\leq 0 f1(x)≤0的情况。 G = { ( f 1 ( x ) , f 0 ( x ) ) ∣ x ∈ D } G=\{(f_1(x),f_0(x))|x\in D\} G={(f1(x),f0(x))∣x∈D}是可实现的约束条件值及目标值的集合,其对偶函数为: g ( λ ) = i n f ( u , t ) ∈ G ( t + λ u ) g(\lambda)=inf_{(u,t)\in G}(t+\lambda u) g(λ)=inf(u,t)∈G(t+λu)
- λ + t = g ( λ ) \lambda + t = g(\lambda) λ+t=g(λ) 是(非垂直)支持 G 的超平面
- 超平面与 t t t轴相交于 t = g ( λ ) t=g(\lambda) t=g(λ)
Epigraph variation:
A
=
{
(
u
,
t
)
∣
f
1
(
x
)
≤
u
,
f
0
(
x
)
≤
t
f
o
r
s
o
m
e
x
∈
D
}
A=\{(u,t)|f_1(x)\leq u,f_0(x)\leq t \ for \ some\ x\in D\}
A={(u,t)∣f1(x)≤u,f0(x)≤t for some x∈D}
- 如果在 ( 0 , p ∗ ) (0, p^*) (0,p∗) 处存在 A A A 的非垂直支撑超平面,则强对偶性成立
- 对于凸问题, A A A 是凸的,因此在 ( 0 , p ∗ ) (0, p^*) (0,p∗) 处有支撑超平面
- Slater 条件:如果存在
(
u
~
,
t
~
)
∈
A
(\widetilde u ,\widetilde{t}) ∈ A
(u
,t
)∈A 且
u
~
<
0
\widetilde u < 0
u
<0,则
(
0
,
p
∗
)
(0, p^*)
(0,p∗)处的支撑超平面必定是非垂直的
三、KKT 条件
(一)互补松弛性
互补松弛性表明,在强对偶性成立的情况下,原始问题的最优解和对偶问题的最优解之间存在一种互相补充的关系。如果一个约束在原始问题的最优解处处于活动状态(非严格不等式),那么对应的对偶变量必须为零。相反,如果对偶问题的对偶变量为正,则相应的约束在原始问题的最优解处必须处于非活动状态(严格不等式)。
(二)KKT条件
Karush-Kuhn-Tucker(KKT)条件是非线性规划中一组必要和(在某些情况下)充分的最优性条件。对于许多优化问题,特别是凸优化问题,KKT条件提供了验证一个解是否为最优解的有力工具。
对于一个标准形式的优化问题:
- 优化目标:minimize f 0 ( x ) f_0(x) f0(x)
- 约束条件:
- 非等式约束: f i ( x ) ≤ 0 , i = 1 , . . . , m f_i(x)\leq0,i=1,...,m fi(x)≤0,i=1,...,m
- 等式约束: h i ( x ) = 0 , i = 1 , . . . , p h_i(x)=0,i=1,...,p hi(x)=0,i=1,...,p
KKT条件包括以下几个部分:
- 原始可行性:
- f i ( x ∗ ) ≤ 0 , i = 1 , . . . , m f_i(x^*)\leq 0,i=1,...,m fi(x∗)≤0,i=1,...,m
- h j ( x ∗ ) = 0 , j = 1 , . . . , 0 h_j(x^*)=0,j=1,...,0 hj(x∗)=0,j=1,...,0
- 对偶可行性:
- λ i ≥ 0 , i = 1 , . . . , m \lambda_i\geq 0,i=1,...,m λi≥0,i=1,...,m
- 拉格朗日函数的梯度为零(即驻点条件):
- ∇ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∇ f i ( x ∗ ) + ∑ j = 1 p v j ∇ h j ( x ∗ ) = 0 \nabla f_0(x^*)+\sum_{i=1}^m\lambda_i\nabla f_i(x^*)+\sum^p_{j=1}v_j\nabla h_j(x^*)=0 ∇f0(x∗)+∑i=1mλi∇fi(x∗)+∑j=1pvj∇hj(x∗)=0
- 互补松弛性:
- λ i f i ( x ∗ ) = 0 , i = 1 , . . . , m \lambda_if_i(x^*)=0,i=1,...,m λifi(x∗)=0,i=1,...,m
(三)KKT条件的作用
- 如果强对偶性成立并且 x , λ , v x,\lambda,v x,λ,v 是最优的,则它们满足 KKT 条件
- 如果
x
~
,
λ
~
,
v
~
\widetilde{x},\widetilde{\lambda},\widetilde{v}
x
,λ
,v
满足凸问题的KKT条件,他们就是最优的:
- 根据互补松弛性有: f 0 ( x ~ ) = L ( x ~ , λ ~ , v ~ ) f_0(\widetilde{x})=L(\widetilde{x},\widetilde{\lambda},\widetilde{v}) f0(x )=L(x ,λ ,v )
- 根据拉格朗日函数的梯度为零有: g ( λ ~ , v ~ ) = L ( x ~ , λ ~ , v ~ ) g(\widetilde{\lambda},\widetilde{v})=L(\widetilde{x},\widetilde{\lambda},\widetilde{v}) g(λ ,v )=L(x ,λ ,v )
- 如果满足 Slater 条件,则 x 是最优的当且仅当存在满足 KKT 条件的 λ , v \lambda,v λ,v
对于凸优化问题,KKT条件是最优解的必要且充分条件。这意味着,如果一个点满足KKT条件,并且问题是凸的,那么这个点就是最优解。
对于非凸问题,KKT条件仍然是必要条件,但不是充分条件。这意味着满足KKT条件的点可能不是全局最优解。
Slater条件与KKT条件在优化理论中起着互补的作用,它们一起确保了优化问题的最优解。Slater条件确保了原始问题与对偶问题之间的强对偶性。KKT条件是确保最优解的必要条件,而Slater条件则为KKT条件提供了一个特殊情况下的有效实现。
四、敏感性分析
(一)扰动和敏感性分析
(不受干扰的)优化问题及其对偶:
扰动问题及其对偶问题:
- p ∗ ( u , v ) p^*(u,v) p∗(u,v)是在参数 u , v u,v u,v下的最优值
- p ∗ ( 0 , 0 ) p^*(0,0) p∗(0,0)是无扰动问题的最优值
(二)通过对偶性实现全局敏感性
假设强对偶性适用于未受扰动的问题,
λ
∗
,
v
∗
\lambda^*, v^*
λ∗,v∗为 对偶最优;
将弱对偶性引用到扰动问题上:
p
∗
(
u
,
v
)
≥
g
(
λ
∗
,
v
∗
)
−
u
T
λ
∗
−
v
T
v
∗
=
p
∗
(
0
,
0
)
−
u
T
λ
∗
−
v
T
v
∗
p^*(u,v)\geq g(\lambda^*,v^*)-u^T\lambda^*-v^Tv^*=p^*(0,0)-u^T\lambda^*-v^Tv^*
p∗(u,v)≥g(λ∗,v∗)−uTλ∗−vTv∗=p∗(0,0)−uTλ∗−vTv∗
拉格朗日乘子 λ i ∗ \lambda_i^* λi∗和 v i ∗ v_i^* vi∗大小对于原始问题最优解 p ∗ p^* p∗的影响:
- 如果 λ i ∗ \lambda_i^* λi∗很大,即约束 i i i变得非常严格 ( u i < 0 ) (u_i<0) (ui<0),那么 p ∗ p^* p∗会大幅增加
- 如果 λ i ∗ \lambda_i^* λi∗很小,即约束 i i i变得不那么严格 ( u i > 0 ) (u_i>0) (ui>0),那么 p ∗ p^* p∗不会明显减少
- 如果 v i ∗ v_i^* vi∗很大且为正,那么 p ∗ p^* p∗会大幅增加,特别是当取 v i < 0 v_i<0 vi<0时
- 如果 v i ∗ v_i^* vi∗很大且为负,那么 p ∗ p^* p∗会大幅增加,特别是当取 v i > 0 v_i>0 vi>0时
- 如果 v i ∗ v_i^* vi∗很小且为正,那么 p ∗ p^* p∗不会明显减少,特别是当取 v i > 0 v_i>0 vi>0时
- 如果 v i ∗ v_i^* vi∗很小且为负,那么 p ∗ p^* p∗不会明显减少,特别是当取 v i < 0 v_i<0 vi<0时
(三)通过对偶性实现局部敏感性
如果
p
∗
(
u
,
v
)
p^*(u,v)
p∗(u,v)在
(
0
,
0
)
(0,0)
(0,0)可微分,那么有:
λ
i
∗
=
−
∂
p
∗
(
0
,
0
)
∂
u
i
,
v
i
∗
=
−
∂
p
∗
(
0
,
0
)
∂
v
i
\lambda^*_i=-\frac{\partial p^*(0,0)}{\partial u_i},\ v^*_i=-\frac{\partial p^*(0,0)}{\partial v_i}
λi∗=−∂ui∂p∗(0,0), vi∗=−∂vi∂p∗(0,0)
- 稍稍加强第 i i i个不等式约束,即选择一个数值较小且小于零的 u i u_i ui,会使得 P ∗ P^* P∗增加大约 − λ i ∗ u i -\lambda_i^*u_i −λi∗ui
- 稍稍放松第 i i i个约束,即选择一个数值较小且大于零的 u i u_i ui,会使得 P ∗ P^* P∗减小大约 λ i ∗ u i \lambda_i^*u_i λi∗ui。
证明:
p
∗
(
u
)
p^*(u)
p∗(u) 对于具有一个(不等式)约束的问题:
五、问题重新表述
(一)对偶性和问题重新表述
问题的等价表述可能会导致截然不同的对偶,当对偶难以推导或无趣时,重新表述原始问题可能会很有用。
- 引入新变量和等式约束
- 将显式约束隐式化,反之亦然
- 变换目标函数或约束函数,例如将 f 0 ( x ) f_0 (x) f0(x) 替换为 ϕ ( f 0 ( x ) ) \phi(f_0(x)) ϕ(f0(x)),其中 ϕ \phi ϕ为凸的,且递增
(二)引入新变量和等式约束
考虑一个无约束问题:
- 目标函数:最小化 f 0 ( A x + b ) f_0(Ax+b) f0(Ax+b)
- 该问题的对偶函数是常数: g = i n f x L ( x ) = i n f x f 0 ( A x + b ) = p ∗ g=inf_xL(x)=inf_xf_0(Ax+b)=p^* g=infxL(x)=infxf0(Ax+b)=p∗,因此虽然拥有强对偶性,但是没有大的作用
引入新变量 y y y以及等式约束 y = A x + b y=Ax+b y=Ax+b
- 目标函数:最小化 f 0 ( y ) f_0(y) f0(y)
- 约束条件: A x + b − y = 0 Ax+b-y=0 Ax+b−y=0
此时对应的对偶问题为:
- 目标函数:最大化 b T v − f 0 ∗ ( v ) b^Tv-f_0^*(v) bTv−f0∗(v)
- 约束条件: A T v = 0 A^Tv=0 ATv=0
以范数近似问题为例:
六、定理替代
(一)定理替代
定理替代是线性代数和优化理论中的重要概念,它涉及两个不等式和等式约束系统的相互排斥性。
弱替代:
- 两个系统中如果至多有一个系统是可行的,则称为弱替代,也就是说,它们不能同时可行,但可以同时不可行
- x > a x>a x>a和 x ≤ a − 1 x\leq a-1 x≤a−1是弱替代的
强替代:(强替代实际上是弱替代的一个特例)
- 两个系统中如果恰好有一个系统是可行的,也就是说,它们不能同时可行也不能同时不可行
- x > a x>a x>a和 x ≤ a x\leq a x≤a是强替代的
(二)对偶性和定理替代
1、对偶性:
在优化理论中,对偶性是指每一个优化问题(原问题)都可以关联一个相应的对偶问题。这两个问题之间有特定的关系,其解也有特定的联系。特别是在线性规划中,对偶性定理告诉我们,原问题的最优值等于对偶问题的最优值,并且在最优解处,原问题和对偶问题的约束条件必须同时满足。
2、定理替代
定理替代通常描述的是两组线性不等式(或不等式和等式)约束的相互排斥性。它表明,在两个给定的系统中,至多只有一个系统是可行的。这类定理的一些著名实例包括Farkas引理、Gale的定理和Gordan定理。
3、定理替代可以被视为对偶性的扩展
定理替代可以被视为对偶性的扩展,因为它们都涉及到两个系统之间的相互关系,以及在一定条件下两者不可同时成立的特性。
- 可行性问题的对偶性:
- 对偶性通常应用于优化问题,涉及到原问题和对偶问题之间的解的关系。
- 定理替代则专注于可行性问题,考虑的是在约束系统之间存在不可同时可行的情况。
- 对偶定理的扩展:
- 对偶定理可以看作是定理替代的一种特殊形式。在对偶定理中,原问题和对偶问题在最优解处的目标函数值是相等的
- 定理替代则推广了这一思想,描述了在更广泛的线性系统中两个系统的相互排斥性。
- 从优化到可行性:
- 在优化问题中,强对偶性表明如果存在最优解,则原问题和对偶问题在最优解处同时满足其约束条件。
- 定理替代则可以用于证明一个系统的可行性问题是否存在解,即使没有涉及到最优性。
(三)可行性问题的对偶性
考虑可行性问题:
- 目标函数:最小化 0
- 约束条件: f i ( x ) ≤ 0 , i = 1 , . . . , m f_i(x)\leq 0,i=1,...,m fi(x)≤0,i=1,...,m, h i ( x ) = 0 , i = 1 , . . . , p h_i(x)=0,i=1,...,p hi(x)=0,i=1,...,p
- 如果系统可行,则 p ∗ = 0 p^*=0 p∗=0,否则 p ∗ = ∞ p^*=∞ p∗=∞
该可行性问题的对偶函数:
- g ( λ , v ) = i n f x ( ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) ) g(\lambda,v)=inf_x(\sum^m_{i=1} \lambda_if_i(x)+\sum_{i=1}^pv_ih_i(x)) g(λ,v)=infx(∑i=1mλifi(x)+∑i=1pvihi(x))
- 该对偶函数的性质:
- 弱对偶性:对于所有的 λ ≥ 0 \lambda\geq 0 λ≥0,有 g ( λ , v ) ≤ p ∗ g(\lambda,v)\leq p^* g(λ,v)≤p∗,如果原始问题可行,那么 p ∗ ≤ 0 p^*\leq 0 p∗≤0,进而$ g ( λ , v ) ≤ 0 g(\lambda,v)\leq 0 g(λ,v)≤0
- 弱替代:如果存在 λ ≥ 0 \lambda \geq 0 λ≥0使得 g ( λ , v ) > 0 g(\lambda,v)> 0 g(λ,v)>0,则原始系统不可行
强替代条件:当 f i f_i fi是凸函数, h i h_i hi是仿射函数,并且满足一定的约束条件(例如slater条件),就可以得到强替代结果
- 强替代:如果存在 λ ≥ 0 \lambda \geq 0 λ≥0使得 g ( λ , v ) > 0 g(\lambda,v)> 0 g(λ,v)>0,则原始系统不仅不可行,而且这种不可行是由于系统结构的性质导致的,这种条件下可以更明确地判断系统的不可行性
对偶函数
g
g
g 是正齐次的,因此可以将替代系统重写为:
λ
≤
0
,
g
(
λ
,
v
)
≤
1
\lambda\leq 0,\ g(\lambda,v)\leq 1
λ≤0, g(λ,v)≤1
示例:线性方程的非负解
(四)Farkas 引理
法尔卡斯引理是线性规划理论中的一个重要结果,它描述了线性方程组的解的存在性和非存在性。它提供了一种方法来证明线性方程组的解的不存在性,或者在线性规划中证明问题是不可行的:
A
x
≤
0
,
c
T
x
<
0
a
n
d
A
T
y
+
c
=
0
,
y
≥
0
是强替代的
Ax\leq 0,c^Tx<0\ and\ A^Ty+c=0,y\geq 0 \ 是强替代的
Ax≤0,cTx<0 and ATy+c=0,y≥0 是强替代的
也就是说上面两个系统有且仅有一个是成立的。