凸优化

优化问题

优化问题的一般形式
最小化: f 0 ( x ) f_0(x) f0(x)
条件: f i ( x ) ≤ b i , i = 1 , … , m f_i(x)\leq b_i, i=1,\ldots,m fi(x)bi,i=1,,m
其中 f 0 ( x ) f_0(x) f0(x)为目标函数, 条件里的不等式是限制条件

举例:

极大似然估计

如果 L ( μ , σ ) L(\mu,\sigma) L(μ,σ)是一个极大似然估计问题中的似然函数, 其中 μ , σ \mu,\sigma μ,σ分别是期望和方差, 那么极大似然估计的问题转化为
最小化: − L ( μ , σ ) -L(\mu,\sigma) L(μ,σ)
条件: σ ≥ 0 \sigma \geq0 σ0

最小二乘

如果 A x × k A_{x\times k} Ax×k是一个矩阵, b ∈ R n b\in\mathbb{R}^n bRn是一个向量, 对于 x ∈ R k x\in\mathbb{R}^k xRk
最小化: f 0 ( x ) = ∣ A x − b ∣ 2 f_0(x)=|Ax-b|^2 f0(x)=Axb2

凸优化问题

  • 凸优化问题的条件, f 0 , f 1 , … , f m f_0,f_1,\dots,f_m f0,f1,,fm都是凸函数
  • 凸优化问题的特点, 局部最优等价于全局最优
  • 凸优化问题的求解, 几乎总是现成的工具来求解

凸优化的应用

  • 凸优化问题逼近非凸优化问题, 寻找非凸问题的初始点
  • 利用对偶问题的凸性给原问题提供下界估计
  • 凸优化问题可以给非凸问题带来一些启发

凸集合与凸函数

凸集合定义

如果一个集合 Ω \Omega Ω中任何两个点之间的线段上任何一个点还属于 Ω \Omega Ω, 那么 Ω \Omega Ω就是一个凸集合
λ x 1 + ( 1 − λ ) x 2 ∈ Ω , ∀ x 1 , x 2 ∈ Ω , λ ∈ ( 0 , 1 ) \lambda x_1+(1-\lambda)x_2\in\Omega ,\forall x_1, x_2\in\Omega,\lambda\in(0,1) λx1+(1λ)x2Ω,x1,x2Ω,λ(0,1)

凸函数定义

如果一个函数 f f f定义域 Ω \Omega Ω是凸集, 而且对于任何两点, 以及两点之间线段上任意一个点都有
f ( λ x 1 + ( 1 − λ ) x 2 ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , ∀ x 1 , x 2 ∈ Ω , λ ∈ ( 0 , 1 ) f(\lambda x_1+(1-\lambda)x_2\leq\lambda f(x_1)+(1-\lambda)f(x_2),\forall x_1,x_2\in\Omega,\lambda\in(0,1) f(λx1+(1λ)x2λf(x1)+(1λ)f(x2),x1,x2Ω,λ(0,1)

函数的上境图

假设 f f f是一个定义在 Ω \Omega Ω上的函数, 区域 { ( x , y ) : y ≥ f ( x ) , ∀ x ∈ Ω } \{(x,y):y\geq f(x),\forall x\in\Omega\} {(x,y):yf(x),xΩ}就是 f f f的上境图
上境图就是函数图像上方的部分区域

凸集合与凸函数

一个函数是凸函数当且仅当 f f f的上境图是凸集合
凸集合与凸函数有很多相对应的性质可以由这个结论来进行链接

凸组合

对于任何 n n n个点 { x i } i = 1 n \{x_i\}^n_{i=1} {xi}i=1n, 以及权重系数 { w i } i = 1 n \{w_i\}^n_{i=1} {wi}i=1n, 若权重系数非负 w 1 ≥ 0 w_1\geq 0 w10而且 ∑ i = 1 n w i = 1 \sum\limits^n_{i=1}w_i=1 i=1nwi=1, 则线性组合
S = ∑ i = 1 n w i x i S=\sum\limits^n_{i=1}w_ix_i S=i=1nwixi
为一个凸组合
凸组合的物理意义可以理解成 n n n个重量为 w i w_i wi的点的整体重心

集合的凸包

n n n个点 { x i } i = 1 n 的 全 部 凸 组 合 就 构 成 \{x_i\}^n_{i=1}的全部凸组合就构成 {xi}i=1n{x_1}^n_{i=1}$$的凸包

函数的凸闭包

如果 C C C是函数 f f f的上境图, C ˉ \bar{C} Cˉ C C C的凸包, 那么以 C ˉ \bar C Cˉ为上境图的函数称为 f f f的凸闭包

集合的凸包的性质

C ˉ \bar C Cˉ C C C凸包, 那么

  • C ⊂ C ˉ C\subset\bar C CCˉ
  • C C C的支撑平面也是 C ˉ \bar C Cˉ的支撑平面, 反之亦然

函数的凸闭包的性质

g g g f f f的凸闭包, 那么

  • g ≤ f g\leq f gf
  • inf ⁡ { g } = inf ⁡ f \inf\{g\}=\inf f inf{g}=inff

凸集合性质

  1. 假设 Ω \Omega Ω是一个凸集合, 那么 Ω \Omega Ω任何子集的凸包仍包含于 Ω \Omega Ω
琴身不等式

如果 f : Ω → R f:\Omega\rightarrow\mathbb{R} f:ΩR是一个凸函数, 则对于任何 { x i ∈ Ω } i = 1 n \{x_i\in\Omega\}^n_{i=1} {xiΩ}i=1n, 以及凸组合 ∑ i = 1 n w i x i \sum\limits^n_{i=1}w_ix_i i=1nwixi都有
∑ i = 1 n w i f ( x i ) ≥ f ( ∑ i = 1 n w i x i ) \sum\limits^n_{i=1}w_if(x_i)\geq f(\sum\limits^n_{i=1}w_ix_i) i=1nwif(xi)f(i=1nwixi)

  1. 任意多个凸集合的交集仍然是凸集合
  • 任意多个凸函数的逐点上确界仍是凸函数
  • 固定一个凸函数的若干个变量, 所得的函数仍然是凸函数
  • 凸函数的sublevel set都是凸集合
  1. 假设 T : V → W T:V \rightarrow W T:VW是一个线性映射, 则
  • Ω V \Omega_V ΩV V V V中的凸集合, 则 Ω W = T ( Ω v ) \Omega_W=T(\Omega_v) ΩW=T(Ωv) W W W中的凸集合
  • Ω W \Omega_W ΩW W W W中的凸集合, 则 Ω V = T − 1 ( Ω W ) \Omega_V=T^{-1}(\Omega_W) ΩV=T1(ΩW) V V V中的凸集合
  1. 凸函数的非负线性组合仍是凸函数, f 1 , … , f k f_1,\dots,f_k f1,,fk是凸函数, 而且 w i ≥ 0 w_i\geq 0 wi0, 则 ∑ i = 1 k w i f k \sum\limits^k_{i=1}w_if_k i=1kwifk也是凸函数
    f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:RnR是凸函数, A ∈ R n × m , b ∈ R n A\in\mathbb{R}^{n\times m},b\in\mathbb{R}^n ARn×m,bRn, 那么复合函数 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b)还是凸函数

  2. 若凸集合 Ω \Omega Ω的边界 C C C是一个可微曲线, 则 C C C在任何一点上的切线(平面)都是这个凸集合的支撑线(平面)
    若凸集合 Ω \Omega Ω的边界 C C C是一个二阶可微曲线, 则C在任何一点上的曲率向量都指向 Ω \Omega Ω内部

曲率向量的物理意义是加速方向或者受力方向

  1. 若一个凸函数一阶可微, 那么凸函数的一阶近似不大于函数本身
    f ( x ) ≥ f ( x 0 ) + ( Δ f ( x 0 ) ) T ⋅ ( x − x 0 ) f(x)\geq f(x_0)+(\Delta f(x_0))^T\cdot(x-x_0) f(x)f(x0)+(Δf(x0))T(xx0)
    若一个凸函数二阶可微, 那么这个函数的二阶导数非负(半正定)

  2. Ω \Omega Ω是凸集合, 那么 Ω \Omega Ω在任何一个平面上的投影仍是凸集合(平行光源投影)
    Ω ⊂ R n \Omega\subset\mathbb{R}^n ΩRn是凸集合, 那么
    Ω n ^ = { ( x 1 / x n , … , x n − 1 / x n , 1 ) : ( x 1 , … , x n ) ∈ Ω 且 x n ≠ 0 } \Omega_{\hat{n}}=\{(x_1/x_n,\dots,x_{n-1}/x_n,1):(x_1,\dots,x_n)\in\Omega且x_n\neq 0\} Ωn^={(x1/xn,,xn1/xn,1):(x1,,xn)Ωxn=0}也是凸集合(点光源投影)
    Ω ⊂ R n \Omega\subset\mathbb{R}^n ΩRn是一个凸集合, 那么椎体 t x : x ∈ Ω , t ∈ R + tx:x\in\Omega,t\in\mathbb{R}_+ tx:xΩ,tR+也是凸集合(点光源)

  3. f ( x , y ) f(x,y) f(x,y)是凸函数, 那么 g ( x ) = inf ⁡ ( x , y ) ∈ Ω f ( x , y ) g(x)=\inf\limits_{(x,y)\in\Omega}f(x,y) g(x)=(x,y)Ωinff(x,y), 也是凸函数
    f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:RnR是凸函数, 那么 g ( x , t ) = t f ( x / t ) : R n + 1 → R g(x,t)=tf(x/t):\mathbb{R}^{n+1}\rightarrow\mathbb{R} g(x,t)=tf(x/t):Rn+1R也是个凸函数

凸集分离定理

C , D C,D C,D分别是 R n \mathbb{R}^n Rn中的两个不交的非空凸集合, 如 C ∩ D = ∅ C\cap D=\empty CD=, 则一定存在向量 a ∈ R n a\in\mathbb{R}^n aRn以及实数 b ∈ R b\in\mathbb{R} bR使得任何 x C ∈ C , x D ∈ D x_C\in C,x_D\in D xCC,xDD a T x C ≤ b a^Tx_C\leq b aTxCb以及 a T x D ≥ b a^Tx_D\geq b aTxDb

定理不等式的几何意义在于 C , D C,D C,D分别位于超平面 a T x = b a^Tx=b aTx=b的两边

共轭函数

如果 f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:RnR是一个函数, 那么 f f f的共轭函数
f ∗ ( y ) = sup ⁡ x ∈ d o m f ( y T x − f ( x ) ) f^*(y)=\sup\limits_{x\in domf}(y^Tx-f(x)) f(y)=xdomfsup(yTxf(x))
其中 f ∗ ( y ) f^*(y) f(y)的定义域是是的等式右边有上界的那些y

共轭函数的基本性质

  • 共轭函数 f ∗ f^* f是一个凸函数
  • 如果 g g g f f f的凸闭包, 那么 g ∗ = f ∗ g^*=f^* g=f
  • 对一般的函数 f , f ∗ ∗ ≤ f f,f^{**}\leq f f,ff
  • 如果 f f f是一个凸函数, 那么 f ∗ ∗ = f f^{**}=f f=f
  • f ( x ) + f ∗ ( y ) ≥ x T y f(x)+f^*(y)\geq x^Ty f(x)+f(y)xTy
  • 如果 f f f是凸函数而且可微, 那么 f ∗ ( y ) = x T ∇ f ( x ∗ ) − f ( x ∗ ) f^*(y)=x^T\nabla f(x^*)-f(x^*) f(y)=xTf(x)f(x), 其中 x ∗ x^* x满足 ∇ f ( x ∗ ) = y \nabla f(x^*)=y f(x)=y
  • 如果 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b), 则 g ∗ ( y ) = f ∗ ( A − T y ) − b T A − T y g*(y)=f*(A^{-T}y)-b^TA^{-T}y g(y)=f(ATy)bTATy
  • 如果 f ( u , v ) = f 1 ( u ) + f 2 ( v ) f(u,v)=f_1(u)+f_2(v) f(u,v)=f1(u)+f2(v), 那么 f ∗ ( w , z ) = f 1 ∗ ( w ) + f 2 ∗ ( z ) f^*(w,z)=f_1^*(w)+f_2^*(z) f(w,z)=f1(w)+f2(z)

对偶问题

拉格朗日对偶问题

根据原函数与限制条件我们定义拉格朗日量 L ( x , λ , ν ) : R n + m + p → R L(x,\lambda,\nu):\mathbb{R}^{n+m+p}\rightarrow\mathbb{R} L(x,λ,ν):Rn+m+pR
拉格朗日量:
L ( x , λ , ν ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) L(x,\lambda,\nu)=f_0(x) + \sum\limits^m_{i=1}\lambda_if_i(x)+\sum\limits^p_{i=1}\nu_ih_i(x) L(x,λ,ν)=f0(x)+i=1mλifi(x)+i=1pνihi(x)
根据拉格朗日函数我们定义拉格朗日对偶函数 g ( λ , ν ) : R m + p → R g(\lambda,\nu):\mathbb{R}^{m+p}\rightarrow\mathbb{R} g(λ,ν):Rm+pR
拉格朗日对偶函数
g ( λ , μ ) = inf ⁡ x ∈ D L ( x , λ , μ ) = inf ⁡ x ∈ D f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) \begin{aligned}g(\lambda,\mu)&=\inf\limits_{x\in\mathcal{D}}L(x,\lambda,\mu)\\&=\inf\limits_{x\in\mathcal{D}}f_0(x)+\sum\limits^m_{i=1}\lambda_if_i(x)+\sum\limits^p_{i=1}v_ih_i(x)\end{aligned} g(λ,μ)=xDinfL(x,λ,μ)=xDinff0(x)+i=1mλifi(x)+i=1pvihi(x)

对偶函数为原问题提供下界

如果限制 λ i ≥ 0 , ∀ i = 1 , … , m \lambda_i\geq0,\forall i=1,\dots,m λi0,i=1,,m,则
g ( λ , μ ) ≤ p ∗ g(\lambda,\mu)\leq p^* g(λ,μ)p

对偶问题

根据对偶函数,定义对偶问题的一般形式
最大化: g ( λ , μ ) g(\lambda,\mu) g(λ,μ)
不等条件: λ i ≥ 0 , i = 1 , … , m \lambda_i\geq 0,i=1,\dots,m λi0,i=1,,m
我们把对偶问题的最大值点称为 ( λ ∗ , μ ∗ ) (\lambda^*,\mu^*) (λ,μ), 相应的最大值称为 d ∗ d^* d, 这里面的对偶函数 g g g定义域为 d o m g = { ( λ , μ ) : g ( λ , μ ) > − ∞ } domg=\{(\lambda,\mu):g(\lambda,\mu)>-\infty\} domg={(λ,μ):g(λ,μ)>}, 在 g g g的定义域中满足 λ i ≥ 0 \lambda_i\geq 0 λi0的那些 ( λ , μ ) (\lambda,\mu) (λ,μ)全体, 叫做对偶可行域, 也就是对偶问题的可行域

线性约束优化问题的对偶问题

当优化问题的限制条件是线性条件是, 可以利用共轭函数的一些性质方便的得到对偶问题
最小化: f 0 ( x ) f_0(x) f0(x)
不等条件: A X ≤ b AX\leq b AXb
等式条件: C x = d Cx=d Cx=d
这里面向量的比较 u < v u<v u<v指的是 u 0 u0 u0里面每一个分量都不小于 v v v里面对应的分量

根据对偶函数的性质我们已经知道在对偶可行域中, g ( λ , μ ) g(\lambda,\mu) g(λ,μ)总是不大于 p ∗ p^* p. 所以就有
弱对偶性:
d ∗ ≤ p ∗ d^*\leq p^* dp
若对偶性总是对的, 相对而言的强对偶性是指一部分优化问题来说, 有更好的结论
d ∗ = p ∗ d^*=p^* d=p
强对偶性不总成立

KKT

KKT条件

  • f i ( x ∗ ) ≤ 0 , i = 1 , … , m f_i(x^*)\leq0,i=1,\dots,m fi(x)0,i=1,,m
  • h i ( x ∗ ) = 0 , i = 1 , … , p h_i(x^*)=0,i=1,\dots,p hi(x)=0,i=1,,p
  • λ i ∗ ≥ 0 , i = 1 , … , m \lambda^*_i\geq0,i=1,\dots,m λi0,i=1,,m
  • λ i ∗ f i ( x ∗ ) = 0 , i = 1 , … , m \lambda^*_if_i(x^*)=0,i=1,\dots,m λifi(x)=0,i=1,,m
  • ∇ x L ( x ∗ , λ ∗ , μ ∗ ) = 0 \nabla_xL(x^*,\lambda^*,\mu^*)=0 xL(x,λ,μ)=0
    其中第四个条件是由 ∑ i = 1 m λ i ∗ f i ( x ∗ ) = 0 \sum\limits^m_{i=1}\lambda_i^*f_i(x^*)=0 i=1mλifi(x)=0以及第一个和第三个条件共同得到的

KKT条件使用

  • 对于凸优化问题, KKT条件是 x ∗ , ( λ ∗ , ν ∗ ) x^*,(\lambda^*,\nu^*) x,(λ,ν)分别作为原问题和对偶问题的最优解的充分必要条件
  • 对于非凸优化问题, KKT条件仅仅是必要而非充分
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值