[凸优化]2-对偶与最优性条件

第二章 对偶与最优性条件

标准形式优化问题

min ⁡ x   f 0 ( x ) s . t .   f i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , m h i ( x ) = 0 , i = 1 , 2 , ⋯   , p x ∈ D \begin{aligned} \underset{x}{\min}\ &f_0(x)\\ s.t.\ &f_i(x)\leq0,i=1,2,\cdots,m\\ &h_i(x)=0,i=1,2,\cdots,p\\ &x\in D \end{aligned} xmin s.t. f0(x)fi(x)0,i=1,2,,mhi(x)=0,i=1,2,,pxD

  • 目标函数 f 0 : R n → R f_0:\R^n\rightarrow\R f0:RnR
  • 不等式约束函数 f i : R n → R , i = 1 , 2 , ⋯   , m f_i:\R^n\rightarrow\R,i=1,2,\cdots,m fi:RnR,i=1,2,,m
  • 等式约束函数 h i : R n → R , i = 1 , 2 , ⋯   , p h_i:\R^n\rightarrow\R,i=1,2,\cdots,p hi:RnR,i=1,2,,p
  • D = ( ⋂ i = 0 m d o m f i ) ∩ ( ⋂ i = 1 p d o m h i ) D=(\bigcap^m_{i=0}domf_i)\cap(\bigcap_{i=1}^pdomh_i) D=(i=0mdomfi)(i=1pdomhi)非空
  • 最优值 p ∗ p^* p

拉格朗日对偶

  • 对不等式约束 f i ( x ) ≤ 0 f_i(x)\leq0 fi(x)0引入拉格朗日乘子 λ i \lambda_i λi,对等式约束引入拉格朗日乘子 υ i \upsilon_i υi。记 λ = [ λ 1 , λ 2 , ⋯   , λ , ] T ∈ R m , υ = [ υ 1 , υ 2 , ⋯   , υ p ] T ∈ R p {\lambda}=[\lambda_1,\lambda_2,\cdots,\lambda_,]^T\in\R^m,{\upsilon}=[\upsilon_1,\upsilon_2,\cdots,\upsilon_p]^T\in\R^p λ=[λ1,λ2,,λ,]TRm,υ=[υ1,υ2,,υp]TRp

  • 拉格朗日函数: L : R n × R m × R p → R L:\R^n\times\R^m\times\R^p\rightarrow\R L:Rn×Rm×RpR

    L ( x , λ , υ ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p υ i h i ( x ) ,   d o m L = D × R m × R p L(x,\pmb{\lambda},\pmb{\upsilon})=f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\upsilon_ih_i(x),\ domL=D\times\R^m\times\R^p L(x,λλλ,υυυ)=f0(x)+i=1mλifi(x)+i=1pυihi(x), domL=D×Rm×Rp

  • 拉格朗日对偶函数: g : R m × R p → R g:\R^m\times\R^p\rightarrow\R g:Rm×RpR
    g ( λ , υ ) = inf ⁡ x ∈ D L ( x , λ , υ ) = inf ⁡ x ∈ D [ f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p υ i h i ( x ) ] g(\pmb{\lambda},\pmb{\upsilon})=\underset{x\in D}{\inf}L(x,\pmb{\lambda},\pmb{\upsilon})=\underset{x\in D}{\inf}[f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\upsilon_ih_i(x)] g(λλλ,υυυ)=xDinfL(x,λλλ,υυυ)=xDinf[f0(x)+i=1mλifi(x)+i=1pυihi(x)]

image-20210604203207293

定理 1:拉格朗日对偶函数 g ( λ , υ ) = inf ⁡ x ∈ D L ( x , λ , υ ) g({\lambda},{\upsilon})=\underset{x\in D}{\inf}L(x,{\lambda},{\upsilon}) g(λ,υ)=xDinfL(x,λ,υ)是凹函数

定理 2:对任意的 λ ≥ 0 {\lambda}\geq0 λ0 υ {\upsilon} υ,对偶函数 g ( λ , υ ) g({\lambda},{\upsilon}) g(λ,υ)是优化问题最优值 p ∗ p^* p的下界,即 ∀ λ ≥ 0 , g ( λ , υ ) ≤ p ∗ \forall{\lambda}\geq0,g({\lambda},{\upsilon})\leq p^* λ0,g(λ,υ)p

推论 p ∗ ≥ max ⁡ λ ≥ 0 g ( λ , υ ) p^*\geq\underset{{\lambda}\geq0}{\max}g({\lambda},{\upsilon}) pλ0maxg(λ,υ),即 p ∗ ≥ max ⁡ λ ≥ 0 min ⁡ x ∈ D L ( x , λ , υ ) p^*\geq\underset{{\lambda}\geq0}{\max}\underset{x\in D}{\min}L(x,{\lambda},{\upsilon}) pλ0maxxDminL(x,λ,υ)

拉格朗日对偶问题:

max ⁡ λ , υ   g ( λ , υ ) s . t .   λ ≥ 0 \begin{aligned} \underset{\pmb{\lambda},\pmb{\upsilon}}{\max}\ & g(\pmb{\lambda},\pmb{\upsilon})\\ s.t.\ &\pmb{\lambda}\geq0 \end{aligned} λλλ,υυυmax s.t. g(λλλ,υυυ)λλλ0

  • 对偶可行解 ( λ , υ ) ({\lambda},{\upsilon}) (λ,υ)需满足: λ ≥ 0 \lambda\geq0 λ0 ( λ , υ ) ∈ d o m   g ({\lambda},{\upsilon})\in dom\ g (λ,υ)dom g
  • 拉格朗日对偶问题是凸优化问题
    • ( λ ∗ , υ ∗ ) ({\lambda}^*,{\upsilon}^*) (λ,υ):对偶最优解或最优拉格朗日乘子
    • 最优值 d ∗ d^* d

弱对偶与强对偶

  • 对于任意的函数优化问题, inf ⁡ x ∈ D sup ⁡ λ ≥ 0 L ( x , λ , υ ) ≥ sup ⁡ λ ≥ 0 inf ⁡ x ∈ D L ( x , λ , υ ) \underset{x\in D}{\inf}\underset{\lambda\geq0}{\sup}L(x,\lambda,\upsilon)\geq\underset{\lambda\geq0}{\sup}\underset{x\in D}{\inf}L(x,\lambda,\upsilon) xDinfλ0supL(x,λ,υ)λ0supxDinfL(x,λ,υ)成立
  • 弱对偶(Weak Duality): d ∗ ≤ p ∗ d^*\leq p^* dp,即 max ⁡ λ ≥ 0 min ⁡ x ∈ D L ( x , λ , υ ) ≤ min ⁡ x ∈ D max ⁡ λ ≥ 0 L ( x , λ , υ ) \underset{\lambda\geq0}{\max}\underset{x\in D}{\min}L(x,\lambda,\upsilon)\leq\underset{x\in D}{\min}\underset{\lambda\geq0}{\max}L(x,\lambda,\upsilon) λ0maxxDminL(x,λ,υ)xDminλ0maxL(x,λ,υ)
    • 总是成立
    • 最优对偶间隙: p ∗ − d ∗ ≥ 0 p^*-d^*\geq0 pd0
  • 强对偶(Strong Duality): d ∗ = p ∗ d^*=p^* d=p,即 max ⁡ λ ≥ 0 min ⁡ x ∈ D L ( x , λ , υ ) = min ⁡ x ∈ D max ⁡ λ ≥ 0 L ( x , λ , υ ) \underset{\lambda\geq0}{\max}\underset{x\in D}{\min}L(x,\lambda,\upsilon)=\underset{x\in D}{\min}\underset{\lambda\geq0}{\max}L(x,\lambda,\upsilon) λ0maxxDminL(x,λ,υ)=xDminλ0maxL(x,λ,υ)
    • 一般情况下不成立
    • 对凸优化问题成立(通常)

强对偶性和 Slater’s 约束品性

  • Slater 约束品性:存在集合 D D D的一个内点 x 0 x_0 x0,使得 f i ( x 0 ) < 0 ( i = 1 , 2 , ⋯   , m ) , A x 0 = b f_i(x_0)<0(i=1,2,\cdots,m),Ax_0=b fi(x0)<0(i=1,2,,m),Ax0=b
  • 凸优化问题,若 Slater 约束品性满足,则强对偶性成立

几何解释

image-20210604223950182 image-20210604224026220

最优性条件

  1. 原问题

    min ⁡ x   f 0 ( x ) s . t .   f i ( x ) ≤ 0 , i = 1 , 2 , ⋯   , m h i ( x ) = 0 , i = 1 , 2 , ⋯   , p x ∈ D \begin{aligned} \underset{x}{\min}\ &f_0(x)\\ s.t.\ &f_i(x)\leq0,i=1,2,\cdots,m\\ &h_i(x)=0,i=1,2,\cdots,p\\ &x\in D \end{aligned} xmin s.t. f0(x)fi(x)0,i=1,2,,mhi(x)=0,i=1,2,,pxD

  2. 对偶问题
    max ⁡ λ , υ   g ( λ , υ ) s . t .   λ ≥ 0 \begin{aligned} \underset{\pmb\lambda,\pmb\upsilon}{\max} \ &g(\pmb\lambda,\pmb\upsilon)\\ s.t.\ &\pmb\lambda\geq0 \end{aligned} λλλ,υυυmax s.t. g(λλλ,υυυ)λλλ0

  • 原问题可行解 x x x与对偶可行解 ( λ , υ ) (\lambda,\upsilon) (λ,υ)的对偶间隙 ϵ = f 0 ( x ) − g ( λ , υ ) \epsilon=f_0(x)-g(\lambda,\upsilon) ϵ=f0(x)g(λ,υ),此时称 x x x ϵ \epsilon ϵ-次优的,即

    f 0 ( x ) − p ∗ ≤ f 0 ( x ) − g ( λ , υ ) ⇒ f 0 ( x ) − p ∗ ≤ ϵ f_0(x)-p^*\leq f_0(x)-g(\pmb\lambda,\pmb\upsilon)\Rightarrow f_0(x)-p^*\leq\epsilon f0(x)pf0(x)g(λλλ,υυυ)f0(x)pϵ

  • 一对原问题可行解 𝑥 与对偶可行解 ( λ , υ ) (\lambda,\upsilon) (λ,υ)将原问题(对偶问题)的最优解限制在一个区间上,即

    p ∗ ∈ [ g ( λ , υ ) , f 0 ( x ) ] ,   d ∗ ∈ [ g ( λ , υ ) , f 0 ( x ) ] p^*\in[g(\pmb\lambda,\pmb\upsilon),f_0(x)],\ d^*\in[g(\pmb\lambda,\pmb\upsilon),f_0(x)] p[g(λλλ,υυυ),f0(x)], d[g(λλλ,υυυ),f0(x)]

  • 非启发式停止准则:令可行解 x k x^k xk及对偶可行解 ( λ k , υ k ) , k = 1 , 2 , ⋯ (\lambda^k,\upsilon^k),k=1,2,\cdots (λk,υk),k=1,2,,绝对精度 ϵ a b s > 0 \epsilon_{abs}>0 ϵabs>0,停止准则
    f 0 ( x ) − g ( λ k , υ k ) ≤ ϵ a b s f_0(x)-g(\pmb\lambda^k,\pmb\upsilon^k)\leq\epsilon_{abs} f0(x)g(λλλk,υυυk)ϵabs

Karush-Kuhn-Tucker(KKT)方程

假设原问题与对偶问题最优解可取得,分别为 x ∗ x^* x ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ,υ),且强对偶性成立,则

f 0 ( x ∗ ) = g ( λ ∗ , υ ∗ ) = min ⁡ x ∈ D f 0 ( x ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p υ i ∗ h i ( x ) = f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p υ i ∗ h i ( x ) = f 0 ( x ∗ ) \begin{aligned} f_0(x^*) &=g(\pmb\lambda^*,\pmb\upsilon^*)\\ &=\underset{x\in D}{\min} f_0(x) + \sum_{i=1}^{m} \lambda_i^*f_i(x)+\sum_{i=1}^{p}\upsilon_i^*h_i(x)\\ &=f_0(x^*)+\sum_{i=1}^{m}\lambda_i^*f_i(x)+\sum_{i=1}^{p}\upsilon_i^*h_i(x)\\ &=f_0(x^*) \end{aligned} f0(x)=g(λλλ,υυυ)=xDminf0(x)+i=1mλifi(x)+i=1pυihi(x)=f0(x)+i=1mλifi(x)+i=1pυihi(x)=f0(x)

根据如上推导过程,可以得到如下KKT 方程

f i ( x ∗ ) ≤ 0 ,   i = 1 , 2 , ⋯   , m λ i ∗ f i ( x ∗ ) = 0 ,   i = 1 , 2 , ⋯   , m λ i ∗ ≥ 0 ,   i = 1 , 2 , ⋯   , m h i ( x ∗ ) = 0 ,   i = 1 , 2 , ⋯   , p ∇ f 0 ( x ∗ ) + ∑ i = 1 m λ i ∗ ∇ f i ( x ∗ ) + ∑ i = 1 k υ i ∗ ∇ h i ( x ∗ ) = 0 \begin{aligned} f_i(x^*)\leq0,\ &i=1,2,\cdots,m\\ \lambda_i^*f_i(x^*)=0,\ &i=1,2,\cdots,m\\ \lambda_i^*\geq0,\ &i=1,2,\cdots,m\\ h_i(x^*)=0,\ &i=1,2,\cdots,p\\ \nabla f_0(x^*)+\sum_{i=1}^m\lambda_i^*\nabla f_i(x^*)+&\sum_{i=1}^k\upsilon_i^*\nabla h_i(x^*)=0 \end{aligned} fi(x)0, λifi(x)=0, λi0, hi(x)=0, f0(x)+i=1mλifi(x)+i=1,2,,mi=1,2,,mi=1,2,,mi=1,2,,pi=1kυihi(x)=0

  • 对于目标函数和约束函数可微的任意优化问题,若强对偶性成立(对偶间隙为 0),则任意一 对原问题最优解和对偶问题最优解必须满足 KKT 条件。
  • 目标函数和约束函数可微的任意凸函数问题,任意满足 KKT 条件的点分别是原、对偶最优解且对偶间隙为零
  • 若对偶间隙为 0,则解凸优化问题等价于解相应的 KKT 方程
  • 定理:若 x ~ , λ ~ , υ ~ \widetilde x,\widetilde{\lambda},\widetilde{\upsilon} x ,λ ,υ 满足凸优化问题的 KKT 条件,则 x ~ , ( λ ~ , υ ~ ) \widetilde x,(\widetilde{\lambda},\widetilde{\upsilon}) x ,(λ ,υ )分别是原问题和对偶问题的最优解且对偶间隙为 0

通过解对偶问题求解原问题

假设:强对偶性成立且 x ∗ x^* x是原问题的最优解, ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ,υ)为对偶问题的最优解,则

  • 对于凸优化问题,若 L ( x , λ ∗ , υ ∗ ) L(x,\lambda^*,\upsilon^*) L(x,λ,υ) x x x的严格凸函数,拉格朗日函数 L ( x , λ ∗ , υ ∗ ) L(x,\lambda^*,\upsilon^*) L(x,λ,υ)关于 x x x求极小值时在 x ∗ x^* x处取得最小值,下列优化问题的解唯一
    min ⁡ x ∈ D f 0 ( x ) + ∑ i = 1 m λ i ∗ f i ( x ) + ∑ i = 1 p υ i ∗ h i ( x ) \underset{x\in D}{\min} f_0(x)+\sum_{i=1}^m\lambda_i^*f_i(x)+\sum_{i=1}^p\upsilon_i^*h_i(x) xDminf0(x)+i=1mλifi(x)+i=1pυihi(x)

强弱对偶性的极大极小描述

  • 极大极小不等式:对于任意函数 f : R n × R m → R f:\R^n\times\R^m\rightarrow\R f:Rn×RmR以及任意的 W ⊆ R n W\sube\R^n WRn Z ⊆ R m Z\sube\R^m ZRm,有

    sup ⁡ z ∈ Z inf ⁡ w ∈ W f ( w , z ) ≤ inf ⁡ w ∈ W sup ⁡ z ∈ Z f ( w , z ) \underset{z\in Z}{\sup}\underset{w\in W}{\inf} f(w,z)\leq\underset{w\in W}{\inf}\underset{z\in Z}{\sup} f(w,z) zZsupwWinff(w,z)wWinfzZsupf(w,z)

  • 若上式等号成立,则称 f f f(以及 W W W Z Z Z)满足强极大极小性质或者鞍点性质

  • 鞍点:若 ∀ w ∈ W , z ∈ Z , f ( w ~ , z ) ≤ f ( w ~ , z ~ ) ≤ f ( w , z ~ ) \forall w\in W,z\in Z,f(\widetilde w,z)\leq f(\widetilde w,\widetilde z)\leq f(w,\widetilde z) wW,zZ,f(w ,z)f(w ,z )f(w,z ),则称 w ~ ∈ W , z ~ ∈ Z \widetilde w\in W,\widetilde z\in Z w W,z Z是函数 f f f的鞍点

  • 如果 x ∗ x^* x ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ,υ)分别是原问题和对偶问题的最优解且强对偶性成立,则它们是拉格朗日函数的一个鞍点

  • 反过来,如果 x ∗ x^* x ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ,υ)是拉格朗日函数 L ( x , λ , υ ) L(x,\lambda,\upsilon) L(x,λ,υ)的一个鞍点,那么 x ∗ x^* x是原问题的最优解, ( λ ∗ , υ ∗ ) (\lambda^*,\upsilon^*) (λ,υ)是对偶问题的最优解,且对偶间隙为零。

支撑向量机:Support Vector Machines(SVM)

参考文章支持向量机(SVM)——原理篇 - 知乎 (zhihu.com)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值