最优性条件

最优性条件

无约束问题

一阶必要条件

f : D ⊂ R n → R f:D\subset \mathbb{R}^n\to R f:DRnR在开集 D D D上连续可微,若 x ∗ ∈ D x^* \in D xD是局部极小点,则 ∇ f ( x ∗ ) = 0 \nabla f(x^*)=0 f(x)=0

证明:设 x ∗ x^* x是一个局部极小点,考虑序列 x k = x ∗ − λ k ∇ f ( x ∗ ) , k → ∞ , λ k → 0 x_k=x^*-\lambda_k \nabla f(x^*),k\to \infty,\lambda_k\to 0 xk=xλkf(x),k,λk0

利用一阶Taylor展开式,对于充分大的 k k k,有
0 ⩽ f ( x k ) − f ( x ∗ ) = − λ k ∇ f T ( ξ k ) ∇ f ( x ∗ ) 0\leqslant f(x_k)-f(x^*)=-\lambda_k \nabla f^T(\xi_k) \nabla f(x^*) 0f(xk)f(x)=λkfT(ξk)f(x)
ξ k \xi_k ξk x k x_k xk x ∗ x^* x的凸组合,两边同时除以 λ k \lambda_k λk,并取极限,由于 f ∈ C 1 f\in C^1 fC1,故有 0 ⩽ − ∥ ∇ f ( x ∗ ) ∥ 2 0\leqslant-\|{\nabla f(x^*)\|}^2 0f(x)2,显然,仅当 ∇ f ( x ∗ ) = 0 \nabla f(x^*)=0 f(x)=0时,上式成立。

二阶必要条件

f : D ⊂ R n → R f:D\subset \mathbb{R}^n\to R f:DRnR在开集 D D D上连续可微,若 x ∗ ∈ D x^* \in D xD是局部极小点,则 ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ ) ⩾ 0 \nabla f(x^*)=0,\nabla^2 f(x^*)\geqslant 0 f(x)=0,2f(x)0

证明:设 x ∗ x^* x是一个局部极小点,考虑序列 x k = x ∗ − λ k d , k → ∞ , λ k → 0 x_k=x^*-\lambda_k d,k\to \infty,\lambda_k\to 0 xk=xλkd,k,λk0

由于 f ∈ C 2 f\in C^2 fC2 ∇ f ( x ∗ ) = 0 \nabla f(x^*)=0 f(x)=0(上个定理已证明),故利用二阶Taylor展开式,对于充分大的 k k k,有
0 ⩽ f ( x k ) − f ( x ∗ ) = − 1 2 λ k 2 d T ∇ f T ( ξ k ) d 0\leqslant f(x_k)-f(x^*)=-\dfrac{1}{2}\lambda_k^2 d^T\nabla f^T(\xi_k)d 0f(xk)f(x)=21λk2dTfT(ξk)d
ξ k \xi_k ξk x k x_k xk x ∗ x^* x的凸组合,两边同时除以 1 2 λ k 2 \dfrac{1}{2}\lambda_k^2 21λk2,并取极限,由于 f ∈ C 2 f\in C^2 fC2,故有 d T ∇ f T ( x ∗ ) d ⩾ 0 d^T\nabla f^T(x^*)d\geqslant 0 dTfT(x)d0

二阶充分条件

f : D ⊂ R n → R f:D\subset \mathbb{R}^n\to R f:DRnR在开集 D D D上二阶连续可微,则 x ∗ ∈ D x^* \in D xD是是 f f f的一个严格局部极小点的充分条件是 ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ ) \nabla f(x^*)=0,\nabla^2 f(x^*) f(x)=0,2f(x)正定

证明:由于 ∇ f ( x ∗ ) = 0 \nabla f(x^*)=0 f(x)=0,则由Taylor展开,对任意向量 d d d,
f ( x ∗ + λ d ) = f ( x ∗ ) + 1 2 λ 2 d T ∇ 2 f ( x ∗ + θ λ d ) d f(x^*+\lambda d)=f(x^*)+\dfrac{1}{2}\lambda^2 d^T \nabla^2 f(x^*+\theta \lambda d)d f(x+λd)=f(x)+21λ2dT2f(x+θλd)d
由于 ∇ 2 f ( x ) \nabla^2 f(x) 2f(x)的连续性, d T ∇ 2 f ( x ) d d^T\nabla^2 f(x) d dT2f(x)d也连续, ∃ δ > 0 , x ∈ U δ ( x ∗ ) , d T ∇ 2 f ( x ) d > 0 \exists \delta>0,x\in U_{\delta}(x^*),d^T\nabla^2 f(x) d>0 δ>0,xUδ(x),dT2f(x)d>0

故可选择 λ \lambda λ,使得 x ∗ + λ d ∈ U δ ( x ∗ ) x^*+\lambda d\in U_{\delta}(x^*) x+λdUδ(x),从而 d T ∇ 2 f ( x ∗ + θ λ d ) d > 0 d^T \nabla^2 f(x^*+\theta \lambda d)d>0 dT2f(x+θλd)d>0,则 f ( x ∗ + λ d ) > f ( x ∗ ) f(x^*+\lambda d)>f(x^*) f(x+λd)>f(x),即 x ∗ x^* x是严格局部极小点。

有约束问题

下降方向

定义 f ( x ) f ( x ) f(x)为定义在空间 R n \mathbb{R}^n Rn 上的连续函数, 点 x ∈ R n x∈\mathbb{R}^n xRn , 若对于方向 d ∈ R n d∈\mathbb{R}^n dRn 存在数 δ > 0 δ> 0 δ>0使
f ( x + λ d ) < f ( x ) , ∀ λ ∈ ( 0 , δ ) f(x+\lambda d)<f(x),\forall \lambda\in(0,\delta) f(x+λd)<f(x),λ(0,δ)
成立,则称 d d d f ( x ) f(x) f(x) x x x处的一个下降方向。

定理 设函数 f ( x ) f( x ) f(x)在点 x x x处连续可微, 如存在非零向量 d ∈ R n d∈ \mathbb{R}^n dRn 使 ∇ f ( x ) T d < 0 \nabla f(x)^Td<0 f(x)Td<0成立,则 d d d f ( x ) f(x) f(x)在点 x a xa xa处的一个下降方向 .在点 x ‾ \overline{x} x处的所有下降方向的全体记为 D ( x ‾ ) D( \overline{x} ) D(x) .

证明: 对于充分小的 λ > 0 \lambda> 0 λ>0,将 f ( x ‾ + λ d ) f(\overline{x}+\lambda d) f(x+λd)在点 x ‾ \overline{x} x处展开有 f ( x ‾ + λ d ) = f ( x ‾ ) + λ ∇ f ( x ‾ ) T d + o ( ∥ λ d ∥ ) f(\overline{x}+\lambda d)=f(\overline{x})+\lambda\nabla f(\overline{x})^Td+o(\Vert{\lambda d}\Vert) f(x+λd)=f(x)+λf(x)Td+o(λd)

λ > 0 \lambda>0 λ>0以及 ∇ f ( x ) T d < 0 \nabla f ( x )^T d < 0 f(x)Td<0 知,存在 δ > 0 δ> 0 δ>0, 使对任意 λ ∈ ( 0 , δ ) \lambda∈ (0,δ) λ(0,δ) λ ∇ f ( x ‾ ) T d + o ( ∥ λ d ∥ ) < 0 \lambda\nabla f(\overline{x})^Td+o(\Vert{\lambda d}\Vert)<0 λf(x)Td+o(λd)<0

结合这两式有 f ( x ‾ + λ d ) < f ( x ‾ ) , ∀ λ ∈ ( 0 , δ ) f(\overline{x}+\lambda d)<f(\overline{x}),\forall \lambda\in(0,\delta) f(x+λd)<f(x),λ(0,δ),这就证明了 d d d f ( x ) f(x) f(x)的下降方向

可行方向 设优化问题的可行域为 X ⊆ R n X\subseteq \mathbb{R}^n XRn,点 x ‾ ∈ X \overline{x}\in X xX为一可行点, d ∈ R n d∈\mathbb{R}^n dRn, 若对 x ‾ \overline{x} x处的某一搜索方向 d d d,存在实数 δ > 0 \delta>0 δ>0,使得任意步长 λ ∈ ( 0 , δ ) \lambda\in(0,\delta) λ(0,δ)都满足 x ‾ + λ d ∈ X \overline{x} +\lambda d\in X x+λdX成立, 则称 d d d 是在 x ‾ \overline{x} x 处的一个可行方向(Feasible Direction).在点 x ‾ \overline{x} x的所有可行方向的全体记为 F ( x ‾ ) F( \overline{x} ) F(x) .这是一个锥,称为 F F F x ∗ x ^ * x处的可行方向锥。
min ⁡   f ( x ) , s . t . { g i ( x ) ⩽ 0 , i = 1 , 2 , ⋯   , m h i ( x ) = 0 , i = 1 , 2 , ⋯   , l x ∈ X \min\ f(x),s.t.\begin{cases}g_i(x)\leqslant 0,i=1,2,\cdots,m\\h_i(x)=0,i=1,2,\cdots,l\\ x\in X\end{cases} min f(x),s.t. gi(x)0,i=1,2,,mhi(x)=0,i=1,2,,lxX

定义 E = { 1 , 𝟐 , ⋯ , 𝒍 } , 𝑰 = { 𝟏 , 𝟐 , ⋯ , 𝒎 } , 𝑰 ( 𝒙 ) = { 𝒊 ∣ 𝒈 𝒊 ( 𝒙 ) = 𝟎 , 𝒊 ∈ [ 𝟏 , 𝒎 ] } E = \{1, 𝟐, ⋯ ,𝒍 \}, 𝑰 =\{𝟏, 𝟐, ⋯ , 𝒎\},𝑰(𝒙) =\{𝒊|𝒈_𝒊(𝒙)=𝟎,𝒊∈[𝟏,𝒎]\} E={1,2,,l},I={1,2,,m},I(x)={igi(x)=0,i[1,m]}, 对任意 𝒙 ∈ 𝑹 𝒏 𝒙 ∈𝑹^𝒏 xRn ,集合 𝑨 ( 𝒙 ) = 𝑬 ∪ 𝑰 ( 𝒙 ) 𝑨(𝒙)= 𝑬∪𝑰(𝒙) A(x)=EI(x)称为积极约束, 𝒈 𝒊 ( 𝒙 ) ( 𝒊 ∉ 𝑨 ( 𝒙 ) 𝒈_𝒊(𝒙)(𝒊∉𝑨(𝒙) gi(x)(i/A(x)称为在𝒙点 的非积极约束,有时约束也用 𝒄 𝒊 ( 𝒙 ) 𝒄_𝒊(𝒙) ci(x)表示

线性可行方向 x ∗ ∈ X , d ∈ R n x^*\in X,d\in \mathbb{R}^n xX,dRn ,若 d T ∇ h i ( x ∗ ) = 0 , d T ∇ g i ( x ∗ ) ⩽ 0 , i ∈ I ( x ∗ ) d^T\nabla h_i(x^*)=0, d^T\nabla g_i(x^*)\leqslant 0,i\in I(x^*) dThi(x)=0,dTgi(x)0,iI(x),则称𝒅是𝑿在 x ∗ x^* x处的线性化可行方向(Linearized feasible direction)。所有在 x ∗ x^* x处的线性化可行方向记为 𝑳 𝑭 𝑫 ( 𝒙 ∗ , 𝑿 ) 𝑳𝑭𝑫(𝒙^*,𝑿) LFD(x,X)

序列可行方向 存在 d k ( k = 1 , 2 , ⋯   ) d_k( k=1,2,\cdots ) dk(k=1,2,) δ k ( k = 1 , 2 , ⋯   ) \delta_k(k=1,2,\cdots) δk(k=1,2,),使得 x ∗ + δ k d k ∈ X , ∀ k , d k → d , δ k → 0 x^*+\delta_kd_k\in X ,\forall k,d_k\to d,\delta_k\to 0 x+δkdkX,k,dkd,δk0, 则极限方向𝒅称为SFD,所有SFD的集合称为 S F D ( x ∗ , X ) SFD(x^*,X) SFD(x,X), 若SFD 还包含0向量,则称 T X ( x ∗ ) = S F D ( x ∗ , X ) ∪ { 0 } T_X(x^*)=SFD(x^*,X)\cup\{0\} TX(x)=SFD(x,X){0}为𝑿在 x ∗ x^* x点的切锥 (Tangent cone)

引理:令 x ∗ ∈ X x^*\in X xX,若所有的约束函数在 x ∗ x^* x处都可微,则 F D ( x ∗ , X ) ⊆ S F D ( x ∗ , X ) ⊆ L F D ( x ∗ , X ) FD(x^*,X)\subseteq SFD(x^*,X)\subseteq LFD(x^*,X) FD(x,X)SFD(x,X)LFD(x,X)

证明:只需证明 ∀ d ∈ F D ( x ∗ , X )    ⟹    d ∈ S F D ( x ∗ , X )    ⟹    d ∈ L F D ( x ∗ , X ) \forall d\in FD(x^*,X)\implies d\in SFD(x^*,X)\implies d\in LFD(x^*,X) dFD(x,X)dSFD(x,X)dLFD(x,X)

∀ d ∈ F D ( x ∗ , X ) , ∃ δ > 0   s . t .   x ∗ + λ d ∈ X , ∀ λ ∈ [ 0 , δ ] \forall d\in FD(x^*,X),\exists \delta>0\ s.t.\ x^*+\lambda d\in X,\forall \lambda \in[0,\delta] dFD(x,X),δ>0 s.t. x+λdX,λ[0,δ],令 d k = d , δ k = δ 2 k ( k = 1 , 2 , ⋯   ) d_k=d,\delta_k=\dfrac{\delta}{2^k}(k=1,2,\cdots) dk=d,δk=2kδ(k=1,2,),则显然有 x ∗ + δ k d k ∈ X , ∀ k a n d   d k → d , δ k → 0 x^*+\delta_kd_k\in X ,\forall k \quad and\ d_k\to d,\delta_k\to 0 x+δkdkX,kand dkd,δk0,所以 d ∈ S F D ( x ∗ , X ) d\in SFD(x^*,X) dSFD(x,X)。由 d d d的任意性知 F D ( x ∗ , X ) ⊆ S F D ( x ∗ , X ) FD(x^*,X)\subseteq SFD(x^*,X) FD(x,X)SFD(x,X)

∀ d ∈ S F D ( x ∗ , X ) \forall d\in SFD(x^*,X) dSFD(x,X),如果 d = 0 d=0 d=0,显然 d ∈ L F D ( x ∗ , X ) d\in LFD(x^*,X) dLFD(x,X)。假定 d ≠ 0 d\neq 0 d=0,由定义,存在序列 d k ( k = 1 , 2 , ⋯   ) d_k(k=1,2,\cdots) dk(k=1,2,) δ k > 0 ( k = 1 , 2 , ⋯   ) \delta_k>0(k=1,2,\cdots) δk>0(k=1,2,)使得 x ∗ + δ k d k ∈ X , ∀ k x^*+\delta_kd_k\in X ,\forall k x+δkdkX,k成立且 d k → d ≠ 0 d_k\to d\neq 0 dkd=0 δ k → 0 \delta_k\to 0 δk0
0 = h i ( x ∗ + δ k d k ) = δ k d k T ∇ h i ( x ∗ ) + o ( ∥ δ k d k ∥ ) , i ∈ E 0 ⩾ g i ( x ∗ + δ k d k ) = δ k d k T ∇ g i ( x ∗ ) + o ( ∥ δ k d k ∥ ) , i ∈ I ( x ∗ ) 0=h_i(x^*+\delta_k d_k)=\delta_k d^T_k \nabla h_i(x^*)+o(\Vert{\delta_k d_k}\Vert),i\in E\\ 0\geqslant g_i(x^*+\delta_k d_k)=\delta_k d^T_k \nabla g_i(x^*)+o(\Vert{\delta_k d_k}\Vert),i\in I(x^*) 0=hi(x+δkdk)=δkdkThi(x)+o(δkdk),iE0gi(x+δkdk)=δkdkTgi(x)+o(δkdk),iI(x)
在上两式的两端同除 δ k \delta_k δk,然后令 k → ∞ , δ k → 0 k\to \infty,\delta_k\to 0 k,δk0,得
d T ∇ h i ( x ∗ ) = 0 , i ∈ E d T ∇ g i ( x ∗ ) ⩽ 0 , i ∈ I ( x ∗ ) d^T\nabla h_i(x^*)=0,i\in E\\ d^T \nabla g_i(x^*)\leqslant 0,i\in I(x^*) dThi(x)=0,iEdTgi(x)0,iI(x)
故有 S F D ( x ∗ , X ) ⊆ L F D ( x ∗ , X ) SFD(x^*,X)\subseteq LFD(x^*,X) SFD(x,X)LFD(x,X)

约束规范
KT约束规范: S F D = L F D SFD=LFD SFD=LFD
约束规范条件
  • LFD与SFD相似的条件
  • 大多数约束规范确保这两个集合相等
条件1

( 1 ) ∇ h i ( x ∗ ) ( i ∈ E ) 线性无关 ( 2 ) 集合 S ∗ = { d ∣ d T ∇ h i ( x ∗ ) = 0 , i ∈ E ; d T ∇ g i ( x ∗ ) < 0 , i ∈ I ( x ∗ ) } 非空 \begin{array}{l} (1) \nabla h_i(x^*)(i\in E)线性无关\\ (2) 集合S^*=\{d|d^T\nabla h_i(x^*)=0,i\in E;d^T\nabla g_i(x^*)<0,i\in I(x^*) \}非空 \end{array} (1)hi(x)(iE)线性无关(2)集合S={ddThi(x)=0,iE;dTgi(x)<0,iI(x)}非空

证明:对任给非零向量 d ∈ S ∗ d\in S^* dS,必存在 d i d_i di组成 s p a n { ∇ h 1 ( x ∗ ) , ⋯   , ∇ h l ( x ∗ ) , d } {\rm{span}} \{\nabla h_1(x^*),\cdots,\nabla h_l(x^*),d\} span{h1(x),,hl(x),d}的法空间的一组正交基。

一阶最优性条件

必要性条件

定义 D = D ( x ) = { d T ∇ f ( x ) < 0 , d ∈ R n } D=D(x)=\{d^T\nabla f(x) <0,d\in \mathbb{R}^n\} D=D(x)={dTf(x)<0,dRn} f ( x ) f(x) f(x) x x x处的下/+。降方向集合,其中 d d d称为 x x x处的下降方向。

正则性假设 S F D ( x ∗ ) ∩ D ( x ∗ ) = L F D ( x ∗ ) ∩ D ( x ∗ ) SFD(x^*)\cap D(x^*)=LFD(x^*)\cap D(x^*) SFD(x)D(x)=LFD(x)D(x)

正则性假设只考虑序列可行方向集合和线性可行方向集合中下降方向的部分,这个条件比KT约束规范条件弱。

最优点 x ∗ x^* x满足该点无可行下降方向!用线性可行方向来表达则为:
L F D ( x ∗ ) ∩ D ( x ∗ ) = { d ∣ d T ∇ f ( x ∗ ) < 0 d T ∇ c i ( x ∗ ) = 0 , i ∈ E d T ∇ c i ( x ∗ ) ≤ 0 , i ∈ I ( x ∗ ) } = ∅ LFD(x^*)\cap D(x^*)=\left \{ d\left| \begin{array}{c} d^T\nabla f(x^*)<0\\ d^T \nabla c_i(x^*)=0,i\in E\\ d^T \nabla c_i(x^*)\leq 0,i\in I(x^*) \end{array}\right. \right \}=\varnothing LFD(x)D(x)= d dTf(x)<0dTci(x)=0,iEdTci(x)0,iI(x) =

一阶必要条件

x ∗ x^* x是最优问题的一个局部最优解, 函数 f ( x ) f(x) f(x)连续可微, 则有 S F D ( x ∗ ) ∩ D ( x ∗ ) = ∅ SFD(x^*)\cap D(x^*)=\varnothing SFD(x)D(x)=成立

证明:对于任意的可行方向 d ∈ F ( x ∗ ) d\in F( x^* ) dF(x) , 我们证明 d ∉ D ( x ∗ ) d\notin D( x^* ) d/D(x) .对可行方向 d ∈ F ( x ∗ ) d\in F( x^* ) dF(x) , 存在可行点序列 x ( k ) = x ∗ + λ k d x^{(k)} = x^*+\lambda_k d x(k)=x+λkd 收敛于 x ∗ x^* x , 其中 d ≠ 0 , λ k > 0 d ≠0,\lambda_k > 0 d=0,λk>0, 且 k → ∞ , λ k → 0 k\to \infty,\lambda_k\to 0 k,λk0 .由泰勒展开式有
f ( x ( k ) ) = f ( x ∗ + λ k d ( k ) ) = f ( x ∗ ) + λ k ∇ f ( x ∗ ) T d ( k ) + o ( ∥ λ k d ( k ) ∥ ) f(x^{(k)})=f(x^*+\lambda_k d^{(k)})=f(x^*)+\lambda_k\nabla f(x^*)^Td^{(k)}+o(\Vert{\lambda_k d^{(k)}}\Vert) f(x(k))=f(x+λkd(k))=f(x)+λkf(x)Td(k)+o(λkd(k))
由于 x ∗ x^* x是局部最优解,对充分大的k有 f ( x ( k ) ) ⩾ f ( x ∗ ) f(x^{(k)})\geqslant f(x^*) f(x(k))f(x),由此得
λ k ∇ f ( x ∗ ) T d ( k ) + o ( ∥ λ k d ( k ) ∥ ) ⩾ 0 \lambda_k\nabla f(x^*)^Td^{(k)}+o(\Vert{\lambda_k d^{(k)}}\Vert)\geqslant 0 λkf(x)Td(k)+o(λkd(k))0
在上式两端除以 λ k \lambda_k λk,再令 k → ∞ k\to \infty k取极限得 ∇ f ( x ∗ ) T d ⩾ 0 \nabla f(x^*)^Td\geqslant 0 f(x)Td0,这就证明了 d ∉ D ( x ∗ ) d\notin D(x^*) d/D(x)

引理1 x ∗ ∈ X x^∗ \in X xX是问题P的局部极小点,如果目标函数和约束函数在 x ∗ x^∗ x点都可微,则必有 d T ∇ f ( x ∗ ) ≥ 0 , ∀ d ∈ S F D ( x ∗ , X ) d^T\nabla f(x^*)\geq 0,\forall d\in SFD(x^*,X) dTf(x)0,dSFD(x,X)

证明:由定义, ∀ d ∈ S F D ( x ∗ , X ) , ∃ δ k > 0 , d k , x ∗ + δ k d k ∈ X \forall d\in SFD(x^*,X),\exists \delta_k>0,d_k,x^*+\delta_k d_k\in X dSFD(x,X),δk>0,dk,x+δkdkX,且 δ k → 0 , d k → d \delta_k\to 0,d_k\to d δk0,dkd,因而对充分大的 k k k f ( x ∗ ) ≤ f ( x ∗ + δ k d k ) = f ( x ∗ ) + δ k d k T ∇ f ( x ∗ ) + o ( δ k ) f(x^*)\leq f(x^*+\delta_k d_k)=f(x^*)+\delta_k d_k^T\nabla f(x^*)+o(\delta_k) f(x)f(x+δkdk)=f(x)+δkdkTf(x)+o(δk) ,从而立即可得 d T ∇ f ( x ∗ ) ≥ 0 d^T \nabla f(x^*)\geq 0 dTf(x)0

Farkas引理

给定任意n维向量 b 1 , b 2 , ⋯   , b m b_1,b_2,\cdots,b_m b1,b2,,bm a 0 a_0 a0,则集合
F = { d ∣ d T a 0 < 0 , d T b i ⩽ 0 , i = 1 , ⋯   , m } F=\{d|d^Ta_0<0,d^Tb_i\leqslant 0,i=1,\cdots,m\} F={ddTa0<0,dTbi0,i=1,,m}
为空集的充要条件是,存在 λ i ⩾ 0 ( i = 1 , ⋯   , m ) \lambda_i \geqslant 0(i=1,\cdots,m) λi0(i=1,,m)使得 a 0 + ∑ i = 1 m λ i b i = 0 a_0+\sum\limits_{i=1}^m \lambda_i b_i=0 a0+i=1mλibi=0

证明:

充分性:设 λ i ⩾ 0 ( i = 1 , ⋯   , m ) \lambda_i \geqslant 0(i=1,\cdots,m) λi0(i=1,,m).对满足 d T b i ⩽ 0 , i = 1 , ⋯   , m d^Tb_i\leqslant 0,i=1,\cdots,m dTbi0,i=1,,m d d d,有 d T a 0 = − ∑ i = 1 m λ i d T b i ⩾ 0 d^Ta_0=-\sum\limits_{i=1}^m \lambda_i d^Tb_i\geqslant 0 dTa0=i=1mλidTbi0,故 F F F为空集

必要性:设 S = { a ∣ a = − ∑ i = 1 m λ i b i , λ i ⩾ 0 ( i = 1 , ⋯   , m ) } S=\{a|a=-\sum\limits_{i=1}^m \lambda_i b_i,\lambda_i\geqslant 0(i=1,\cdots,m)\} S={aa=i=1mλibi,λi0(i=1,,m)}

假设 a 0 ∉ S a_0\notin S a0/S S S S为一凸锥,由凸分离定理可知 ∃ d ≠ 0 , s . t .   d T a 0 < α < d T a , ∀ a ∈ S \exists d\neq 0,s.t.\ d^T a_0<\alpha<d^T a,\forall a\in S d=0,s.t. dTa0<α<dTa,aS,因为 0 ∈ S 0\in S 0S,故 d T a 0 < 0 d^Ta_0<0 dTa0<0

∀ λ > 0 \forall \lambda>0 λ>0,均有 − λ b i ∈ S -\lambda b_i\in S λbiS,故 − λ d T b i > α    ⟹    d T b i < − α λ -\lambda d^Tb_i>\alpha\implies d^Tb_i<-\dfrac{\alpha}{\lambda} λdTbi>αdTbi<λα,令 λ → + ∞    ⟹    d T b i ⩽ 0 \lambda \to +\infty\implies d^Tb_i\leqslant 0 λ+dTbi0

d ∈ F d\in F dF F F F不为空集。

推论

l , m l,m l,m是两个非负整数, a 0 , a i ( i = 1 , ⋯   , l ) a_0,a_i(i=1,\cdots,l) a0,ai(i=1,,l) b i ( i = 1 , ⋯   , m ) b_i(i=1,\cdots,m) bi(i=1,,m) R n \mathbb{R}^n Rn中的向量 ,则线性方程组和不等式组:
d T a i = 0 , i = 1 , ⋯   , l ( 1 ) d T b i ⩽ 0 , i = 1 , ⋯   , m ( 2 ) d T a 0 < 0 ( 3 ) \begin{array}{l} d^Ta_i=0,i=1,\cdots,l && (1)\\ d^Tb_i\leqslant 0,i=1,\cdots,m && (2)\\ d^Ta_0<0 && (3) \end{array} dTai=0,i=1,,ldTbi0,i=1,,mdTa0<0(1)(2)(3)
无解当且仅当存在实数 λ i ( i = 1 , ⋯   , l ) \lambda_i(i=1,\cdots,l) λi(i=1,,l)和非负实数 μ i ( i = 1 , ⋯   , m ) \mu _i(i=1,\cdots,m) μi(i=1,,m)使得
a 0 + ∑ i = 1 l λ i a i + ∑ i = 1 l ′ μ i b i = 0 ( 4 ) a_0+\sum_{i=1}^{l}\lambda_i a_i+\sum_{i=1}^{l'}\mu_i b_i=0 \qquad (4) a0+i=1lλiai+i=1lμibi=0(4)
证明一: d T a i = 0 , i = 1 , ⋯   , l d^Ta_i=0,i=1,\cdots,l dTai=0,i=1,,l可以写成 d T a i ⩽ 0 , − d T a i ⩽ 0 , i = 1 , ⋯   , l d^Ta_i\leqslant 0,-d^Ta_i\leqslant 0,i=1,\cdots,l dTai0,dTai0,i=1,,l

利用Farkas引理,存在 λ i + ⩾ 0 , λ i − ⩾ 0 , μ i ⩾ 0 \lambda_i^+\geqslant 0,\lambda_i^-\geqslant 0,\mu_i\geqslant 0 λi+0,λi0,μi0使得
a 0 + ∑ i = 1 l λ i + a i − ∑ i = 1 l λ i − a i + ∑ i = 1 m μ i b i = 0 a 0 + ∑ i = 1 l ( λ i + − λ i − ) a i + ∑ i = 1 m μ i b i = 0 a 0 + ∑ i = 1 l λ i a i + ∑ i = 1 m μ i b i = 0 a_0+\sum_{i=1}^{l}\lambda_i^+ a_i - \sum_{i=1}^{l}\lambda_i^- a_i +\sum_{i=1}^{m}\mu_i b_i=0\\ a_0+\sum_{i=1}^{l}(\lambda_i^+-\lambda_i^-) a_i +\sum_{i=1}^{m}\mu_i b_i=0\\ a_0+\sum_{i=1}^{l}\lambda_i a_i +\sum_{i=1}^{m}\mu_i b_i=0 a0+i=1lλi+aii=1lλiai+i=1mμibi=0a0+i=1l(λi+λi)ai+i=1mμibi=0a0+i=1lλiai+i=1mμibi=0
证明二:

充分性:假设 a 0 + ∑ i = 1 l λ i a i + ∑ i = 1 m μ i b i = 0 a_0+\sum\limits_{i=1}^{l}\lambda_i a_i+\sum\limits_{i=1}^{m}\mu_i b_i=0 a0+i=1lλiai+i=1mμibi=0成立,且 μ i ⩾ 0 ( i = 1 , ⋯   , l ′ ) \mu_i \geqslant 0(i=1,\cdots,l') μi0(i=1,,l),则对任何 d d d满足式(1)(2)都有
d T a 0 = − ∑ i = 1 l λ i d T a i − ∑ i = 1 m μ i d T b i ⩾ 0 d^T a_0=-\sum_{i=1}^{l}\lambda_i d^Ta_i-\sum_{i=1}^{m}\mu_i d^Tb_i\geqslant 0 dTa0=i=1lλidTaii=1mμidTbi0
从而式(3)不成立,(1)(2)(3)联立无解

必要性:假设不存在实数 λ i ( i = 1 , ⋯   , l ) \lambda_i(i=1,\cdots,l) λi(i=1,,l)和非负实数 μ i ( i = 1 , ⋯   , m ) \mu _i(i=1,\cdots,m) μi(i=1,,m)使得(4)成立。定义集合
S = { a ∣ a = − ∑ i = 1 l λ i a i − ∑ i = 1 m μ i b i , λ i ∈ R , μ i ⩾ 0 } S=\{ a\mid a=-\sum_{i=1}^{l}\lambda_i a_i-\sum_{i=1}^{m}\mu_i b_i,\lambda_i\in R,\mu_i\geqslant 0\} S={aa=i=1lλiaii=1mμibi,λiR,μi0}
显然 S S S R n \mathbb{R}^n Rn中的闭凸锥,由于 a 0 ∉ S a_0\notin S a0/S,根据凸分离定理必存在 d ∈ R n d\in \mathbb{R}^n dRn ,使得 d T a 0 < α < d T a , ∀ a ∈ S d^T a_0<\alpha<d^Ta,\forall a\in S dTa0<α<dTa,aS,其中𝜶是某一常数。由于 0 ∈ S 0\in S 0S,所以 d T a 0 < 0 d^T a_0<0 dTa0<0

∀ μ > 0 \forall \mu>0 μ>0,均有 − μ b i ∈ S -\mu b_i\in S μbiS,从而 − μ d T b i > α , ∀ μ > 0 -\mu d^T b_i>\alpha,\forall \mu>0 μdTbi>α,μ>0,不等式两边同除 μ \mu μ,然后令 μ → + ∞ \mu \to +\infty μ+ ,即得到 d T b i ⩽ 0 d^T b_i\leqslant 0 dTbi0

同样的, ∀ λ > 0 \forall\lambda>0 λ>0均有 λ a i ∈ S , − λ a i ∈ S \lambda a_i\in S,-\lambda a_i\in S λaiS,λaiS,所以可证 d T a i ⩾ 0 d^T a_i\geqslant 0 dTai0 d T a i ⩽ 0 d^T a_i\leqslant 0 dTai0,故 d T a i = 0 d^T a_i= 0 dTai=0

所以,向量 d d d是(1)(2)(3)的一个解。

上面的引理说明线性系统(1)(2)(3)和线性表达式(4)必有且仅有一个成立,故该引理也被称为择一性引理。

KKT定理

x ∗ x^* x是一个局部极小点,如果 S F D ( x ∗ , X ) = L F D ( x ∗ , X ) SFD(x^*,X)= LFD(x^*,X) SFD(x,X)=LFD(x,X),则必存在 λ i ∗ , μ i ∗ \lambda_i^*,\mu_i^* λi,μi使得
∇ x L ( x ∗ , λ ∗ ) = 0    ⟹    ∇ f ( x ∗ ) + ∑ i = 1 l λ i ∗ ∇ h i ( x ∗ ) + ∑ i = 1 m μ i ∗ ∇ g i ( x ∗ ) = 0 μ i ∗ ⩾ 0 , i ∈ I μ i ∗ g i ( x ∗ ) = 0 , i ∈ I h i ( x ∗ ) = 0 \nabla_xL(x^*,\lambda^*)=0\implies\nabla f(x^*)+\sum_{i=1}^l\lambda^*_i\nabla h_i(x^*)+\sum_{i=1}^{m}\mu_i^*\nabla g_i(x^*)=0\\ \mu_i^*\geqslant 0,i\in I\\ \mu_i^*g_i(x^*)=0,i\in I\\ h_i(x^*)=0 xL(x,λ)=0f(x)+i=1lλihi(x)+i=1mμigi(x)=0μi0,iIμigi(x)=0,iIhi(x)=0
证明:由定理1、 S F D = L F D SFD=LFD SFD=LFD,可知如下线性系统无解
d T ∇ h i ( x ∗ ) = 0 , i ∈ E d T ∇ g i ( x ∗ ) ⩽ 0 , i ∈ I ( x ∗ ) d T ∇ f ( x ∗ ) < 0 d^T\nabla h_i(x^*)=0,i\in E\\ d^T\nabla g_i(x^*)\leqslant 0,i\in I(x^*)\\ d^T\nabla f(x^*)<0 dThi(x)=0,iEdTgi(x)0,iI(x)dTf(x)<0
利用Farkas引理知存在 λ i ∗ ∈ R ( i ∈ E ) , μ i ∗ ⩾ 0 ( i ∈ I ( x ∗ ) ) \lambda_i^*\in R(i\in E),\mu_i^*\geqslant 0(i\in I(x^*)) λiR(iE),μi0(iI(x))使得
∇ f ( x ∗ ) + ∑ i ∈ E λ i ∗ ∇ h i ( x ∗ ) + ∑ i ∈ I ( x ∗ ) μ i ∗ ∇ g i ( x ∗ ) = 0 \nabla f(x^*)+\sum_{i\in E}\lambda^*_i\nabla h_i(x^*)+\sum_{i\in I(x^*)}\mu_i^*\nabla g_i(x^*)=0 f(x)+iEλihi(x)+iI(x)μigi(x)=0

对于起作用不等式约束: g i ( x ∗ ) = 0 , i ∈ I ( x ∗ ) g_i(x^*)=0,i\in I(x^*) gi(x)=0,iI(x)

λ i ∗ = 0 , i ∈ I \ I ( x ∗ ) \lambda_i^*=0,i\in I\backslash I(x^*) λi=0,iI\I(x)便得到 λ i ∗ g i ( x ∗ ) = 0 , i ∈ I \lambda_i^* g_i(x^*)=0,i\in I λigi(x)=0,iI
∇ f ( x ∗ ) + ∑ i ∈ E λ i ∗ ∇ h i ( x ∗ ) + ∑ i ∈ I μ i ∗ ∇ g i ( x ∗ ) = 0 λ i ∗ g i ( x ∗ ) = 0 , i ∈ I \nabla f(x^*)+\sum_{i\in E}\lambda^*_i\nabla h_i(x^*)+\sum_{i\in I}\mu_i^*\nabla g_i(x^*)=0\\ \lambda_i^* g_i(x^*)=0,i\in I f(x)+iEλihi(x)+iIμigi(x)=0λigi(x)=0,iI

如果问题是凸规划,则为充分必要条件

充分性条件

x ∗ ∈ X x^*\in X xX,如果目标函数和约束函数在 x ∗ x^* x点都可微,且
d T ∇ f ( x ∗ ) > 0 , ∀ 0 ≠ d ∈ S F D ( x ∗ , X ) (1) d^T\nabla f(x^*)>0,\forall 0\neq d \in SFD(x^*,X)\tag{1} dTf(x)>0,∀0=dSFD(x,X)(1)
x ∗ x^* x是问题P的严格局部极小点.注意这里𝑳𝑭𝑫 ← 𝑺𝑭𝑫也成立。

证明:假定(1)成立,如果 x ∗ x^* x不是局部严格极小点,则存在一个序列 { x k } ∈ X \{x_k\}\in X {xk}X使得 f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)f(x)

且有 x k → x ∗ , x k ≠ x ∗ ( k = 1 , ⋯   ) x_k\to x^*,x_k\neq x^*(k=1,\cdots) xkx,xk=x(k=1,),定义 d k = x k − x ∗ ∥ x k − x ∗ ∥ 2 d_k=\dfrac{x_k-x^*}{\Vert{x_k-x^*}\Vert_2} dk=xkx2xkx,由于 { ∥ d k ∥ } \{\Vert{d_k}\Vert\} {dk}有界,故 { d k } \{d_k\} {dk}有收敛子列,不妨设该子列为 { d k } \{d_k \} {dk},且 d k → d d_k\to d dkd。由可行方向的定义知 d ∈ S F D ( x ∗ , X ) d\in SFD(x^*,X) dSFD(x,X)

根据定义即知 d ∈ S F D ( x ∗ , X ) d\in SFD(x^*,X) dSFD(x,X)
f ( x k ) − f ( x ∗ ) = ( x k − x ∗ ) T ∇ f ( x ∗ ) + o ( ∥ x k − x ∗ ∥ ) ⩽ 0 f(x_k)-f(x^*)=(x_k-x^*)^T\nabla f(x^*)+o(\Vert{x_k-x^*}\Vert)\leqslant0 f(xk)f(x)=(xkx)Tf(x)+o(xkx)0
k → ∞ , x k → x ∗ k\to\infty ,x_k\to x^* k,xkx取极限得 d T ∇ f ( x ∗ ) ⩽ 0 d^T \nabla f(x^*)\leqslant 0 dTf(x)0,与条件矛盾

二阶最优性条件

由一阶充分条件知 ∀ d ∈ S F D ( x ∗ ) , d T ∇ f ( x ∗ ) > 0 \forall d\in SFD(x^*),d^T\nabla f(x^*)>0 dSFD(x),dTf(x)>0,则 x ∗ x^* x是一个严格局部最优解;

由一阶必要条件知,若 ∃ d ∈ S F D ( x ∗ ) , d T ∇ f ( x ∗ ) < 0 \exists d\in SFD(x^*),d^T\nabla f(x^*)<0 dSFD(x),dTf(x)<0,即在 x ∗ x^* x处有可行下降方向,则 x ∗ x^* x不是局部最优解。

这就是说根据 x ∗ x^* x处可行方向均是上升方向还是有下降方向即可判断 x ∗ x^* x是否是最优解,但是对于 d T ∇ f ( x ∗ ) = 0 d^T \nabla f(x^*)=0 dTf(x)=0的可行方向还无法判断。

定义 x ∗ x^* x是KKT点, λ ∗ \lambda^* λ是一相应的Lagrange乘子。如果 d d d X X X x ∗ x^* x处的线性可行方向且
λ i ∗ d T ∇ g i ( x ∗ ) = 0 , ∀ i ∈ I ( x ∗ ) \lambda_i^* d^T\nabla g_i(x^*)=0,\forall i\in I(x^*) λidTgi(x)=0,iI(x)
成立,则称 d d d X X X x ∗ x^* x处的线性化零约束方向。称 x ∗ x^* x处所有线性化零约束方向的集合记为 G ( x ∗ , λ ∗ ) G(x^*,\lambda^*) G(x,λ)

注意到对不起作用的约束,有 λ i ∗ = 0 , i ∈ I \ I ( x ∗ ) \lambda_i^*=0,i\in I\backslash I(x^*) λi=0,iI\I(x)

由KKT条件得 ∇ f ( x ∗ ) = − ∑ i ∈ E ∪ I λ i ∗ ∇ c i ( x ∗ ) = 0 , d ∈ G ( x ∗ , λ ∗ ) \nabla f(x^*)=-\sum\limits_{i\in E\cup I}\lambda_i^*\nabla c_i(x^*)=0,d\in G(x^*,\lambda^*) f(x)=iEIλici(x)=0,dG(x,λ)

另一种等价定义为

x ∗ ∈ X x^*\in X xX是一个KKT点, λ ∗ \lambda^* λ是一相应的Lagrange乘子如果 i ∈ E i\in E iE或者 λ i ∗ > 0 \lambda_i^*>0 λi>0,则称 c i ( x ∗ ) c_i(x^*) ci(x)是在 x ∗ x^* x点(相对于 λ ∗ \lambda^* λ)的强积极的。称
A + ( x ∗ , λ ∗ ) = E ∪ { i ∣ i ∈ I ( x ∗ ) , λ i ∗ > 0 } A_+(x^*,\lambda^*)=E\cup\{i|i\in I(x^*),\lambda_i^*>0\} A+(x,λ)=E{iiI(x),λi>0}
是在 x ∗ x^* x处的强积极集合。不难发现
G ( x ∗ , λ ∗ ) = L F D ( x ∗ , X ) ∩ { d ∣ d ≠ 0 , d T ∇ c i ( x ∗ ) = 0 , i ∈ A + ( x ∗ , λ ∗ ) } = { d ∣ d ≠ 0 , d T ∇ c i ( x ∗ ) ⩾ 0 , λ i ∗ = 0 , i ∈ I ( x ∗ ) ; d T ∇ c i ( x ∗ ) = 0 , λ i ∗ > 0 , i ∈ I ( x ∗ ) ; d T ∇ c i ( x ∗ ) = 0 , i ∈ E } \begin{array}{l} G(x^*,\lambda^*)=LFD(x^*,X)\cap\{d|d\neq0,d^T\nabla c_i(x^*)=0,i\in A_+(x^*,\lambda^*)\}\\= \{d|d\neq0,d^T\nabla c_i(x^*)\geqslant 0,\lambda_i^*=0,i\in I(x^*); \\ \quad\qquad\qquad d^T\nabla c_i(x^*)= 0,\lambda_i^*>0,i\in I(x^*); \\ \quad\qquad\qquad d^T\nabla c_i(x^*)= 0,i\in E\} \end{array} G(x,λ)=LFD(x,X){dd=0,dTci(x)=0,iA+(x,λ)}={dd=0,dTci(x)0,λi=0,iI(x);dTci(x)=0,λi>0,iI(x);dTci(x)=0,iE}
定义 x ∗ x^* x是KKT点, λ ∗ \lambda^* λ是一相应的Lagrange乘子。如果存在序列 d k ( k = 1 , 2 , ⋯   ) d_k(k=1,2,\cdots ) dk(k=1,2,) δ k ( k = 1 , 2 , ⋯   ) \delta_k(k=1,2,\cdots ) δk(k=1,2,)使得
x ∗ + δ k d k ∈ X ∑ i ∈ E ∪ I λ i ∗ c i ( x ∗ + δ k d k ) = 0 x^*+\delta_k d_k\in X\\ \sum_{i\in E\cup I}\lambda_i^*c_i(x^*+\delta_k d_k)=0 x+δkdkXiEIλici(x+δkdk)=0
且有 d k → d , δ k → 0 d_k\to d,\delta_k \to 0 dkd,δk0,则称 d d d是在 x ∗ x^* x处的序列零约束方向。称 x ∗ x^* x处所有序列零约束方向的集合记为 S ( x ∗ , λ ∗ ) S(x^*,\lambda^*) S(x,λ)

根据定义有
S ( x ∗ , λ ∗ ) ⊆ S F D ( x ∗ , X ) G ( x ∗ , λ ∗ ) ⊆ L F D ( x ∗ , X ) S(x^*,\lambda^*)\subseteq SFD(x^*,X)\\ G(x^*,\lambda^*)\subseteq LFD(x^*,X) S(x,λ)SFD(x,X)G(x,λ)LFD(x,X)
可证 S ( x ∗ , X ) ⊆ G ( x ∗ , λ ∗ ) S(x^*,X)\subseteq G(x^*,\lambda^*) S(x,X)G(x,λ)

二阶约束规范条件 S ( x ∗ , X ) = G ( x ∗ , λ ∗ ) S(x^*,X)= G(x^*,\lambda^*) S(x,X)=G(x,λ)

必要性条件

x ∗ x^* x是一个局部极小点,在 x ∗ x^* x处正则性假设成立,从而存在 λ ∗ \lambda^* λ使KKT条件满足,若对该 λ ∗ \lambda^* λ S ( x ∗ , X ) = G ( x ∗ , λ ∗ ) S(x^*,X)= G(x^*,\lambda^*) S(x,X)=G(x,λ),则必有 d T ∇ x x 2 L ( x ∗ , λ ∗ ) d ⩾ 0 , ∀ d ∈ G ( x ∗ , λ ∗ ) d^T\nabla^2_{xx} L(x^*,\lambda^*)d\geqslant 0,\forall d\in G(x^*,\lambda^*) dTxx2L(x,λ)d0,dG(x,λ)

证明:

对任何 d ∈ S ( x ∗ , λ ∗ ) d\in S(x^*,\lambda^*) dS(x,λ),如果 d = 0 d=0 d=0则显然有 d T ∇ x x 2 L ( x ∗ , λ ∗ ) d = 0 d^T\nabla_{xx}^2L(x^*,\lambda^*)d= 0 dTxx2L(x,λ)d=0.下面我们假定 d ≠ 0 d\neq 0 d=0.由 S ( x ∗ , λ ∗ ) S(x^*,\lambda^*) S(x,λ)的定义,必然存在序列 { d k } \{d_k\} {dk} { δ k } \{\delta_k\} {δk}使得 x k = x ∗ + δ k d k , δ k → 0 , d k → d x_k=x^*+\delta_k d_k,\delta_k\to 0,d_k\to d xk=x+δkdk,δk0,dkd

S ( x ∗ , λ ∗ ) S(x^*,\lambda^*) S(x,λ)的定义可知
L ( x k , λ ∗ ) = f ( x k ) + λ ∗ T c ( x k ) = f ( x k ) L(x_k,\lambda^*)=f(x_k)+\lambda^{*T}c(x_k)=f(x_k) L(xk,λ)=f(xk)+λTc(xk)=f(xk)
另一方面,由KKT条件有
L ( x k , λ ∗ ) = L ( x ∗ , λ ∗ ) + δ k ∇ x L ( x ∗ , λ ∗ ) T d k + 1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 )    ⟹    f ( x k ) = f ( x ∗ ) + 1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) L(x_k,\lambda^*)=L(x^*,\lambda^*)+\delta_k\nabla_x L(x^*,\lambda^*)^Td_k+\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)\\ \implies f(x_k)=f(x^*)+\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2) L(xk,λ)=L(x,λ)+δkxL(x,λ)Tdk+21δk2dkTx2L(x,λ)Tdk+o(δk2)f(xk)=f(x)+21δk2dkTx2L(x,λ)Tdk+o(δk2)
由于 x ∗ x^* x是局部极小点,对充分大的 k k k f ( x k ) ⩾ f ( x ∗ ) f(x_k)\geqslant f(x^*) f(xk)f(x),故
1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) ⩾ 0 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) δ k 2 ⩾ 0 \dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)\geqslant 0\\ d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+\dfrac{o(\delta_k^2)}{\delta_k^2}\geqslant 0 21δk2dkTx2L(x,λ)Tdk+o(δk2)0dkTx2L(x,λ)Tdk+δk2o(δk2)0
k → ∞ , δ k → 0 , d k → d k\to \infty,\delta_k\to 0,d_k\to d k,δk0,dkd
d T ∇ x 2 L ( x ∗ , λ ∗ ) T d ⩾ 0 d^T\nabla^2_x L(x^*,\lambda^*)^Td\geqslant 0 dTx2L(x,λ)Td0

充分性条件

x ∗ , λ ∗ x^*,\lambda^* x,λ是优化问题的KKT对,如果
d T ∇ x 2 L ( x ∗ , λ ∗ ) T d > 0   ,   ∀ 0 ≠ d ∈ G ( x ∗ , λ ∗ ) d^T\nabla^2_x L(x^*,\lambda^*)^Td> 0\ ,\ \forall 0\neq d\in G(x^*,\lambda^*) dTx2L(x,λ)Td>0 , ∀0=dG(x,λ)
x ∗ x^* x是局部严格极小点。

证明: 假定 x ∗ x^* x不是严格局部最优解,则存在可行点列 { x k } , x k → x ∗ \{x_k\},x_k\to x^* {xk},xkx,使得 f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)f(x)

x k = x ∗ + δ k d k x_k=x^*+\delta_k d_k xk=x+δkdk ,其中 ∥ d k ∥ = 1 \Vert{d_k}\Vert=1 dk=1,当 k → ∞ , δ k → 0 k\to \infty,\delta_k\to 0 k,δk0。由于 { ∥ d k ∥ } \{\Vert{d_k}\Vert\} {dk}有界,故 { d k } \{d_k\} {dk}有收敛子列,不妨设该子列为 { d k } \{d_k \} {dk},且 d k → d , d ∈ S F D ( x ∗ , λ ∗ ) d_k\to d,d\in SFD(x^*,\lambda^*) dkd,dSFD(x,λ)。由Talor展开式得
f ( x k ) = f ( x ∗ ) + δ k d k T ∇ f ( x ∗ ) + o ( δ k ) f(x_k)=f(x^*)+\delta_kd_k^T\nabla f(x^*)+o(\delta_k) f(xk)=f(x)+δkdkTf(x)+o(δk)
f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)f(x),则 δ k d k T ∇ f ( x ∗ ) + o ( δ k ) ⩽ 0 \delta_kd_k^T\nabla f(x^*)+o(\delta_k)\leqslant 0 δkdkTf(x)+o(δk)0 k → ∞ k\to \infty k,得
d T ∇ f ( x ∗ ) ⩽ 0 ( 1 ) d^T\nabla f(x^*)\leqslant 0\quad(1) dTf(x)0(1)
思路一: 分类讨论

  1. d ∉ G ( x ∗ , λ ∗ ) d\notin G(x^*,\lambda^*) d/G(x,λ),则存在 i ∈ I ( x ∗ ) i\in I(x^*) iI(x),使得 λ i ∗ > 0 , d T ∇ c i ( x ∗ ) < 0 \lambda^*_i>0,d^T\nabla c_i(x^*)<0 λi>0,dTci(x)<0

    从而 d T ∇ f ( x ∗ ) = − ∑ λ i ∗ d T ∇ c i ( x ∗ ) > 0 d^T\nabla f(x^*)=-\sum\lambda_i^*d^T\nabla c_i(x^*)>0 dTf(x)=λidTci(x)>0 ,矛盾

  2. d ∈ G ( x ∗ , λ ∗ ) d\in G(x^*,\lambda^*) dG(x,λ),由 x k x_k xk的可行性得
    L ( x k , λ ∗ ) = f ( x k ) + ∑ λ i ∗ c i ( x k ) ⩽ f ( x k ) L(x_k,\lambda^*)=f(x_k)+\sum \lambda_i^* c_i(x_k)\leqslant f(x_k) L(xk,λ)=f(xk)+λici(xk)f(xk)
    由KKT条件有
    L ( x k , λ ∗ ) = f ( x ∗ ) + 1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) L(x_k,\lambda^*)=f(x^*)+\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2) L(xk,λ)=f(x)+21δk2dkTx2L(x,λ)Tdk+o(δk2)
    因为 f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)f(x),故 1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) ⩽ 0 \dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)\leqslant 0 21δk2dkTx2L(x,λ)Tdk+o(δk2)0

    k → ∞ k\to \infty k,得 d T ∇ x 2 L ( x ∗ , λ ∗ ) T d ⩽ 0 d^T\nabla^2_x L(x^*,\lambda^*)^Td\leqslant 0 dTx2L(x,λ)Td0与假设矛盾

思路二: 证明 d ∈ G ( x ∗ , λ ∗ ) d\in G(x^*,\lambda^*) dG(x,λ)

d ∈ S F D ( x ∗ , λ ∗ ) ⊆ L F D ( x ∗ , λ ∗ ) d\in SFD(x^*,\lambda^*)\subseteq LFD(x^*,\lambda^*) dSFD(x,λ)LFD(x,λ),知 d d d满足线性可行方向的条件,故由KKT定理得
d T ∇ f ( x ∗ ) = ∑ i ∈ E ∪ I λ ∗ d T ∇ c i ( x ∗ ) ⩾ 0 ( 2 ) d^T\nabla f(x^*)=\sum_{i\in E\cup I}\lambda^* d^T\nabla c_i(x^*)\geqslant 0\quad (2) dTf(x)=iEIλdTci(x)0(2)
由(1)(2)式得
d T ∇ f ( x ∗ ) = 0 λ i ∗ d T ∇ c i ( x ∗ ) = 0 , ∀ i ∈ I ( x ∗ ) d^T\nabla f(x^*)=0\\ \lambda_i^*d^T\nabla c_i(x^*)=0,\forall i\in I(x^*) dTf(x)=0λidTci(x)=0,iI(x)
d ∈ G ( x ∗ , λ ∗ ) d\in G(x^*,\lambda^*) dG(x,λ) ,再由思路一情况2的证明即可得到二阶充分性条件。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Shilong Wang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值