文章目录
最优性条件
无约束问题
一阶必要条件
设 f : D ⊂ R n → R f:D\subset \mathbb{R}^n\to R f:D⊂Rn→R在开集 D D D上连续可微,若 x ∗ ∈ D x^* \in D x∗∈D是局部极小点,则 ∇ f ( x ∗ ) = 0 \nabla f(x^*)=0 ∇f(x∗)=0
证明:设 x ∗ x^* x∗是一个局部极小点,考虑序列 x k = x ∗ − λ k ∇ f ( x ∗ ) , k → ∞ , λ k → 0 x_k=x^*-\lambda_k \nabla f(x^*),k\to \infty,\lambda_k\to 0 xk=x∗−λk∇f(x∗),k→∞,λk→0
利用一阶Taylor展开式,对于充分大的
k
k
k,有
0
⩽
f
(
x
k
)
−
f
(
x
∗
)
=
−
λ
k
∇
f
T
(
ξ
k
)
∇
f
(
x
∗
)
0\leqslant f(x_k)-f(x^*)=-\lambda_k \nabla f^T(\xi_k) \nabla f(x^*)
0⩽f(xk)−f(x∗)=−λk∇fT(ξk)∇f(x∗)
ξ
k
\xi_k
ξk是
x
k
x_k
xk和
x
∗
x^*
x∗的凸组合,两边同时除以
λ
k
\lambda_k
λk,并取极限,由于
f
∈
C
1
f\in C^1
f∈C1,故有
0
⩽
−
∥
∇
f
(
x
∗
)
∥
2
0\leqslant-\|{\nabla f(x^*)\|}^2
0⩽−∥∇f(x∗)∥2,显然,仅当
∇
f
(
x
∗
)
=
0
\nabla f(x^*)=0
∇f(x∗)=0时,上式成立。
二阶必要条件
设 f : D ⊂ R n → R f:D\subset \mathbb{R}^n\to R f:D⊂Rn→R在开集 D D D上连续可微,若 x ∗ ∈ D x^* \in D x∗∈D是局部极小点,则 ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ ) ⩾ 0 \nabla f(x^*)=0,\nabla^2 f(x^*)\geqslant 0 ∇f(x∗)=0,∇2f(x∗)⩾0
证明:设 x ∗ x^* x∗是一个局部极小点,考虑序列 x k = x ∗ − λ k d , k → ∞ , λ k → 0 x_k=x^*-\lambda_k d,k\to \infty,\lambda_k\to 0 xk=x∗−λkd,k→∞,λk→0
由于
f
∈
C
2
f\in C^2
f∈C2和
∇
f
(
x
∗
)
=
0
\nabla f(x^*)=0
∇f(x∗)=0(上个定理已证明),故利用二阶Taylor展开式,对于充分大的
k
k
k,有
0
⩽
f
(
x
k
)
−
f
(
x
∗
)
=
−
1
2
λ
k
2
d
T
∇
f
T
(
ξ
k
)
d
0\leqslant f(x_k)-f(x^*)=-\dfrac{1}{2}\lambda_k^2 d^T\nabla f^T(\xi_k)d
0⩽f(xk)−f(x∗)=−21λk2dT∇fT(ξk)d
ξ
k
\xi_k
ξk是
x
k
x_k
xk和
x
∗
x^*
x∗的凸组合,两边同时除以
1
2
λ
k
2
\dfrac{1}{2}\lambda_k^2
21λk2,并取极限,由于
f
∈
C
2
f\in C^2
f∈C2,故有
d
T
∇
f
T
(
x
∗
)
d
⩾
0
d^T\nabla f^T(x^*)d\geqslant 0
dT∇fT(x∗)d⩾0
二阶充分条件
设 f : D ⊂ R n → R f:D\subset \mathbb{R}^n\to R f:D⊂Rn→R在开集 D D D上二阶连续可微,则 x ∗ ∈ D x^* \in D x∗∈D是是 f f f的一个严格局部极小点的充分条件是 ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ ) \nabla f(x^*)=0,\nabla^2 f(x^*) ∇f(x∗)=0,∇2f(x∗)正定
证明:由于
∇
f
(
x
∗
)
=
0
\nabla f(x^*)=0
∇f(x∗)=0,则由Taylor展开,对任意向量
d
d
d,
f
(
x
∗
+
λ
d
)
=
f
(
x
∗
)
+
1
2
λ
2
d
T
∇
2
f
(
x
∗
+
θ
λ
d
)
d
f(x^*+\lambda d)=f(x^*)+\dfrac{1}{2}\lambda^2 d^T \nabla^2 f(x^*+\theta \lambda d)d
f(x∗+λd)=f(x∗)+21λ2dT∇2f(x∗+θλd)d
由于
∇
2
f
(
x
)
\nabla^2 f(x)
∇2f(x)的连续性,
d
T
∇
2
f
(
x
)
d
d^T\nabla^2 f(x) d
dT∇2f(x)d也连续,
∃
δ
>
0
,
x
∈
U
δ
(
x
∗
)
,
d
T
∇
2
f
(
x
)
d
>
0
\exists \delta>0,x\in U_{\delta}(x^*),d^T\nabla^2 f(x) d>0
∃δ>0,x∈Uδ(x∗),dT∇2f(x)d>0
故可选择 λ \lambda λ,使得 x ∗ + λ d ∈ U δ ( x ∗ ) x^*+\lambda d\in U_{\delta}(x^*) x∗+λd∈Uδ(x∗),从而 d T ∇ 2 f ( x ∗ + θ λ d ) d > 0 d^T \nabla^2 f(x^*+\theta \lambda d)d>0 dT∇2f(x∗+θλd)d>0,则 f ( x ∗ + λ d ) > f ( x ∗ ) f(x^*+\lambda d)>f(x^*) f(x∗+λd)>f(x∗),即 x ∗ x^* x∗是严格局部极小点。
有约束问题
下降方向
定义 设
f
(
x
)
f ( x )
f(x)为定义在空间
R
n
\mathbb{R}^n
Rn 上的连续函数, 点
x
∈
R
n
x∈\mathbb{R}^n
x∈Rn , 若对于方向
d
∈
R
n
d∈\mathbb{R}^n
d∈Rn 存在数
δ
>
0
δ> 0
δ>0使
f
(
x
+
λ
d
)
<
f
(
x
)
,
∀
λ
∈
(
0
,
δ
)
f(x+\lambda d)<f(x),\forall \lambda\in(0,\delta)
f(x+λd)<f(x),∀λ∈(0,δ)
成立,则称
d
d
d为
f
(
x
)
f(x)
f(x)在
x
x
x处的一个下降方向。
定理 设函数 f ( x ) f( x ) f(x)在点 x x x处连续可微, 如存在非零向量 d ∈ R n d∈ \mathbb{R}^n d∈Rn 使 ∇ f ( x ) T d < 0 \nabla f(x)^Td<0 ∇f(x)Td<0成立,则 d d d是 f ( x ) f(x) f(x)在点 x a xa xa处的一个下降方向 .在点 x ‾ \overline{x} x处的所有下降方向的全体记为 D ( x ‾ ) D( \overline{x} ) D(x) .
证明: 对于充分小的 λ > 0 \lambda> 0 λ>0,将 f ( x ‾ + λ d ) f(\overline{x}+\lambda d) f(x+λd)在点 x ‾ \overline{x} x处展开有 f ( x ‾ + λ d ) = f ( x ‾ ) + λ ∇ f ( x ‾ ) T d + o ( ∥ λ d ∥ ) f(\overline{x}+\lambda d)=f(\overline{x})+\lambda\nabla f(\overline{x})^Td+o(\Vert{\lambda d}\Vert) f(x+λd)=f(x)+λ∇f(x)Td+o(∥λd∥)
由 λ > 0 \lambda>0 λ>0以及 ∇ f ( x ) T d < 0 \nabla f ( x )^T d < 0 ∇f(x)Td<0 知,存在 δ > 0 δ> 0 δ>0, 使对任意 λ ∈ ( 0 , δ ) \lambda∈ (0,δ) λ∈(0,δ)有 λ ∇ f ( x ‾ ) T d + o ( ∥ λ d ∥ ) < 0 \lambda\nabla f(\overline{x})^Td+o(\Vert{\lambda d}\Vert)<0 λ∇f(x)Td+o(∥λd∥)<0
结合这两式有 f ( x ‾ + λ d ) < f ( x ‾ ) , ∀ λ ∈ ( 0 , δ ) f(\overline{x}+\lambda d)<f(\overline{x}),\forall \lambda\in(0,\delta) f(x+λd)<f(x),∀λ∈(0,δ),这就证明了 d d d是 f ( x ) f(x) f(x)的下降方向
可行方向 设优化问题的可行域为
X
⊆
R
n
X\subseteq \mathbb{R}^n
X⊆Rn,点
x
‾
∈
X
\overline{x}\in X
x∈X为一可行点,
d
∈
R
n
d∈\mathbb{R}^n
d∈Rn, 若对
x
‾
\overline{x}
x处的某一搜索方向
d
d
d,存在实数
δ
>
0
\delta>0
δ>0,使得任意步长
λ
∈
(
0
,
δ
)
\lambda\in(0,\delta)
λ∈(0,δ)都满足
x
‾
+
λ
d
∈
X
\overline{x} +\lambda d\in X
x+λd∈X成立, 则称
d
d
d 是在
x
‾
\overline{x}
x 处的一个可行方向(Feasible Direction).在点
x
‾
\overline{x}
x的所有可行方向的全体记为
F
(
x
‾
)
F( \overline{x} )
F(x) .这是一个锥,称为
F
F
F在
x
∗
x ^ *
x∗处的可行方向锥。
min
f
(
x
)
,
s
.
t
.
{
g
i
(
x
)
⩽
0
,
i
=
1
,
2
,
⋯
,
m
h
i
(
x
)
=
0
,
i
=
1
,
2
,
⋯
,
l
x
∈
X
\min\ f(x),s.t.\begin{cases}g_i(x)\leqslant 0,i=1,2,\cdots,m\\h_i(x)=0,i=1,2,\cdots,l\\ x\in X\end{cases}
min f(x),s.t.⎩
⎨
⎧gi(x)⩽0,i=1,2,⋯,mhi(x)=0,i=1,2,⋯,lx∈X
定义 E = { 1 , 𝟐 , ⋯ , 𝒍 } , 𝑰 = { 𝟏 , 𝟐 , ⋯ , 𝒎 } , 𝑰 ( 𝒙 ) = { 𝒊 ∣ 𝒈 𝒊 ( 𝒙 ) = 𝟎 , 𝒊 ∈ [ 𝟏 , 𝒎 ] } E = \{1, 𝟐, ⋯ ,𝒍 \}, 𝑰 =\{𝟏, 𝟐, ⋯ , 𝒎\},𝑰(𝒙) =\{𝒊|𝒈_𝒊(𝒙)=𝟎,𝒊∈[𝟏,𝒎]\} E={1,2,⋯,l},I={1,2,⋯,m},I(x)={i∣gi(x)=0,i∈[1,m]}, 对任意 𝒙 ∈ 𝑹 𝒏 𝒙 ∈𝑹^𝒏 x∈Rn ,集合 𝑨 ( 𝒙 ) = 𝑬 ∪ 𝑰 ( 𝒙 ) 𝑨(𝒙)= 𝑬∪𝑰(𝒙) A(x)=E∪I(x)称为积极约束, 𝒈 𝒊 ( 𝒙 ) ( 𝒊 ∉ 𝑨 ( 𝒙 ) 𝒈_𝒊(𝒙)(𝒊∉𝑨(𝒙) gi(x)(i∈/A(x)称为在𝒙点 的非积极约束,有时约束也用 𝒄 𝒊 ( 𝒙 ) 𝒄_𝒊(𝒙) ci(x)表示
线性可行方向 x ∗ ∈ X , d ∈ R n x^*\in X,d\in \mathbb{R}^n x∗∈X,d∈Rn ,若 d T ∇ h i ( x ∗ ) = 0 , d T ∇ g i ( x ∗ ) ⩽ 0 , i ∈ I ( x ∗ ) d^T\nabla h_i(x^*)=0, d^T\nabla g_i(x^*)\leqslant 0,i\in I(x^*) dT∇hi(x∗)=0,dT∇gi(x∗)⩽0,i∈I(x∗),则称𝒅是𝑿在 x ∗ x^* x∗处的线性化可行方向(Linearized feasible direction)。所有在 x ∗ x^* x∗处的线性化可行方向记为 𝑳 𝑭 𝑫 ( 𝒙 ∗ , 𝑿 ) 𝑳𝑭𝑫(𝒙^*,𝑿) LFD(x∗,X)
序列可行方向 存在 d k ( k = 1 , 2 , ⋯ ) d_k( k=1,2,\cdots ) dk(k=1,2,⋯)和 δ k ( k = 1 , 2 , ⋯ ) \delta_k(k=1,2,\cdots) δk(k=1,2,⋯),使得 x ∗ + δ k d k ∈ X , ∀ k , d k → d , δ k → 0 x^*+\delta_kd_k\in X ,\forall k,d_k\to d,\delta_k\to 0 x∗+δkdk∈X,∀k,dk→d,δk→0, 则极限方向𝒅称为SFD,所有SFD的集合称为 S F D ( x ∗ , X ) SFD(x^*,X) SFD(x∗,X), 若SFD 还包含0向量,则称 T X ( x ∗ ) = S F D ( x ∗ , X ) ∪ { 0 } T_X(x^*)=SFD(x^*,X)\cup\{0\} TX(x∗)=SFD(x∗,X)∪{0}为𝑿在 x ∗ x^* x∗点的切锥 (Tangent cone)
引理:令 x ∗ ∈ X x^*\in X x∗∈X,若所有的约束函数在 x ∗ x^* x∗处都可微,则 F D ( x ∗ , X ) ⊆ S F D ( x ∗ , X ) ⊆ L F D ( x ∗ , X ) FD(x^*,X)\subseteq SFD(x^*,X)\subseteq LFD(x^*,X) FD(x∗,X)⊆SFD(x∗,X)⊆LFD(x∗,X)
证明:只需证明 ∀ d ∈ F D ( x ∗ , X ) ⟹ d ∈ S F D ( x ∗ , X ) ⟹ d ∈ L F D ( x ∗ , X ) \forall d\in FD(x^*,X)\implies d\in SFD(x^*,X)\implies d\in LFD(x^*,X) ∀d∈FD(x∗,X)⟹d∈SFD(x∗,X)⟹d∈LFD(x∗,X)
∀ d ∈ F D ( x ∗ , X ) , ∃ δ > 0 s . t . x ∗ + λ d ∈ X , ∀ λ ∈ [ 0 , δ ] \forall d\in FD(x^*,X),\exists \delta>0\ s.t.\ x^*+\lambda d\in X,\forall \lambda \in[0,\delta] ∀d∈FD(x∗,X),∃δ>0 s.t. x∗+λd∈X,∀λ∈[0,δ],令 d k = d , δ k = δ 2 k ( k = 1 , 2 , ⋯ ) d_k=d,\delta_k=\dfrac{\delta}{2^k}(k=1,2,\cdots) dk=d,δk=2kδ(k=1,2,⋯),则显然有 x ∗ + δ k d k ∈ X , ∀ k a n d d k → d , δ k → 0 x^*+\delta_kd_k\in X ,\forall k \quad and\ d_k\to d,\delta_k\to 0 x∗+δkdk∈X,∀kand dk→d,δk→0,所以 d ∈ S F D ( x ∗ , X ) d\in SFD(x^*,X) d∈SFD(x∗,X)。由 d d d的任意性知 F D ( x ∗ , X ) ⊆ S F D ( x ∗ , X ) FD(x^*,X)\subseteq SFD(x^*,X) FD(x∗,X)⊆SFD(x∗,X)。
∀
d
∈
S
F
D
(
x
∗
,
X
)
\forall d\in SFD(x^*,X)
∀d∈SFD(x∗,X),如果
d
=
0
d=0
d=0,显然
d
∈
L
F
D
(
x
∗
,
X
)
d\in LFD(x^*,X)
d∈LFD(x∗,X)。假定
d
≠
0
d\neq 0
d=0,由定义,存在序列
d
k
(
k
=
1
,
2
,
⋯
)
d_k(k=1,2,\cdots)
dk(k=1,2,⋯)和
δ
k
>
0
(
k
=
1
,
2
,
⋯
)
\delta_k>0(k=1,2,\cdots)
δk>0(k=1,2,⋯)使得
x
∗
+
δ
k
d
k
∈
X
,
∀
k
x^*+\delta_kd_k\in X ,\forall k
x∗+δkdk∈X,∀k成立且
d
k
→
d
≠
0
d_k\to d\neq 0
dk→d=0和
δ
k
→
0
\delta_k\to 0
δk→0。
0
=
h
i
(
x
∗
+
δ
k
d
k
)
=
δ
k
d
k
T
∇
h
i
(
x
∗
)
+
o
(
∥
δ
k
d
k
∥
)
,
i
∈
E
0
⩾
g
i
(
x
∗
+
δ
k
d
k
)
=
δ
k
d
k
T
∇
g
i
(
x
∗
)
+
o
(
∥
δ
k
d
k
∥
)
,
i
∈
I
(
x
∗
)
0=h_i(x^*+\delta_k d_k)=\delta_k d^T_k \nabla h_i(x^*)+o(\Vert{\delta_k d_k}\Vert),i\in E\\ 0\geqslant g_i(x^*+\delta_k d_k)=\delta_k d^T_k \nabla g_i(x^*)+o(\Vert{\delta_k d_k}\Vert),i\in I(x^*)
0=hi(x∗+δkdk)=δkdkT∇hi(x∗)+o(∥δkdk∥),i∈E0⩾gi(x∗+δkdk)=δkdkT∇gi(x∗)+o(∥δkdk∥),i∈I(x∗)
在上两式的两端同除
δ
k
\delta_k
δk,然后令
k
→
∞
,
δ
k
→
0
k\to \infty,\delta_k\to 0
k→∞,δk→0,得
d
T
∇
h
i
(
x
∗
)
=
0
,
i
∈
E
d
T
∇
g
i
(
x
∗
)
⩽
0
,
i
∈
I
(
x
∗
)
d^T\nabla h_i(x^*)=0,i\in E\\ d^T \nabla g_i(x^*)\leqslant 0,i\in I(x^*)
dT∇hi(x∗)=0,i∈EdT∇gi(x∗)⩽0,i∈I(x∗)
故有
S
F
D
(
x
∗
,
X
)
⊆
L
F
D
(
x
∗
,
X
)
SFD(x^*,X)\subseteq LFD(x^*,X)
SFD(x∗,X)⊆LFD(x∗,X)
约束规范
KT约束规范: S F D = L F D SFD=LFD SFD=LFD
约束规范条件
- LFD与SFD相似的条件
- 大多数约束规范确保这两个集合相等
条件1
( 1 ) ∇ h i ( x ∗ ) ( i ∈ E ) 线性无关 ( 2 ) 集合 S ∗ = { d ∣ d T ∇ h i ( x ∗ ) = 0 , i ∈ E ; d T ∇ g i ( x ∗ ) < 0 , i ∈ I ( x ∗ ) } 非空 \begin{array}{l} (1) \nabla h_i(x^*)(i\in E)线性无关\\ (2) 集合S^*=\{d|d^T\nabla h_i(x^*)=0,i\in E;d^T\nabla g_i(x^*)<0,i\in I(x^*) \}非空 \end{array} (1)∇hi(x∗)(i∈E)线性无关(2)集合S∗={d∣dT∇hi(x∗)=0,i∈E;dT∇gi(x∗)<0,i∈I(x∗)}非空
证明:对任给非零向量 d ∈ S ∗ d\in S^* d∈S∗,必存在 d i d_i di组成 s p a n { ∇ h 1 ( x ∗ ) , ⋯ , ∇ h l ( x ∗ ) , d } {\rm{span}} \{\nabla h_1(x^*),\cdots,\nabla h_l(x^*),d\} span{∇h1(x∗),⋯,∇hl(x∗),d}的法空间的一组正交基。
一阶最优性条件
必要性条件
定义 D = D ( x ) = { d T ∇ f ( x ) < 0 , d ∈ R n } D=D(x)=\{d^T\nabla f(x) <0,d\in \mathbb{R}^n\} D=D(x)={dT∇f(x)<0,d∈Rn}为 f ( x ) f(x) f(x)在 x x x处的下/+。降方向集合,其中 d d d称为 x x x处的下降方向。
正则性假设: S F D ( x ∗ ) ∩ D ( x ∗ ) = L F D ( x ∗ ) ∩ D ( x ∗ ) SFD(x^*)\cap D(x^*)=LFD(x^*)\cap D(x^*) SFD(x∗)∩D(x∗)=LFD(x∗)∩D(x∗)
正则性假设只考虑序列可行方向集合和线性可行方向集合中下降方向的部分,这个条件比KT约束规范条件弱。
最优点
x
∗
x^*
x∗满足该点无可行下降方向!用线性可行方向来表达则为:
L
F
D
(
x
∗
)
∩
D
(
x
∗
)
=
{
d
∣
d
T
∇
f
(
x
∗
)
<
0
d
T
∇
c
i
(
x
∗
)
=
0
,
i
∈
E
d
T
∇
c
i
(
x
∗
)
≤
0
,
i
∈
I
(
x
∗
)
}
=
∅
LFD(x^*)\cap D(x^*)=\left \{ d\left| \begin{array}{c} d^T\nabla f(x^*)<0\\ d^T \nabla c_i(x^*)=0,i\in E\\ d^T \nabla c_i(x^*)\leq 0,i\in I(x^*) \end{array}\right. \right \}=\varnothing
LFD(x∗)∩D(x∗)=⎩
⎨
⎧d
dT∇f(x∗)<0dT∇ci(x∗)=0,i∈EdT∇ci(x∗)≤0,i∈I(x∗)⎭
⎬
⎫=∅
一阶必要条件
设 x ∗ x^* x∗是最优问题的一个局部最优解, 函数 f ( x ) f(x) f(x)连续可微, 则有 S F D ( x ∗ ) ∩ D ( x ∗ ) = ∅ SFD(x^*)\cap D(x^*)=\varnothing SFD(x∗)∩D(x∗)=∅成立
证明:对于任意的可行方向
d
∈
F
(
x
∗
)
d\in F( x^* )
d∈F(x∗) , 我们证明
d
∉
D
(
x
∗
)
d\notin D( x^* )
d∈/D(x∗) .对可行方向
d
∈
F
(
x
∗
)
d\in F( x^* )
d∈F(x∗) , 存在可行点序列
x
(
k
)
=
x
∗
+
λ
k
d
x^{(k)} = x^*+\lambda_k d
x(k)=x∗+λkd 收敛于
x
∗
x^*
x∗ , 其中
d
≠
0
,
λ
k
>
0
d ≠0,\lambda_k > 0
d=0,λk>0, 且
k
→
∞
,
λ
k
→
0
k\to \infty,\lambda_k\to 0
k→∞,λk→0 .由泰勒展开式有
f
(
x
(
k
)
)
=
f
(
x
∗
+
λ
k
d
(
k
)
)
=
f
(
x
∗
)
+
λ
k
∇
f
(
x
∗
)
T
d
(
k
)
+
o
(
∥
λ
k
d
(
k
)
∥
)
f(x^{(k)})=f(x^*+\lambda_k d^{(k)})=f(x^*)+\lambda_k\nabla f(x^*)^Td^{(k)}+o(\Vert{\lambda_k d^{(k)}}\Vert)
f(x(k))=f(x∗+λkd(k))=f(x∗)+λk∇f(x∗)Td(k)+o(∥λkd(k)∥)
由于
x
∗
x^*
x∗是局部最优解,对充分大的k有
f
(
x
(
k
)
)
⩾
f
(
x
∗
)
f(x^{(k)})\geqslant f(x^*)
f(x(k))⩾f(x∗),由此得
λ
k
∇
f
(
x
∗
)
T
d
(
k
)
+
o
(
∥
λ
k
d
(
k
)
∥
)
⩾
0
\lambda_k\nabla f(x^*)^Td^{(k)}+o(\Vert{\lambda_k d^{(k)}}\Vert)\geqslant 0
λk∇f(x∗)Td(k)+o(∥λkd(k)∥)⩾0
在上式两端除以
λ
k
\lambda_k
λk,再令
k
→
∞
k\to \infty
k→∞取极限得
∇
f
(
x
∗
)
T
d
⩾
0
\nabla f(x^*)^Td\geqslant 0
∇f(x∗)Td⩾0,这就证明了
d
∉
D
(
x
∗
)
d\notin D(x^*)
d∈/D(x∗)
引理1 设 x ∗ ∈ X x^∗ \in X x∗∈X是问题P的局部极小点,如果目标函数和约束函数在 x ∗ x^∗ x∗点都可微,则必有 d T ∇ f ( x ∗ ) ≥ 0 , ∀ d ∈ S F D ( x ∗ , X ) d^T\nabla f(x^*)\geq 0,\forall d\in SFD(x^*,X) dT∇f(x∗)≥0,∀d∈SFD(x∗,X)
证明:由定义, ∀ d ∈ S F D ( x ∗ , X ) , ∃ δ k > 0 , d k , x ∗ + δ k d k ∈ X \forall d\in SFD(x^*,X),\exists \delta_k>0,d_k,x^*+\delta_k d_k\in X ∀d∈SFD(x∗,X),∃δk>0,dk,x∗+δkdk∈X,且 δ k → 0 , d k → d \delta_k\to 0,d_k\to d δk→0,dk→d,因而对充分大的 k k k, f ( x ∗ ) ≤ f ( x ∗ + δ k d k ) = f ( x ∗ ) + δ k d k T ∇ f ( x ∗ ) + o ( δ k ) f(x^*)\leq f(x^*+\delta_k d_k)=f(x^*)+\delta_k d_k^T\nabla f(x^*)+o(\delta_k) f(x∗)≤f(x∗+δkdk)=f(x∗)+δkdkT∇f(x∗)+o(δk) ,从而立即可得 d T ∇ f ( x ∗ ) ≥ 0 d^T \nabla f(x^*)\geq 0 dT∇f(x∗)≥0
Farkas引理
给定任意n维向量
b
1
,
b
2
,
⋯
,
b
m
b_1,b_2,\cdots,b_m
b1,b2,⋯,bm与
a
0
a_0
a0,则集合
F
=
{
d
∣
d
T
a
0
<
0
,
d
T
b
i
⩽
0
,
i
=
1
,
⋯
,
m
}
F=\{d|d^Ta_0<0,d^Tb_i\leqslant 0,i=1,\cdots,m\}
F={d∣dTa0<0,dTbi⩽0,i=1,⋯,m}
为空集的充要条件是,存在
λ
i
⩾
0
(
i
=
1
,
⋯
,
m
)
\lambda_i \geqslant 0(i=1,\cdots,m)
λi⩾0(i=1,⋯,m)使得
a
0
+
∑
i
=
1
m
λ
i
b
i
=
0
a_0+\sum\limits_{i=1}^m \lambda_i b_i=0
a0+i=1∑mλibi=0
证明:
充分性:设 λ i ⩾ 0 ( i = 1 , ⋯ , m ) \lambda_i \geqslant 0(i=1,\cdots,m) λi⩾0(i=1,⋯,m).对满足 d T b i ⩽ 0 , i = 1 , ⋯ , m d^Tb_i\leqslant 0,i=1,\cdots,m dTbi⩽0,i=1,⋯,m的 d d d,有 d T a 0 = − ∑ i = 1 m λ i d T b i ⩾ 0 d^Ta_0=-\sum\limits_{i=1}^m \lambda_i d^Tb_i\geqslant 0 dTa0=−i=1∑mλidTbi⩾0,故 F F F为空集
必要性:设 S = { a ∣ a = − ∑ i = 1 m λ i b i , λ i ⩾ 0 ( i = 1 , ⋯ , m ) } S=\{a|a=-\sum\limits_{i=1}^m \lambda_i b_i,\lambda_i\geqslant 0(i=1,\cdots,m)\} S={a∣a=−i=1∑mλibi,λi⩾0(i=1,⋯,m)}
假设 a 0 ∉ S a_0\notin S a0∈/S, S S S为一凸锥,由凸分离定理可知 ∃ d ≠ 0 , s . t . d T a 0 < α < d T a , ∀ a ∈ S \exists d\neq 0,s.t.\ d^T a_0<\alpha<d^T a,\forall a\in S ∃d=0,s.t. dTa0<α<dTa,∀a∈S,因为 0 ∈ S 0\in S 0∈S,故 d T a 0 < 0 d^Ta_0<0 dTa0<0
∀ λ > 0 \forall \lambda>0 ∀λ>0,均有 − λ b i ∈ S -\lambda b_i\in S −λbi∈S,故 − λ d T b i > α ⟹ d T b i < − α λ -\lambda d^Tb_i>\alpha\implies d^Tb_i<-\dfrac{\alpha}{\lambda} −λdTbi>α⟹dTbi<−λα,令 λ → + ∞ ⟹ d T b i ⩽ 0 \lambda \to +\infty\implies d^Tb_i\leqslant 0 λ→+∞⟹dTbi⩽0
则 d ∈ F d\in F d∈F, F F F不为空集。
推论
设
l
,
m
l,m
l,m是两个非负整数,
a
0
,
a
i
(
i
=
1
,
⋯
,
l
)
a_0,a_i(i=1,\cdots,l)
a0,ai(i=1,⋯,l)和
b
i
(
i
=
1
,
⋯
,
m
)
b_i(i=1,\cdots,m)
bi(i=1,⋯,m)是
R
n
\mathbb{R}^n
Rn中的向量 ,则线性方程组和不等式组:
d
T
a
i
=
0
,
i
=
1
,
⋯
,
l
(
1
)
d
T
b
i
⩽
0
,
i
=
1
,
⋯
,
m
(
2
)
d
T
a
0
<
0
(
3
)
\begin{array}{l} d^Ta_i=0,i=1,\cdots,l && (1)\\ d^Tb_i\leqslant 0,i=1,\cdots,m && (2)\\ d^Ta_0<0 && (3) \end{array}
dTai=0,i=1,⋯,ldTbi⩽0,i=1,⋯,mdTa0<0(1)(2)(3)
无解当且仅当存在实数
λ
i
(
i
=
1
,
⋯
,
l
)
\lambda_i(i=1,\cdots,l)
λi(i=1,⋯,l)和非负实数
μ
i
(
i
=
1
,
⋯
,
m
)
\mu _i(i=1,\cdots,m)
μi(i=1,⋯,m)使得
a
0
+
∑
i
=
1
l
λ
i
a
i
+
∑
i
=
1
l
′
μ
i
b
i
=
0
(
4
)
a_0+\sum_{i=1}^{l}\lambda_i a_i+\sum_{i=1}^{l'}\mu_i b_i=0 \qquad (4)
a0+i=1∑lλiai+i=1∑l′μibi=0(4)
证明一:
d
T
a
i
=
0
,
i
=
1
,
⋯
,
l
d^Ta_i=0,i=1,\cdots,l
dTai=0,i=1,⋯,l可以写成
d
T
a
i
⩽
0
,
−
d
T
a
i
⩽
0
,
i
=
1
,
⋯
,
l
d^Ta_i\leqslant 0,-d^Ta_i\leqslant 0,i=1,\cdots,l
dTai⩽0,−dTai⩽0,i=1,⋯,l
利用Farkas引理,存在
λ
i
+
⩾
0
,
λ
i
−
⩾
0
,
μ
i
⩾
0
\lambda_i^+\geqslant 0,\lambda_i^-\geqslant 0,\mu_i\geqslant 0
λi+⩾0,λi−⩾0,μi⩾0使得
a
0
+
∑
i
=
1
l
λ
i
+
a
i
−
∑
i
=
1
l
λ
i
−
a
i
+
∑
i
=
1
m
μ
i
b
i
=
0
a
0
+
∑
i
=
1
l
(
λ
i
+
−
λ
i
−
)
a
i
+
∑
i
=
1
m
μ
i
b
i
=
0
a
0
+
∑
i
=
1
l
λ
i
a
i
+
∑
i
=
1
m
μ
i
b
i
=
0
a_0+\sum_{i=1}^{l}\lambda_i^+ a_i - \sum_{i=1}^{l}\lambda_i^- a_i +\sum_{i=1}^{m}\mu_i b_i=0\\ a_0+\sum_{i=1}^{l}(\lambda_i^+-\lambda_i^-) a_i +\sum_{i=1}^{m}\mu_i b_i=0\\ a_0+\sum_{i=1}^{l}\lambda_i a_i +\sum_{i=1}^{m}\mu_i b_i=0
a0+i=1∑lλi+ai−i=1∑lλi−ai+i=1∑mμibi=0a0+i=1∑l(λi+−λi−)ai+i=1∑mμibi=0a0+i=1∑lλiai+i=1∑mμibi=0
证明二:
充分性:假设
a
0
+
∑
i
=
1
l
λ
i
a
i
+
∑
i
=
1
m
μ
i
b
i
=
0
a_0+\sum\limits_{i=1}^{l}\lambda_i a_i+\sum\limits_{i=1}^{m}\mu_i b_i=0
a0+i=1∑lλiai+i=1∑mμibi=0成立,且
μ
i
⩾
0
(
i
=
1
,
⋯
,
l
′
)
\mu_i \geqslant 0(i=1,\cdots,l')
μi⩾0(i=1,⋯,l′),则对任何
d
d
d满足式(1)(2)都有
d
T
a
0
=
−
∑
i
=
1
l
λ
i
d
T
a
i
−
∑
i
=
1
m
μ
i
d
T
b
i
⩾
0
d^T a_0=-\sum_{i=1}^{l}\lambda_i d^Ta_i-\sum_{i=1}^{m}\mu_i d^Tb_i\geqslant 0
dTa0=−i=1∑lλidTai−i=1∑mμidTbi⩾0
从而式(3)不成立,(1)(2)(3)联立无解
必要性:假设不存在实数
λ
i
(
i
=
1
,
⋯
,
l
)
\lambda_i(i=1,\cdots,l)
λi(i=1,⋯,l)和非负实数
μ
i
(
i
=
1
,
⋯
,
m
)
\mu _i(i=1,\cdots,m)
μi(i=1,⋯,m)使得(4)成立。定义集合
S
=
{
a
∣
a
=
−
∑
i
=
1
l
λ
i
a
i
−
∑
i
=
1
m
μ
i
b
i
,
λ
i
∈
R
,
μ
i
⩾
0
}
S=\{ a\mid a=-\sum_{i=1}^{l}\lambda_i a_i-\sum_{i=1}^{m}\mu_i b_i,\lambda_i\in R,\mu_i\geqslant 0\}
S={a∣a=−i=1∑lλiai−i=1∑mμibi,λi∈R,μi⩾0}
显然
S
S
S是
R
n
\mathbb{R}^n
Rn中的闭凸锥,由于
a
0
∉
S
a_0\notin S
a0∈/S,根据凸分离定理必存在
d
∈
R
n
d\in \mathbb{R}^n
d∈Rn ,使得
d
T
a
0
<
α
<
d
T
a
,
∀
a
∈
S
d^T a_0<\alpha<d^Ta,\forall a\in S
dTa0<α<dTa,∀a∈S,其中𝜶是某一常数。由于
0
∈
S
0\in S
0∈S,所以
d
T
a
0
<
0
d^T a_0<0
dTa0<0
∀ μ > 0 \forall \mu>0 ∀μ>0,均有 − μ b i ∈ S -\mu b_i\in S −μbi∈S,从而 − μ d T b i > α , ∀ μ > 0 -\mu d^T b_i>\alpha,\forall \mu>0 −μdTbi>α,∀μ>0,不等式两边同除 μ \mu μ,然后令 μ → + ∞ \mu \to +\infty μ→+∞ ,即得到 d T b i ⩽ 0 d^T b_i\leqslant 0 dTbi⩽0
同样的, ∀ λ > 0 \forall\lambda>0 ∀λ>0均有 λ a i ∈ S , − λ a i ∈ S \lambda a_i\in S,-\lambda a_i\in S λai∈S,−λai∈S,所以可证 d T a i ⩾ 0 d^T a_i\geqslant 0 dTai⩾0和 d T a i ⩽ 0 d^T a_i\leqslant 0 dTai⩽0,故 d T a i = 0 d^T a_i= 0 dTai=0
所以,向量 d d d是(1)(2)(3)的一个解。
上面的引理说明线性系统(1)(2)(3)和线性表达式(4)必有且仅有一个成立,故该引理也被称为择一性引理。
KKT定理
设
x
∗
x^*
x∗是一个局部极小点,如果
S
F
D
(
x
∗
,
X
)
=
L
F
D
(
x
∗
,
X
)
SFD(x^*,X)= LFD(x^*,X)
SFD(x∗,X)=LFD(x∗,X),则必存在
λ
i
∗
,
μ
i
∗
\lambda_i^*,\mu_i^*
λi∗,μi∗使得
∇
x
L
(
x
∗
,
λ
∗
)
=
0
⟹
∇
f
(
x
∗
)
+
∑
i
=
1
l
λ
i
∗
∇
h
i
(
x
∗
)
+
∑
i
=
1
m
μ
i
∗
∇
g
i
(
x
∗
)
=
0
μ
i
∗
⩾
0
,
i
∈
I
μ
i
∗
g
i
(
x
∗
)
=
0
,
i
∈
I
h
i
(
x
∗
)
=
0
\nabla_xL(x^*,\lambda^*)=0\implies\nabla f(x^*)+\sum_{i=1}^l\lambda^*_i\nabla h_i(x^*)+\sum_{i=1}^{m}\mu_i^*\nabla g_i(x^*)=0\\ \mu_i^*\geqslant 0,i\in I\\ \mu_i^*g_i(x^*)=0,i\in I\\ h_i(x^*)=0
∇xL(x∗,λ∗)=0⟹∇f(x∗)+i=1∑lλi∗∇hi(x∗)+i=1∑mμi∗∇gi(x∗)=0μi∗⩾0,i∈Iμi∗gi(x∗)=0,i∈Ihi(x∗)=0
证明:由定理1、
S
F
D
=
L
F
D
SFD=LFD
SFD=LFD,可知如下线性系统无解
d
T
∇
h
i
(
x
∗
)
=
0
,
i
∈
E
d
T
∇
g
i
(
x
∗
)
⩽
0
,
i
∈
I
(
x
∗
)
d
T
∇
f
(
x
∗
)
<
0
d^T\nabla h_i(x^*)=0,i\in E\\ d^T\nabla g_i(x^*)\leqslant 0,i\in I(x^*)\\ d^T\nabla f(x^*)<0
dT∇hi(x∗)=0,i∈EdT∇gi(x∗)⩽0,i∈I(x∗)dT∇f(x∗)<0
利用Farkas引理知存在
λ
i
∗
∈
R
(
i
∈
E
)
,
μ
i
∗
⩾
0
(
i
∈
I
(
x
∗
)
)
\lambda_i^*\in R(i\in E),\mu_i^*\geqslant 0(i\in I(x^*))
λi∗∈R(i∈E),μi∗⩾0(i∈I(x∗))使得
∇
f
(
x
∗
)
+
∑
i
∈
E
λ
i
∗
∇
h
i
(
x
∗
)
+
∑
i
∈
I
(
x
∗
)
μ
i
∗
∇
g
i
(
x
∗
)
=
0
\nabla f(x^*)+\sum_{i\in E}\lambda^*_i\nabla h_i(x^*)+\sum_{i\in I(x^*)}\mu_i^*\nabla g_i(x^*)=0
∇f(x∗)+i∈E∑λi∗∇hi(x∗)+i∈I(x∗)∑μi∗∇gi(x∗)=0
对于起作用不等式约束: g i ( x ∗ ) = 0 , i ∈ I ( x ∗ ) g_i(x^*)=0,i\in I(x^*) gi(x∗)=0,i∈I(x∗)
令
λ
i
∗
=
0
,
i
∈
I
\
I
(
x
∗
)
\lambda_i^*=0,i\in I\backslash I(x^*)
λi∗=0,i∈I\I(x∗)便得到
λ
i
∗
g
i
(
x
∗
)
=
0
,
i
∈
I
\lambda_i^* g_i(x^*)=0,i\in I
λi∗gi(x∗)=0,i∈I
∇
f
(
x
∗
)
+
∑
i
∈
E
λ
i
∗
∇
h
i
(
x
∗
)
+
∑
i
∈
I
μ
i
∗
∇
g
i
(
x
∗
)
=
0
λ
i
∗
g
i
(
x
∗
)
=
0
,
i
∈
I
\nabla f(x^*)+\sum_{i\in E}\lambda^*_i\nabla h_i(x^*)+\sum_{i\in I}\mu_i^*\nabla g_i(x^*)=0\\ \lambda_i^* g_i(x^*)=0,i\in I
∇f(x∗)+i∈E∑λi∗∇hi(x∗)+i∈I∑μi∗∇gi(x∗)=0λi∗gi(x∗)=0,i∈I
如果问题是凸规划,则为充分必要条件
充分性条件
设
x
∗
∈
X
x^*\in X
x∗∈X,如果目标函数和约束函数在
x
∗
x^*
x∗点都可微,且
d
T
∇
f
(
x
∗
)
>
0
,
∀
0
≠
d
∈
S
F
D
(
x
∗
,
X
)
(1)
d^T\nabla f(x^*)>0,\forall 0\neq d \in SFD(x^*,X)\tag{1}
dT∇f(x∗)>0,∀0=d∈SFD(x∗,X)(1)
则
x
∗
x^*
x∗是问题P的严格局部极小点.注意这里𝑳𝑭𝑫 ← 𝑺𝑭𝑫也成立。
证明:假定(1)成立,如果 x ∗ x^* x∗不是局部严格极小点,则存在一个序列 { x k } ∈ X \{x_k\}\in X {xk}∈X使得 f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)⩽f(x∗)
且有 x k → x ∗ , x k ≠ x ∗ ( k = 1 , ⋯ ) x_k\to x^*,x_k\neq x^*(k=1,\cdots) xk→x∗,xk=x∗(k=1,⋯),定义 d k = x k − x ∗ ∥ x k − x ∗ ∥ 2 d_k=\dfrac{x_k-x^*}{\Vert{x_k-x^*}\Vert_2} dk=∥xk−x∗∥2xk−x∗,由于 { ∥ d k ∥ } \{\Vert{d_k}\Vert\} {∥dk∥}有界,故 { d k } \{d_k\} {dk}有收敛子列,不妨设该子列为 { d k } \{d_k \} {dk},且 d k → d d_k\to d dk→d。由可行方向的定义知 d ∈ S F D ( x ∗ , X ) d\in SFD(x^*,X) d∈SFD(x∗,X)。
根据定义即知
d
∈
S
F
D
(
x
∗
,
X
)
d\in SFD(x^*,X)
d∈SFD(x∗,X)
f
(
x
k
)
−
f
(
x
∗
)
=
(
x
k
−
x
∗
)
T
∇
f
(
x
∗
)
+
o
(
∥
x
k
−
x
∗
∥
)
⩽
0
f(x_k)-f(x^*)=(x_k-x^*)^T\nabla f(x^*)+o(\Vert{x_k-x^*}\Vert)\leqslant0
f(xk)−f(x∗)=(xk−x∗)T∇f(x∗)+o(∥xk−x∗∥)⩽0
k
→
∞
,
x
k
→
x
∗
k\to\infty ,x_k\to x^*
k→∞,xk→x∗取极限得
d
T
∇
f
(
x
∗
)
⩽
0
d^T \nabla f(x^*)\leqslant 0
dT∇f(x∗)⩽0,与条件矛盾
二阶最优性条件
由一阶充分条件知 ∀ d ∈ S F D ( x ∗ ) , d T ∇ f ( x ∗ ) > 0 \forall d\in SFD(x^*),d^T\nabla f(x^*)>0 ∀d∈SFD(x∗),dT∇f(x∗)>0,则 x ∗ x^* x∗是一个严格局部最优解;
由一阶必要条件知,若 ∃ d ∈ S F D ( x ∗ ) , d T ∇ f ( x ∗ ) < 0 \exists d\in SFD(x^*),d^T\nabla f(x^*)<0 ∃d∈SFD(x∗),dT∇f(x∗)<0,即在 x ∗ x^* x∗处有可行下降方向,则 x ∗ x^* x∗不是局部最优解。
这就是说根据 x ∗ x^* x∗处可行方向均是上升方向还是有下降方向即可判断 x ∗ x^* x∗是否是最优解,但是对于 d T ∇ f ( x ∗ ) = 0 d^T \nabla f(x^*)=0 dT∇f(x∗)=0的可行方向还无法判断。
定义 设
x
∗
x^*
x∗是KKT点,
λ
∗
\lambda^*
λ∗是一相应的Lagrange乘子。如果
d
d
d是
X
X
X在
x
∗
x^*
x∗处的线性可行方向且
λ
i
∗
d
T
∇
g
i
(
x
∗
)
=
0
,
∀
i
∈
I
(
x
∗
)
\lambda_i^* d^T\nabla g_i(x^*)=0,\forall i\in I(x^*)
λi∗dT∇gi(x∗)=0,∀i∈I(x∗)
成立,则称
d
d
d是
X
X
X在
x
∗
x^*
x∗处的线性化零约束方向。称
x
∗
x^*
x∗处所有线性化零约束方向的集合记为
G
(
x
∗
,
λ
∗
)
G(x^*,\lambda^*)
G(x∗,λ∗)
注意到对不起作用的约束,有 λ i ∗ = 0 , i ∈ I \ I ( x ∗ ) \lambda_i^*=0,i\in I\backslash I(x^*) λi∗=0,i∈I\I(x∗)
由KKT条件得 ∇ f ( x ∗ ) = − ∑ i ∈ E ∪ I λ i ∗ ∇ c i ( x ∗ ) = 0 , d ∈ G ( x ∗ , λ ∗ ) \nabla f(x^*)=-\sum\limits_{i\in E\cup I}\lambda_i^*\nabla c_i(x^*)=0,d\in G(x^*,\lambda^*) ∇f(x∗)=−i∈E∪I∑λi∗∇ci(x∗)=0,d∈G(x∗,λ∗)
另一种等价定义为
设
x
∗
∈
X
x^*\in X
x∗∈X是一个KKT点,
λ
∗
\lambda^*
λ∗是一相应的Lagrange乘子如果
i
∈
E
i\in E
i∈E或者
λ
i
∗
>
0
\lambda_i^*>0
λi∗>0,则称
c
i
(
x
∗
)
c_i(x^*)
ci(x∗)是在
x
∗
x^*
x∗点(相对于
λ
∗
\lambda^*
λ∗)的强积极的。称
A
+
(
x
∗
,
λ
∗
)
=
E
∪
{
i
∣
i
∈
I
(
x
∗
)
,
λ
i
∗
>
0
}
A_+(x^*,\lambda^*)=E\cup\{i|i\in I(x^*),\lambda_i^*>0\}
A+(x∗,λ∗)=E∪{i∣i∈I(x∗),λi∗>0}
是在
x
∗
x^*
x∗处的强积极集合。不难发现
G
(
x
∗
,
λ
∗
)
=
L
F
D
(
x
∗
,
X
)
∩
{
d
∣
d
≠
0
,
d
T
∇
c
i
(
x
∗
)
=
0
,
i
∈
A
+
(
x
∗
,
λ
∗
)
}
=
{
d
∣
d
≠
0
,
d
T
∇
c
i
(
x
∗
)
⩾
0
,
λ
i
∗
=
0
,
i
∈
I
(
x
∗
)
;
d
T
∇
c
i
(
x
∗
)
=
0
,
λ
i
∗
>
0
,
i
∈
I
(
x
∗
)
;
d
T
∇
c
i
(
x
∗
)
=
0
,
i
∈
E
}
\begin{array}{l} G(x^*,\lambda^*)=LFD(x^*,X)\cap\{d|d\neq0,d^T\nabla c_i(x^*)=0,i\in A_+(x^*,\lambda^*)\}\\= \{d|d\neq0,d^T\nabla c_i(x^*)\geqslant 0,\lambda_i^*=0,i\in I(x^*); \\ \quad\qquad\qquad d^T\nabla c_i(x^*)= 0,\lambda_i^*>0,i\in I(x^*); \\ \quad\qquad\qquad d^T\nabla c_i(x^*)= 0,i\in E\} \end{array}
G(x∗,λ∗)=LFD(x∗,X)∩{d∣d=0,dT∇ci(x∗)=0,i∈A+(x∗,λ∗)}={d∣d=0,dT∇ci(x∗)⩾0,λi∗=0,i∈I(x∗);dT∇ci(x∗)=0,λi∗>0,i∈I(x∗);dT∇ci(x∗)=0,i∈E}
定义 设
x
∗
x^*
x∗是KKT点,
λ
∗
\lambda^*
λ∗是一相应的Lagrange乘子。如果存在序列
d
k
(
k
=
1
,
2
,
⋯
)
d_k(k=1,2,\cdots )
dk(k=1,2,⋯)和
δ
k
(
k
=
1
,
2
,
⋯
)
\delta_k(k=1,2,\cdots )
δk(k=1,2,⋯)使得
x
∗
+
δ
k
d
k
∈
X
∑
i
∈
E
∪
I
λ
i
∗
c
i
(
x
∗
+
δ
k
d
k
)
=
0
x^*+\delta_k d_k\in X\\ \sum_{i\in E\cup I}\lambda_i^*c_i(x^*+\delta_k d_k)=0
x∗+δkdk∈Xi∈E∪I∑λi∗ci(x∗+δkdk)=0
且有
d
k
→
d
,
δ
k
→
0
d_k\to d,\delta_k \to 0
dk→d,δk→0,则称
d
d
d是在
x
∗
x^*
x∗处的序列零约束方向。称
x
∗
x^*
x∗处所有序列零约束方向的集合记为
S
(
x
∗
,
λ
∗
)
S(x^*,\lambda^*)
S(x∗,λ∗)
根据定义有
S
(
x
∗
,
λ
∗
)
⊆
S
F
D
(
x
∗
,
X
)
G
(
x
∗
,
λ
∗
)
⊆
L
F
D
(
x
∗
,
X
)
S(x^*,\lambda^*)\subseteq SFD(x^*,X)\\ G(x^*,\lambda^*)\subseteq LFD(x^*,X)
S(x∗,λ∗)⊆SFD(x∗,X)G(x∗,λ∗)⊆LFD(x∗,X)
可证
S
(
x
∗
,
X
)
⊆
G
(
x
∗
,
λ
∗
)
S(x^*,X)\subseteq G(x^*,\lambda^*)
S(x∗,X)⊆G(x∗,λ∗)
二阶约束规范条件 S ( x ∗ , X ) = G ( x ∗ , λ ∗ ) S(x^*,X)= G(x^*,\lambda^*) S(x∗,X)=G(x∗,λ∗)
必要性条件
设 x ∗ x^* x∗是一个局部极小点,在 x ∗ x^* x∗处正则性假设成立,从而存在 λ ∗ \lambda^* λ∗使KKT条件满足,若对该 λ ∗ \lambda^* λ∗, S ( x ∗ , X ) = G ( x ∗ , λ ∗ ) S(x^*,X)= G(x^*,\lambda^*) S(x∗,X)=G(x∗,λ∗),则必有 d T ∇ x x 2 L ( x ∗ , λ ∗ ) d ⩾ 0 , ∀ d ∈ G ( x ∗ , λ ∗ ) d^T\nabla^2_{xx} L(x^*,\lambda^*)d\geqslant 0,\forall d\in G(x^*,\lambda^*) dT∇xx2L(x∗,λ∗)d⩾0,∀d∈G(x∗,λ∗)
证明:
对任何 d ∈ S ( x ∗ , λ ∗ ) d\in S(x^*,\lambda^*) d∈S(x∗,λ∗),如果 d = 0 d=0 d=0则显然有 d T ∇ x x 2 L ( x ∗ , λ ∗ ) d = 0 d^T\nabla_{xx}^2L(x^*,\lambda^*)d= 0 dT∇xx2L(x∗,λ∗)d=0.下面我们假定 d ≠ 0 d\neq 0 d=0.由 S ( x ∗ , λ ∗ ) S(x^*,\lambda^*) S(x∗,λ∗)的定义,必然存在序列 { d k } \{d_k\} {dk}和 { δ k } \{\delta_k\} {δk}使得 x k = x ∗ + δ k d k , δ k → 0 , d k → d x_k=x^*+\delta_k d_k,\delta_k\to 0,d_k\to d xk=x∗+δkdk,δk→0,dk→d
由
S
(
x
∗
,
λ
∗
)
S(x^*,\lambda^*)
S(x∗,λ∗)的定义可知
L
(
x
k
,
λ
∗
)
=
f
(
x
k
)
+
λ
∗
T
c
(
x
k
)
=
f
(
x
k
)
L(x_k,\lambda^*)=f(x_k)+\lambda^{*T}c(x_k)=f(x_k)
L(xk,λ∗)=f(xk)+λ∗Tc(xk)=f(xk)
另一方面,由KKT条件有
L
(
x
k
,
λ
∗
)
=
L
(
x
∗
,
λ
∗
)
+
δ
k
∇
x
L
(
x
∗
,
λ
∗
)
T
d
k
+
1
2
δ
k
2
d
k
T
∇
x
2
L
(
x
∗
,
λ
∗
)
T
d
k
+
o
(
δ
k
2
)
⟹
f
(
x
k
)
=
f
(
x
∗
)
+
1
2
δ
k
2
d
k
T
∇
x
2
L
(
x
∗
,
λ
∗
)
T
d
k
+
o
(
δ
k
2
)
L(x_k,\lambda^*)=L(x^*,\lambda^*)+\delta_k\nabla_x L(x^*,\lambda^*)^Td_k+\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)\\ \implies f(x_k)=f(x^*)+\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)
L(xk,λ∗)=L(x∗,λ∗)+δk∇xL(x∗,λ∗)Tdk+21δk2dkT∇x2L(x∗,λ∗)Tdk+o(δk2)⟹f(xk)=f(x∗)+21δk2dkT∇x2L(x∗,λ∗)Tdk+o(δk2)
由于
x
∗
x^*
x∗是局部极小点,对充分大的
k
k
k有
f
(
x
k
)
⩾
f
(
x
∗
)
f(x_k)\geqslant f(x^*)
f(xk)⩾f(x∗),故
1
2
δ
k
2
d
k
T
∇
x
2
L
(
x
∗
,
λ
∗
)
T
d
k
+
o
(
δ
k
2
)
⩾
0
d
k
T
∇
x
2
L
(
x
∗
,
λ
∗
)
T
d
k
+
o
(
δ
k
2
)
δ
k
2
⩾
0
\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)\geqslant 0\\ d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+\dfrac{o(\delta_k^2)}{\delta_k^2}\geqslant 0
21δk2dkT∇x2L(x∗,λ∗)Tdk+o(δk2)⩾0dkT∇x2L(x∗,λ∗)Tdk+δk2o(δk2)⩾0
令
k
→
∞
,
δ
k
→
0
,
d
k
→
d
k\to \infty,\delta_k\to 0,d_k\to d
k→∞,δk→0,dk→d得
d
T
∇
x
2
L
(
x
∗
,
λ
∗
)
T
d
⩾
0
d^T\nabla^2_x L(x^*,\lambda^*)^Td\geqslant 0
dT∇x2L(x∗,λ∗)Td⩾0
充分性条件
设
x
∗
,
λ
∗
x^*,\lambda^*
x∗,λ∗是优化问题的KKT对,如果
d
T
∇
x
2
L
(
x
∗
,
λ
∗
)
T
d
>
0
,
∀
0
≠
d
∈
G
(
x
∗
,
λ
∗
)
d^T\nabla^2_x L(x^*,\lambda^*)^Td> 0\ ,\ \forall 0\neq d\in G(x^*,\lambda^*)
dT∇x2L(x∗,λ∗)Td>0 , ∀0=d∈G(x∗,λ∗)
则
x
∗
x^*
x∗是局部严格极小点。
证明: 假定 x ∗ x^* x∗不是严格局部最优解,则存在可行点列 { x k } , x k → x ∗ \{x_k\},x_k\to x^* {xk},xk→x∗,使得 f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)⩽f(x∗)
记
x
k
=
x
∗
+
δ
k
d
k
x_k=x^*+\delta_k d_k
xk=x∗+δkdk ,其中
∥
d
k
∥
=
1
\Vert{d_k}\Vert=1
∥dk∥=1,当
k
→
∞
,
δ
k
→
0
k\to \infty,\delta_k\to 0
k→∞,δk→0。由于
{
∥
d
k
∥
}
\{\Vert{d_k}\Vert\}
{∥dk∥}有界,故
{
d
k
}
\{d_k\}
{dk}有收敛子列,不妨设该子列为
{
d
k
}
\{d_k \}
{dk},且
d
k
→
d
,
d
∈
S
F
D
(
x
∗
,
λ
∗
)
d_k\to d,d\in SFD(x^*,\lambda^*)
dk→d,d∈SFD(x∗,λ∗)。由Talor展开式得
f
(
x
k
)
=
f
(
x
∗
)
+
δ
k
d
k
T
∇
f
(
x
∗
)
+
o
(
δ
k
)
f(x_k)=f(x^*)+\delta_kd_k^T\nabla f(x^*)+o(\delta_k)
f(xk)=f(x∗)+δkdkT∇f(x∗)+o(δk)
而
f
(
x
k
)
⩽
f
(
x
∗
)
f(x_k)\leqslant f(x^*)
f(xk)⩽f(x∗),则
δ
k
d
k
T
∇
f
(
x
∗
)
+
o
(
δ
k
)
⩽
0
\delta_kd_k^T\nabla f(x^*)+o(\delta_k)\leqslant 0
δkdkT∇f(x∗)+o(δk)⩽0 令
k
→
∞
k\to \infty
k→∞,得
d
T
∇
f
(
x
∗
)
⩽
0
(
1
)
d^T\nabla f(x^*)\leqslant 0\quad(1)
dT∇f(x∗)⩽0(1)
思路一: 分类讨论
-
若 d ∉ G ( x ∗ , λ ∗ ) d\notin G(x^*,\lambda^*) d∈/G(x∗,λ∗),则存在 i ∈ I ( x ∗ ) i\in I(x^*) i∈I(x∗),使得 λ i ∗ > 0 , d T ∇ c i ( x ∗ ) < 0 \lambda^*_i>0,d^T\nabla c_i(x^*)<0 λi∗>0,dT∇ci(x∗)<0
从而 d T ∇ f ( x ∗ ) = − ∑ λ i ∗ d T ∇ c i ( x ∗ ) > 0 d^T\nabla f(x^*)=-\sum\lambda_i^*d^T\nabla c_i(x^*)>0 dT∇f(x∗)=−∑λi∗dT∇ci(x∗)>0 ,矛盾
-
若 d ∈ G ( x ∗ , λ ∗ ) d\in G(x^*,\lambda^*) d∈G(x∗,λ∗),由 x k x_k xk的可行性得
L ( x k , λ ∗ ) = f ( x k ) + ∑ λ i ∗ c i ( x k ) ⩽ f ( x k ) L(x_k,\lambda^*)=f(x_k)+\sum \lambda_i^* c_i(x_k)\leqslant f(x_k) L(xk,λ∗)=f(xk)+∑λi∗ci(xk)⩽f(xk)
由KKT条件有
L ( x k , λ ∗ ) = f ( x ∗ ) + 1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) L(x_k,\lambda^*)=f(x^*)+\dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2) L(xk,λ∗)=f(x∗)+21δk2dkT∇x2L(x∗,λ∗)Tdk+o(δk2)
因为 f ( x k ) ⩽ f ( x ∗ ) f(x_k)\leqslant f(x^*) f(xk)⩽f(x∗),故 1 2 δ k 2 d k T ∇ x 2 L ( x ∗ , λ ∗ ) T d k + o ( δ k 2 ) ⩽ 0 \dfrac{1}{2}\delta_k^2d_k^T\nabla^2_x L(x^*,\lambda^*)^Td_k+o(\delta_k^2)\leqslant 0 21δk2dkT∇x2L(x∗,λ∗)Tdk+o(δk2)⩽0令 k → ∞ k\to \infty k→∞,得 d T ∇ x 2 L ( x ∗ , λ ∗ ) T d ⩽ 0 d^T\nabla^2_x L(x^*,\lambda^*)^Td\leqslant 0 dT∇x2L(x∗,λ∗)Td⩽0与假设矛盾
思路二: 证明 d ∈ G ( x ∗ , λ ∗ ) d\in G(x^*,\lambda^*) d∈G(x∗,λ∗)
由
d
∈
S
F
D
(
x
∗
,
λ
∗
)
⊆
L
F
D
(
x
∗
,
λ
∗
)
d\in SFD(x^*,\lambda^*)\subseteq LFD(x^*,\lambda^*)
d∈SFD(x∗,λ∗)⊆LFD(x∗,λ∗),知
d
d
d满足线性可行方向的条件,故由KKT定理得
d
T
∇
f
(
x
∗
)
=
∑
i
∈
E
∪
I
λ
∗
d
T
∇
c
i
(
x
∗
)
⩾
0
(
2
)
d^T\nabla f(x^*)=\sum_{i\in E\cup I}\lambda^* d^T\nabla c_i(x^*)\geqslant 0\quad (2)
dT∇f(x∗)=i∈E∪I∑λ∗dT∇ci(x∗)⩾0(2)
由(1)(2)式得
d
T
∇
f
(
x
∗
)
=
0
λ
i
∗
d
T
∇
c
i
(
x
∗
)
=
0
,
∀
i
∈
I
(
x
∗
)
d^T\nabla f(x^*)=0\\ \lambda_i^*d^T\nabla c_i(x^*)=0,\forall i\in I(x^*)
dT∇f(x∗)=0λi∗dT∇ci(x∗)=0,∀i∈I(x∗)
知
d
∈
G
(
x
∗
,
λ
∗
)
d\in G(x^*,\lambda^*)
d∈G(x∗,λ∗) ,再由思路一情况2的证明即可得到二阶充分性条件。