等式约束问题
问题形式:
min
f
(
x
)
,
x
∈
R
n
s.t.
h
i
(
x
)
=
0
,
i
=
1
,
2
,
⋯
,
l
(1)
\begin{array}{ll} \min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\ \text { s.t. } h_{i}(\boldsymbol{x})=0, & i=1,2, \cdots, l \end{array} \qquad \tag {1}
minf(x), s.t. hi(x)=0,x∈Rni=1,2,⋯,l(1)
做问题(1)的拉格朗日函数:
L
(
x
,
λ
)
=
f
(
x
)
−
∑
i
=
1
l
λ
i
h
i
(
x
)
L(\boldsymbol{x}, \boldsymbol{\lambda})=f(\boldsymbol{x})-\sum_{i=1}^{l} \lambda_{i} h_{i}(\boldsymbol{x})
L(x,λ)=f(x)−i=1∑lλihi(x)
其中,
λ
=
(
λ
1
,
λ
2
,
⋯
,
λ
l
)
T
\lambda = (\lambda_1,\lambda_2,\cdots,\lambda_l)^T
λ=(λ1,λ2,⋯,λl)T为乘子向量。
等式的KKT条件
问题(1)取极小值的一阶必要条件,也就是通常所说的KKT条件(Karush-Kuhn-Tucker条件):
定理 1 设问题(1)的局部极小点为:
x
∗
x^*
x∗,函数
f
(
x
)
和
h
i
(
x
)
(
i
=
1
,
2
,
⋯
,
l
)
f(x)和h_i(x)(i=1,2,\cdots,l)
f(x)和hi(x)(i=1,2,⋯,l)在
x
∗
x^*
x∗的某邻域连续可微,向量组
∇
h
i
(
x
∗
)
\nabla h_i(x^*)
∇hi(x∗)线性无关,则存在乘子向量
λ
=
(
λ
1
,
λ
2
,
⋯
,
λ
l
)
T
\lambda = (\lambda_1,\lambda_2,\cdots,\lambda_l)^T
λ=(λ1,λ2,⋯,λl)T使得:
∇
x
L
(
x
∗
,
λ
∗
)
=
0
\nabla_{x} L\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right)=\mathbf{0}
∇xL(x∗,λ∗)=0
即:
∇
f
(
x
∗
)
−
∑
i
=
1
l
λ
i
∗
∇
h
i
(
x
∗
)
=
0
\nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{l} \lambda_{i}^{*} \nabla h_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0}
∇f(x∗)−i=1∑lλi∗∇hi(x∗)=0
问题(1)取极小值的二阶必要条件,需用到(2)式的拉格朗日函数的梯度和Hesse矩阵,即;
∇
L
(
x
,
λ
)
=
(
∇
x
L
(
x
,
λ
)
∇
λ
L
(
x
,
λ
)
)
=
(
∇
f
(
x
)
−
∑
i
=
1
l
λ
i
∇
h
i
(
x
)
−
h
(
x
)
)
∇
x
x
2
L
(
x
,
λ
)
=
∇
2
f
(
x
)
−
∑
i
=
1
l
λ
i
∇
2
h
i
(
x
)
\begin{array}{l} \nabla L(\boldsymbol{x}, \boldsymbol{\lambda})=\left(\begin{array}{c} \nabla_{\boldsymbol{x}} L(\boldsymbol{x}, \boldsymbol{\lambda}) \\ \nabla_{\boldsymbol{\lambda}} L(\boldsymbol{x}, \boldsymbol{\lambda}) \end{array}\right)=\left(\begin{array}{c} \nabla f(\boldsymbol{x})-\sum_{i=1}^{l} \lambda_{i} \nabla h_{i}(\boldsymbol{x}) \\ -\boldsymbol{h}(\boldsymbol{x}) \end{array}\right) \\ \nabla_{\boldsymbol{x} \boldsymbol{x}}^{2} L(\boldsymbol{x}, \boldsymbol{\lambda})=\nabla^{2} f(\boldsymbol{x})-\sum_{i=1}^{l} \lambda_{i} \nabla^{2} h_{i}(\boldsymbol{x}) \end{array}
∇L(x,λ)=(∇xL(x,λ)∇λL(x,λ))=(∇f(x)−∑i=1lλi∇hi(x)−h(x))∇xx2L(x,λ)=∇2f(x)−∑i=1lλi∇2hi(x)
若考虑二阶充分性条件,还需要目标函数和约束函数都是二阶连续可微的。
定理 2 函数 f ( x ) 和 h i ( x ) ( i = 1 , 2 , ⋯ , l ) f(x)和h_i(x)(i=1,2,\cdots,l) f(x)和hi(x)(i=1,2,⋯,l)二阶连续可微,且存在 ( x ∗ , λ ∗ ) ∈ R n × R l (x^*,\lambda^*) \in R^n \times R^l (x∗,λ∗)∈Rn×Rl使得 ∇ L ( x ∗ , λ ∗ ) = 0 \nabla L\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right)=\mathbf{0} ∇L(x∗,λ∗)=0。对 ∀ d ≠ 0 ∈ R n , ∇ h i ( x ∗ ) T d = 0 ( i = 1 , 2 , . . . l ) \forall d \neq 0 \in R^n,\nabla h_i(x^*)^Td=0(i=1,2,...l) ∀d=0∈Rn,∇hi(x∗)Td=0(i=1,2,...l),均有 d T ∇ x x 2 L ( x ∗ , λ ∗ ) d > 0 d^T \nabla_{\boldsymbol{x} \boldsymbol{x}}^{2}L\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right) d > 0 dT∇xx2L(x∗,λ∗)d>0,则 x ∗ x^* x∗是问题(1)的一个严格局部极小点。
不等式约束问题
问题形式:
min
f
(
x
)
,
x
∈
R
n
s.t.
g
i
(
x
)
≥
0
,
i
=
1
,
2
,
⋯
,
m
(2)
\begin{array}{ll} \min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\ \text { s.t. } g_{i}(\boldsymbol{x})\geq 0, & i=1,2, \cdots, m \end{array} \qquad \tag{2}
minf(x), s.t. gi(x)≥0,x∈Rni=1,2,⋯,m(2)
记可行域为
D
=
{
x
∈
R
n
∣
g
i
(
x
)
⩾
0
,
i
=
1
,
2
,
⋯
,
m
}
,
\mathcal{D}=\left\{\boldsymbol{x} \in \mathbf{R}^{n} | g_{i}(\boldsymbol{x}) \geqslant 0, i=1,2, \cdots, m\right\},
D={x∈Rn∣gi(x)⩾0,i=1,2,⋯,m}, 指标集
I
=
{
1
,
2
,
⋯
,
m
}
\mathcal{I}=\{1,2, \cdots, m\}
I={1,2,⋯,m}。
不等式约束问题的最优性条件需要用到有效约束,和非有效约束的概念。
问题(2)的一个可行点 x ‾ ∈ D \overline {x} \in \mathcal{D} x∈D,使得 g i ( x ‾ ) = 0 g_i(\overline x) =0 gi(x)=0,则称不等式约束 g i ( x ) ≥ 0 g_i(x) \geq 0 gi(x)≥0为 x ‾ \overline x x的有效约束。反之,若有 g i ( x ‾ ) > 0 g_i(\overline x) >0 gi(x)>0,则称不等式约束 g i ( x ) ≥ 0 g_i(x) \geq 0 gi(x)≥0为 x ‾ \overline x x的非有效约束。称集合: I ( x ‾ ) = { i ∣ g i ( x ‾ ) = 0 } \mathcal{I} (\overline x) = \{i | g_i(\overline x) = 0 \} I(x)={i∣gi(x)=0}为 x ‾ \overline x x处的有效约束指标集,简称有效集。
下面的两个引理是研究不等式约束问题最优性条件的基础。
引理 1 (Farkas 引理) 设
a
,
b
i
∈
R
n
(
i
=
1
,
2
,
⋯
,
r
)
.
\boldsymbol{a}, \boldsymbol{b}_{i} \in \mathbf{R}^{n}(i=1,2, \cdots, r) .
a,bi∈Rn(i=1,2,⋯,r). 则线性不等式组
b
i
T
d
⩾
0
,
i
=
1
,
2
,
⋯
,
r
,
d
∈
R
n
\boldsymbol{b}_{i}^{\mathrm{T}} \boldsymbol{d} \geqslant 0, \quad i=1,2, \cdots, r, \boldsymbol{d} \in \mathbf{R}^{n}
biTd⩾0,i=1,2,⋯,r,d∈Rn
与不等式
a
T
d
⩾
0
\boldsymbol{a}^{\mathrm{T}} \boldsymbol{d} \geqslant 0
aTd⩾0相容的充要条件是存在非负实数
α
1
,
α
2
,
⋯
,
α
r
,
\alpha_{1}, \alpha_{2}, \cdots, \alpha_{r},
α1,α2,⋯,αr, 使得
a
=
∑
i
=
1
r
α
i
b
i
\boldsymbol{a}=\sum_{i=1}^{r} \alpha_{i} \boldsymbol{b}_{i}
a=∑i=1rαibi.
引理 2 (Gordan 引理) 设
b
i
∈
R
n
(
i
=
1
,
2
,
⋯
,
r
)
.
\boldsymbol{b}_{i} \in \mathbf{R}^{n}(i=1,2, \cdots, r) .
bi∈Rn(i=1,2,⋯,r). 线性不等式组
b
i
T
d
<
0
,
i
=
1
,
2
,
⋯
,
r
,
d
∈
R
n
\boldsymbol{b}_{i}^{\mathrm{T}} \boldsymbol{d}<0, \quad i=1,2, \cdots, r, \boldsymbol{d} \in \mathbf{R}^{n}
biTd<0,i=1,2,⋯,r,d∈Rn
无解的充要条件是
b
i
(
i
=
1
,
2
,
⋯
,
r
)
\boldsymbol{b}_{i}(i=1,2, \cdots, r)
bi(i=1,2,⋯,r) 线性相关, 即存在不全为 0 的非负实数
α
i
(
i
=
1
,
2
,
⋯
,
r
)
,
\alpha_{i}(i=1,2, \cdots, r),
αi(i=1,2,⋯,r), 使得
∑
i
=
1
r
α
i
b
i
=
0
\sum_{i=1}^{r} \alpha_{i} \boldsymbol{b}_{i}=\mathbf{0}
i=1∑rαibi=0
下面的引理可以认为是一个集合最优性条件
引理 3 设
x
∗
\boldsymbol{x}^{*}
x∗ 是不等式约束问题(2) 的一个局部极小点,
I
(
x
∗
)
=
{
i
∣
g
i
(
x
∗
)
=
0
,
i
=
1
,
2
,
⋯
,
m
}
.
\mathcal{I}\left(\boldsymbol{x}^{*}\right)=\left\{i | g_{i}\left(\boldsymbol{x}^{*}\right)=0, i=1,2, \cdots, m\right\} .
I(x∗)={i∣gi(x∗)=0,i=1,2,⋯,m}. 假设
f
(
x
)
f(\boldsymbol{x})
f(x) 和
g
i
(
x
)
(
i
∈
g_{i}(\boldsymbol{x})(i \in
gi(x)(i∈
I
(
x
∗
)
)
\left.\mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)
I(x∗)) 在
x
∗
\boldsymbol{x}^{*}
x∗ 处可微, 且
g
i
(
x
)
(
i
∈
I
\
I
(
x
∗
)
)
g_{i}(\boldsymbol{x})\left(i \in \mathcal{I} \backslash \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)
gi(x)(i∈I\I(x∗)) 在
x
∗
\boldsymbol{x}^{*}
x∗ 处连续, 则问题(2)的可行方向集 F 与下降方向集
S
\mathcal{S}
S 的交集是空集, 即
F
∩
S
=
∅
\mathcal{F} \cap \mathcal{S}=\varnothing
F∩S=∅
其中
F
=
{
d
∈
R
n
∣
∇
g
i
(
x
∗
)
T
d
>
0
,
i
∈
I
(
x
∗
)
}
S
=
{
d
∈
R
n
∣
∇
f
(
x
∗
)
T
d
<
0
}
\begin{array}{l} \mathcal{F}=\left\{\boldsymbol{d} \in \mathbf{R}^{n} | \nabla g_{i}\left(\boldsymbol{x}^{*}\right)^{\mathrm{T}} \boldsymbol{d}>0, i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right\} \\ \mathcal{S}=\left\{\boldsymbol{d} \in \mathbf{R}^{n} | \nabla f\left(\boldsymbol{x}^{*}\right)^{\mathrm{T}} \boldsymbol{d}<0\right\} \end{array}
F={d∈Rn∣∇gi(x∗)Td>0,i∈I(x∗)}S={d∈Rn∣∇f(x∗)Td<0}
不等式约束的KKT条件
定理 8.3 (KKT 条件) 设
x
∗
\boldsymbol{x}^{*}
x∗ 是不等式约束问题 (2) 的局部极小点, 有效约束集
I
(
x
∗
)
=
{
i
∣
g
i
(
x
∗
)
=
0
,
i
=
1
,
2
,
⋯
,
m
}
.
\mathcal{I}\left(\boldsymbol{x}^{*}\right)=\left\{i | g_{i}\left(\boldsymbol{x}^{*}\right)=0, i=1,2, \cdots, m\right\} .
I(x∗)={i∣gi(x∗)=0,i=1,2,⋯,m}. 并设
f
(
x
)
f(\boldsymbol{x})
f(x)和
g
i
(
x
)
(
i
=
1
,
2
,
⋯
,
m
)
g_{i}(\boldsymbol{x})(i=1,2, \cdots, m)
gi(x)(i=1,2,⋯,m) 在
x
∗
\boldsymbol{x}^{*}
x∗ 处可微. 若向量组
∇
g
i
(
x
∗
)
(
i
∈
I
(
x
∗
)
)
\nabla g_{i}\left(\boldsymbol{x}^{*}\right)\left(i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)
∇gi(x∗)(i∈I(x∗))线性无关,则存在向量
λ
∗
=
(
λ
1
∗
,
λ
2
∗
,
⋯
,
λ
m
∗
)
T
\boldsymbol{\lambda}^{*}=\left(\lambda_{1}^{*}, \lambda_{2}^{*}, \cdots,\lambda_{m}^{*}\right)^{\mathrm{T}}
λ∗=(λ1∗,λ2∗,⋯,λm∗)T 使得
{
∇
f
(
x
∗
)
−
∑
i
=
1
m
λ
i
∗
∇
g
i
(
x
∗
)
=
0
g
i
(
x
∗
)
⩾
0
,
λ
i
∗
⩾
0
,
λ
i
∗
g
i
(
x
∗
)
=
0
,
i
=
1
,
2
,
⋯
,
m
\left\{\begin{array}{l} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{m} \lambda_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ g_{i}\left(\boldsymbol{x}^{*}\right) \geqslant 0, \quad \lambda_{i}^{*} \geqslant 0, \quad \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0, \quad i=1,2, \cdots, m \end{array}\right.
{∇f(x∗)−∑i=1mλi∗∇gi(x∗)=0gi(x∗)⩾0,λi∗⩾0,λi∗gi(x∗)=0,i=1,2,⋯,m
一般约束问题
现在考虑下面的一般约束优化问题的最优性条件:
min
f
(
x
)
,
x
∈
R
n
s.t.
h
i
(
x
)
=
0
,
i
=
1
,
2
,
⋯
,
l
g
i
(
x
)
⩾
0
,
i
=
1
,
2
,
⋯
,
m
(3)
\begin{array}{ll} \min f(\boldsymbol{x}), & \boldsymbol{x} \in \mathbf{R}^{n} \\ \text { s.t. } & h_{i}(\boldsymbol{x})=0, i=1,2, \cdots, l \\ & g_{i}(\boldsymbol{x}) \geqslant 0, \quad i=1,2, \cdots, m \end{array} \qquad \tag{3}
minf(x), s.t. x∈Rnhi(x)=0,i=1,2,⋯,lgi(x)⩾0,i=1,2,⋯,m(3)
记可行域为
D
=
{
x
∈
R
n
∣
h
i
(
x
)
=
0
,
i
∈
E
,
g
i
(
x
)
⩾
0
,
i
∈
I
}
,
\mathcal{D}=\left\{\boldsymbol{x} \in \mathbf{R}^{n} | h_{i}(\boldsymbol{x})=0, i \in \mathcal{E}, g_{i}(\boldsymbol{x}) \geqslant 0, i \in \mathcal{I}\right\},
D={x∈Rn∣hi(x)=0,i∈E,gi(x)⩾0,i∈I}, 指标集
E
=
{
1
,
2
,
⋯
,
l
}
,
I
=
{
1
,
2
,
⋯
,
m
}
\mathcal{E}=\{1,2, \cdots, l\}, \mathcal{I}=\{1,2, \cdots, m\}
E={1,2,⋯,l},I={1,2,⋯,m}
同理有拉格朗日函数:
L
(
x
,
μ
,
λ
)
=
f
(
x
)
−
∑
i
=
1
l
μ
i
h
i
(
x
)
−
∑
i
=
1
m
λ
i
g
i
(
x
)
L(\boldsymbol{x}, \boldsymbol{\mu ,\lambda})=f(\boldsymbol{x})-\sum_{i=1}^{l} \mu_{i} h_{i}(\boldsymbol{x}) - \sum_{i=1}^{m} \lambda_{i} g_{i}(\boldsymbol{x})
L(x,μ,λ)=f(x)−i=1∑lμihi(x)−i=1∑mλigi(x)
把定理 1 和定理 3 结合起 来即 得到一般约束问题 (3) 的KKT 一阶必要条件。
定理 4 (KKT 一阶必要条件) 设
x
∗
\boldsymbol{x}^{*}
x∗ 是一般约束问题的局部极小点,在
x
∗
\boldsymbol{x}^{*}
x∗ 处的有效约束集为
S
(
x
∗
)
=
E
∪
I
(
x
∗
)
=
E
∪
{
i
∣
g
i
(
x
∗
)
=
0
,
i
∈
I
}
S\left(\boldsymbol{x}^{*}\right)=\mathcal{E} \cup \mathcal{I}\left(\boldsymbol{x}^{*}\right)=\mathcal{E} \cup\left\{i | g_{i}\left(\boldsymbol{x}^{*}\right)=0, i \in \mathcal{I}\right\}
S(x∗)=E∪I(x∗)=E∪{i∣gi(x∗)=0,i∈I}
并设 f ( x ) , h i ( x ) ( i ∈ E ) f(\boldsymbol{x}), \quad h_{i}(\boldsymbol{x})(i \in \mathcal{E}) f(x),hi(x)(i∈E) 和 g i ( x ) ( i ∈ I ) g_{i}(\boldsymbol{x})(i \in \mathcal{I}) gi(x)(i∈I) 在 x ∗ \boldsymbol{x}^{*} x∗ 处可微. 若向量组
∇ h i ( x ∗ ) ( i ∈ E ) , ∇ g i ( x ∗ ) ( i ∈ I ( x ∗ ) ) \nabla h_{i}\left(\boldsymbol{x}^{*}\right)(i \in \mathcal{E}), \nabla g_{i}\left(\boldsymbol{x}^{*}\right)\left(i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right) ∇hi(x∗)(i∈E),∇gi(x∗)(i∈I(x∗))
线性无关, 则存在向量 ( μ ∗ , λ ∗ ) ∈ R l × R m , 其中 μ ∗ = ( μ 1 ∗ , μ 2 ∗ , ⋯ , μ l ∗ ) T , λ ∗ = ( λ 1 ∗ , λ 2 ∗ , ⋯ , λ m ∗ ) T , \left(\boldsymbol{\mu}^{*}, \boldsymbol{\lambda}^{*}\right) \in \mathbf{R}^{l} \times \mathbf{R}^{m}, \text { 其中 } \boldsymbol{\mu}^{*}=\left(\mu_{1}^{*}, \mu_{2}^{*}, \cdots, \mu_{l}^{*}\right)^{\mathrm{T}}, \boldsymbol{\lambda}^{*}=\left(\lambda_{1}^{*}, \lambda_{2}^{*}, \cdots, \lambda_{m}^{*}\right)^{\mathrm{T}}, (μ∗,λ∗)∈Rl×Rm, 其中 μ∗=(μ1∗,μ2∗,⋯,μl∗)T,λ∗=(λ1∗,λ2∗,⋯,λm∗)T,
使得
{
c
∇
f
(
x
∗
)
−
∑
i
=
1
l
μ
i
∗
∇
h
i
(
x
∗
)
−
∑
i
=
1
m
λ
i
∗
∇
g
i
(
x
∗
)
=
0
h
i
(
x
∗
)
=
0
,
i
∈
E
g
i
(
x
∗
)
⩾
0
,
λ
i
∗
⩾
0
,
λ
i
∗
g
i
(
x
∗
)
=
0
,
i
∈
I
(4)
\begin{cases}{c} \nabla f\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{l} \mu_{i}^{*} \nabla h_{i}\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{m} \lambda_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ h_{i}\left(\boldsymbol{x}^{*}\right)=0, i \in \mathcal{E} \\ g_{i}\left(\boldsymbol{x}^{*}\right) \geqslant 0, \\ \quad \lambda_{i}^{*} \geqslant 0, \\ \quad \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0, \quad i \in \mathcal{I} \end{cases} \qquad \tag{4}
⎩
⎨
⎧c∇f(x∗)−∑i=1lμi∗∇hi(x∗)−∑i=1mλi∗∇gi(x∗)=0hi(x∗)=0,i∈Egi(x∗)⩾0,λi∗⩾0,λi∗gi(x∗)=0,i∈I(4)
注
(1) 式 (4)称为 KKT 条件, 满足这一条件的点
x
∗
\boldsymbol{x}^{*}
x∗ 称为 KKT点.
(
x
∗
,
(
μ
∗
,
λ
∗
)
)
\left(\boldsymbol{x}^{*},\left(\boldsymbol{\mu}^{*}, \boldsymbol{\lambda}^{*}\right)\right)
(x∗,(μ∗,λ∗)) 称为
K
K
T
\mathrm{KKT}
KKT 对, 其中
(
μ
∗
,
λ
∗
)
\left(\boldsymbol{\mu}^{*}, \boldsymbol{\lambda}^{*}\right)
(μ∗,λ∗) 称为问题的拉格朗日乘子. 通常 KKT 点、KKT 对和 KKT 条件可以不加区别的使用。
(2)
λ
i
∗
g
i
(
x
∗
)
=
0
(
i
∈
I
(
x
∗
)
)
\quad \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0\left(i \in \mathcal{I}\left(\boldsymbol{x}^{*}\right)\right)
λi∗gi(x∗)=0(i∈I(x∗)) 称为互补性松他条件. 这意味着
λ
i
∗
\lambda_{i}^{*}
λi∗和
g
i
(
x
∗
)
g_{i}\left(\boldsymbol{x}^{*}\right)
gi(x∗) 中至少有一个必为
0.
0 .
0. 若二者中的一个为0, 而另一个严格大于0,则称为满足严格互补性松弛条件。
例子
例 考虑优化问题
m
i
n
f
(
x
)
=
−
2
x
1
2
−
x
2
2
s
.
t
.
x
1
2
+
x
2
2
−
2
=
0
−
x
1
2
+
x
2
2
≥
0
x
1
2
,
x
2
2
≥
0
min f(x) = -2x_{1}^{2} - x_{2}^{2} \\ s.t. \quad x_1^2 + x_2^2 - 2 =0 \\ - x_1^2 + x_2^2 \geq 0 \\ x_1^2, x_2^2 \geq 0
minf(x)=−2x12−x22s.t.x12+x22−2=0−x12+x22≥0x12,x22≥0
试验证
x
∗
=
(
1
,
1
)
T
x^* = (1,1)^T
x∗=(1,1)T为KKT点,并求出问题的KKT对。
解:计算
∇
f
(
x
∗
)
=
(
−
4
x
1
−
2
x
2
)
∣
x
=
x
∗
=
(
−
4
−
2
)
,
∇
h
(
x
∗
)
=
(
2
2
)
,
∇
g
1
(
x
∗
)
=
(
−
1
1
)
\nabla f\left(\boldsymbol{x}^{*}\right)=\left.\left(\begin{array}{l} -4 x_{1} \\ -2 x_{2} \end{array}\right)\right|_{\boldsymbol{x}=\boldsymbol{x}^{*}}=\left(\begin{array}{l} -4 \\ -2 \end{array}\right), \quad \nabla h\left(\boldsymbol{x}^{*}\right)=\left(\begin{array}{l} 2 \\ 2 \end{array}\right), \quad \nabla g_{1}\left(\boldsymbol{x}^{*}\right)=\left(\begin{array}{c} -1 \\ 1 \end{array}\right)
∇f(x∗)=(−4x1−2x2)
x=x∗=(−4−2),∇h(x∗)=(22),∇g1(x∗)=(−11)
令
∇
f
(
x
∗
)
−
μ
∗
∇
h
(
x
∗
)
−
λ
1
∗
∇
g
1
(
x
∗
)
=
0
\nabla f\left(\boldsymbol{x}^{*}\right)-\mu^{*} \nabla h\left(\boldsymbol{x}^{*}\right)-\lambda_{1}^{*} \nabla g_{1}\left(\boldsymbol{x}^{*}\right)=\mathbf{0}
∇f(x∗)−μ∗∇h(x∗)−λ1∗∇g1(x∗)=0
解得
μ
∗
=
−
1.5
,
λ
1
∗
=
1.
\mu^{*}=-1.5, \lambda_{1}^{*}=1 .
μ∗=−1.5,λ1∗=1. 再令
λ
2
∗
=
λ
3
∗
=
0
,
\lambda_{2}^{*}=\lambda_{3}^{*}=0,
λ2∗=λ3∗=0, 得
{
∇
f
(
x
∗
)
−
μ
∗
∇
h
(
x
∗
)
−
∑
i
=
1
3
λ
i
∗
∇
g
i
(
x
∗
)
=
0
λ
i
∗
g
i
(
x
∗
)
=
0
,
λ
i
⩾
0
,
i
=
1
,
2
,
3
\left\{\begin{array}{l} \nabla f\left(\boldsymbol{x}^{*}\right)-\mu^{*} \nabla h\left(\boldsymbol{x}^{*}\right)-\sum_{i=1}^{3} \lambda_{i}^{*} \nabla g_{i}\left(\boldsymbol{x}^{*}\right)=\mathbf{0} \\ \lambda_{i}^{*} g_{i}\left(\boldsymbol{x}^{*}\right)=0, \lambda_{i} \geqslant 0, i=1,2,3 \end{array}\right.
{∇f(x∗)−μ∗∇h(x∗)−∑i=13λi∗∇gi(x∗)=0λi∗gi(x∗)=0,λi⩾0,i=1,2,3
这表明
x
∗
\boldsymbol{x}^{*}
x∗ 是
K
K
T
\mathrm{KKT}
KKT 点,
(
x
∗
,
(
μ
∗
,
λ
∗
)
)
\left(\boldsymbol{x}^{*},\left(\mu^{*}, \boldsymbol{\lambda}^{*}\right)\right)
(x∗,(μ∗,λ∗)) 是
K
K
T
\mathrm{KKT}
KKT 对, 其中
μ
∗
=
−
1.5
,
λ
∗
=
(
1
,
0
,
0
)
T
\mu^{*}=-1.5,\boldsymbol{\lambda}^{*}=(1,0,0)^{\mathrm{T}}
μ∗=−1.5,λ∗=(1,0,0)T。
注记
-
一般而言,问题(3)的KKT点不一定是局部极小点,但当问题是凸优化问题时,KKT点、局部极小点、全局极小点是等价的。
-
凸优化问题是指(3)中的目标函数 f ( x ) f(x) f(x)是凸函数,约束条件 h i ( x ) h_i(x) hi(x)是线性函数, g i ( x ) g_i(x) gi(x)是凹函数。
-
定理 5 ( x ∗ , μ ∗ , λ ∗ ) \left(\boldsymbol{x}^{*},\mu^{*}, \boldsymbol{\lambda}^{*}\right) (x∗,μ∗,λ∗)是凸优化问题的KKT点,则 x ∗ x^* x∗必为该问题全局极小点。
-
鞍点不仅是KKT点,也是全局极小点。鞍点一定是KKT点,反之不一定。