1.原始问题
假设
f
(
x
)
,
c
i
(
x
)
,
h
j
(
x
)
f(x),c_i(x),h_j(x)
f(x),ci(x),hj(x)是定义在
R
n
R^n
Rn上的连续可微函数。考虑约束最优化问题:
min
x
∈
R
n
f
(
x
)
s
.
t
.
c
j
(
x
)
≤
0
,
i
=
1
,
2
,
…
k
h
j
(
x
)
=
0
,
j
=
1
,
2
,
…
l
\min_{x\in R^n}f(x) \\ s.t. \quad c_j (x)\le0,\,i=1,2,\dots k \\ h_j(x)=0,\, j=1,2,\dots l
x∈Rnminf(x)s.t.cj(x)≤0,i=1,2,…khj(x)=0,j=1,2,…l
这个约束最优化问题称作原始问题。
解这个原始问题需引进广义拉格朗日函数:
L
(
x
,
α
,
β
)
=
f
(
x
)
+
∑
i
=
1
n
α
i
c
i
(
x
)
+
∑
j
=
1
n
β
j
h
j
(
x
)
L(x,\alpha ,\beta )=f(x)+\sum_{i=1}^n \alpha_ic_i (x)+\sum_{j=1}^n\beta _j h_j (x)
L(x,α,β)=f(x)+i=1∑nαici(x)+j=1∑nβjhj(x)
其中
α
i
,
β
j
\alpha_i,\beta _j
αi,βj为拉格朗日乘子。
考虑
x
x
x的函数:
θ
p
(
x
)
=
max
α
,
β
:
α
i
≥
0
L
(
x
,
α
,
β
)
\theta_p(x)=\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta)
θp(x)=α,β:αi≥0maxL(x,α,β)
下面考虑两种情况:
-
x x x不违反约束条件
这时很显然, L L L的第三项为0,若使 L L L最大,由于 α i ≥ 0 , c j ( x ) ≤ 0 \alpha_i \ge0,c_j (x)\le0 αi≥0,cj(x)≤0,则第二项也必为0,因此有
θ p ( x ) = f ( x ) , 当 x 满 足 约 束 条 件 \theta_p(x)=f(x),\quad当x满足约束条件 θp(x)=f(x),当x满足约束条件 -
x违反约束条件
这时我们可以直接人为定义:
若某个i使 c i ( x ) > 0 c_i(x)>0 ci(x)>0,令 α i → + ∞ \alpha_i \to+\infty αi→+∞,同理,若某个j使 h j ( x ) ≠ 0 h_j(x)\neq0 hj(x)=0,令 β i → + ∞ \beta_i \to+\infty βi→+∞,这样就有
θ p ( x ) = + ∞ \theta_p(x)=+\infty θp(x)=+∞
且不影响解的结果。
因此如下极小化问题
min
x
θ
p
(
x
)
=
min
x
max
α
,
β
:
α
i
≥
0
L
(
x
,
α
,
β
)
\min_{x}\theta_p(x)=\min_x\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta)
xminθp(x)=xminα,β:αi≥0maxL(x,α,β)
是和原问题等价的。
问题
min
x
max
α
,
β
:
α
i
≥
0
L
(
x
,
α
,
β
)
\min_x\max_{\alpha,\beta:\alpha_i \ge0}L(x,\alpha,\beta)
minxmaxα,β:αi≥0L(x,α,β)称作广义拉格朗日的极小极大问题。
定义原始问题的最优值
p
∗
=
min
x
θ
p
(
x
)
p^*=\min_{x}\theta_p(x)
p∗=xminθp(x)
为原始问题的值。
对偶问题
定义
θ
D
(
α
,
β
)
=
min
x
L
(
x
,
α
,
β
)
\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta )
θD(α,β)=xminL(x,α,β)
再将上式极大化
max
α
,
β
:
α
i
≥
0
θ
D
(
α
,
β
)
=
max
α
,
β
:
α
i
≥
0
min
x
L
(
x
,
α
,
β
)
\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)= \max_{\alpha,\beta:\alpha_i\ge0}\min_xL(x,\alpha,\beta )
α,β:αi≥0maxθD(α,β)=α,β:αi≥0maxxminL(x,α,β)
上式成为广义拉格朗日函数的极大极小问题。原始问题中,是极小极大问题。原始问题的下标p表示prime,对偶问题的下标D表示dual(duality).
可以将广义拉格朗日函数的极大极小问题表示为如下约束最优化问题:
max
α
,
β
min
x
L
(
x
,
α
,
β
)
s
.
t
.
α
i
≥
0
\max_{\alpha,\beta}\min_xL(x,\alpha,\beta )\\ s.t. \quad \alpha_i\ge0
α,βmaxxminL(x,α,β)s.t.αi≥0
同样,定义对偶问题的最优值
d
∗
=
max
α
,
β
:
α
i
≥
0
θ
D
(
α
,
β
)
d^*=\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)
d∗=α,β:αi≥0maxθD(α,β)
原始问题和对偶问题的关系
定理1
若原始问题和对偶问题都有最优值,则
d
∗
=
max
α
,
β
:
α
i
≥
0
θ
D
(
α
,
β
)
≤
p
∗
=
min
x
θ
p
(
x
)
d^*=\max_{\alpha,\beta:\alpha_i\ge0}\theta_D(\alpha,\beta)\le p^*=\min_{x}\theta_p(x)
d∗=α,β:αi≥0maxθD(α,β)≤p∗=xminθp(x)
证明略。
定理2
假设函数
f
(
x
)
f(x)
f(x)和
c
i
(
x
)
c_i(x)
ci(x)是凸函数,
h
j
(
x
)
h_j(x)
hj(x)是仿射函数(最高次数为1的多项式函数),且不等式约束
c
i
(
x
)
c_i(x)
ci(x)是严格可行的,即存在
x
x
x,对所有i有
c
i
(
x
)
<
0
c_i(x)<0
ci(x)<0,则存在
x
∗
,
α
∗
,
β
∗
x^*,\alpha^*,\beta^*
x∗,α∗,β∗,使
x
∗
,
x^*,
x∗,是原始问题的解,
α
∗
,
β
∗
\alpha^*,\beta^*
α∗,β∗是对偶问题的解,并且
p
∗
=
d
∗
=
L
(
x
∗
,
α
∗
,
β
∗
)
p^*=d^*=L(x^*,\alpha^*,\beta^*)
p∗=d∗=L(x∗,α∗,β∗)
定理3
假设函数
f
(
x
)
f(x)
f(x)和
c
i
(
x
)
c_i(x)
ci(x)是凸函数,
h
j
(
x
)
h_j(x)
hj(x)是仿射函数(最高次数为1的多项式函数),且不等式约束
c
i
(
x
)
c_i(x)
ci(x)是严格可行的,则
x
∗
,
α
∗
,
β
∗
x^*,\alpha^*,\beta^*
x∗,α∗,β∗分别是原始问题和对偶问题的解的充要条件是
x
∗
,
α
∗
,
β
∗
x^*,\alpha^*,\beta^*
x∗,α∗,β∗满足下面的KKT条件:
∇
x
L
(
x
∗
,
α
∗
,
β
∗
)
=
0
∇
α
L
(
x
∗
,
α
∗
,
β
∗
)
=
0
∇
β
L
(
x
∗
,
α
∗
,
β
∗
)
=
0
s
.
t
.
α
i
∗
c
i
(
x
∗
)
=
0
c
i
(
x
∗
)
≤
0
α
i
∗
≥
0
h
j
(
x
∗
)
=
0
i
=
1
,
2
,
…
,
k
j
=
1
,
2
,
…
l
\nabla _x L(x^*,\alpha^*,\beta^*)=0\\ \nabla_\alpha L(x^*,\alpha^*,\beta^*)=0\\ \nabla_\beta L(x^*,\alpha^*,\beta^*)=0\\ s.t.\quad \alpha _i^*c_i(x^*)=0 \\ c_i(x^*)\le0\\ \alpha _i^*\ge0 \\ h_j(x^*)=0\\ i=1,2, \dots ,k \quad j=1,2,\dots l
∇xL(x∗,α∗,β∗)=0∇αL(x∗,α∗,β∗)=0∇βL(x∗,α∗,β∗)=0s.t.αi∗ci(x∗)=0ci(x∗)≤0αi∗≥0hj(x∗)=0i=1,2,…,kj=1,2,…l