总目录
一、 凸优化基础(Convex Optimization basics)
二、 一阶梯度方法(First-order methods)
- 梯度下降(Gradient Descent)
- 次梯度(Subgradients)
- 近端梯度法(Proximal Gradient Descent)
- 随机梯度下降(Stochastic gradient descent)
三、对偶
- 线性规划中的对偶(Duality in linear programs)
- 凸优化中的对偶(Duality in General Programs)
- KKT条件(Karush-Kuhn-Tucker Conditions)
- 对偶的应用及拓展(Duality Uses and Correspondences)
- 对偶方法(Dual Methods)
- 交替方向乘子法(Alternating Direction Method of Multipliers)
Intorduction
在上节中,我们讨论了线性规划中的对偶,引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界,通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。
拉格朗日对偶函数
考虑一般的最小化问题:
min
x
f
(
x
)
s
u
b
j
e
c
t
t
o
h
i
(
x
)
≤
0
,
i
=
1
,
.
.
.
,
m
l
i
(
x
)
=
0
,
j
=
1
,
.
.
.
,
r
\begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned}
xminsubject tof(x)hi(x)≤0, i=1,...,mli(x)=0, j=1,...,r
这里不需要一定是凸函数,当然我们主要研究凸函数的情况。我们定义拉格朗日方程(Lagrangian)为:
L
(
x
,
u
,
v
)
=
f
(
x
)
+
∑
i
=
1
m
u
i
h
i
(
x
)
+
∑
j
=
1
r
v
i
l
i
(
x
)
L(x,u,v)=f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_il_i(x)
L(x,u,v)=f(x)+i=1∑muihi(x)+j=1∑rvili(x)
新变量
u
∈
R
m
,
v
∈
R
r
u\in R^m, v\in R^r
u∈Rm,v∈Rr,且
u
≥
0
u\geq 0
u≥0。其一个重要的特性是,对于所有可行点
x
x
x,
f
(
x
)
≥
L
(
x
,
u
,
v
)
f(x)\geq L(x,u,v)
f(x)≥L(x,u,v)
正如上节所示,如果
C
C
C表示原问题的可行域,
f
∗
f^*
f∗表示原问题的最优解,那么对于任意
u
u
u和
v
≥
0
v\geq 0
v≥0,
f
∗
≥
min
x
∈
C
L
(
x
,
u
,
v
)
≥
min
x
L
(
x
,
u
,
v
)
:
=
g
(
u
,
v
)
f^*\geq \min_{x\in C}L(x,u,v)\geq \min_x L(x,u,v):=g(u,v)
f∗≥x∈CminL(x,u,v)≥xminL(x,u,v):=g(u,v)
我们称 g ( u , v ) g(u,v) g(u,v)为拉格朗日对偶函数(Lagrange dual function)。它给出了 f ∗ f^* f∗的一个下限。其中, u ≥ 0 u\geq 0 u≥0和 v v v称之为对偶变量。
例子:二次规划
考虑二次规划问题::
min
x
1
2
x
T
Q
x
+
c
T
x
s
u
b
j
e
c
t
t
o
A
x
=
b
,
x
≥
0
\begin{aligned} \min_{x}\quad &\frac{1}{2}x^TQx+c^Tx\\ {\rm subject\ to}\quad &Ax=b,\ x\geq 0 \end{aligned}
xminsubject to21xTQx+cTxAx=b, x≥0
其中,
Q
≻
0
Q\succ 0
Q≻0。拉格朗日方程为:
L
(
x
,
u
,
v
)
=
1
2
x
T
Q
x
+
c
T
x
−
u
T
x
+
v
T
(
A
x
−
b
)
L(x,u,v)=\frac{1}{2}x^TQx+c^Tx-u^Tx+v^T(Ax-b)
L(x,u,v)=21xTQx+cTx−uTx+vT(Ax−b)
拉格朗日对偶函数为:
g
(
u
,
v
)
=
min
x
L
(
x
,
u
,
v
)
=
−
1
2
(
c
−
u
+
A
T
v
)
T
Q
−
1
(
c
−
u
+
A
T
v
)
−
b
T
v
g(u,v)=\min_x L(x,u,v)=-\frac{1}{2}(c-u+A^Tv)^TQ^{-1}(c-u+A^Tv)-b^Tv
g(u,v)=xminL(x,u,v)=−21(c−u+ATv)TQ−1(c−u+ATv)−bTv
对于任意 u ≥ 0 u\geq 0 u≥0和 v v v, g ( u , v ) g(u,v) g(u,v)作为下界约束着原函数最优解 f ∗ f^* f∗的取值。
拉格朗日对偶问题
已知对于任意
u
≥
0
u\geq 0
u≥0和
v
v
v,
f
∗
≥
g
(
u
,
v
)
f^*\geq g(u,v)
f∗≥g(u,v)。因此最好的下界是:在
u
,
v
u,v
u,v可行域上最大化
g
(
u
,
v
)
g(u,v)
g(u,v)。这就得到了拉格朗日对偶问题(Lagrange dual problem):
max
u
,
v
g
(
u
,
v
)
s
u
b
j
e
c
t
t
o
u
≥
0
\begin{aligned} \max_{u,v}\quad &g(u,v)\\ {\rm subject\ to}\quad &u\geq 0 \end{aligned}
u,vmaxsubject tog(u,v)u≥0
一个关键的性质称为弱对偶(weak duality):如果对偶最优解为
g
∗
g^*
g∗,那么
f
∗
≥
g
∗
f^*\geq g^*
f∗≥g∗。
另一个关键性质是:对偶问题总是凸优化问题。
无论原问题是不是凸的,这两个性质总是成立的。
强对偶
弱对偶告诉我们 f ∗ ≥ g ∗ f^*\geq g^* f∗≥g∗总是成立的。而在一些问题中,我们可以得到 f ∗ = g ∗ f^*=g^* f∗=g∗,该性质称之为强对偶。
Slater条件
Slater’s condition: 如果原问题是凸优化问题(即
f
f
f和
h
1
,
.
.
.
,
h
m
h_1,...,h_m
h1,...,hm是凸函数,
l
1
,
.
.
.
,
l
r
l_1,...,l_r
l1,...,lr是放射函数),那么至少存在一个严格可行点
x
∈
R
n
x\in R^n
x∈Rn,即
h
1
(
x
)
<
0
,
.
.
.
,
h
m
(
x
)
<
0
h_1(x)<0,...,h_m(x)<0
h1(x)<0,...,hm(x)<0且
l
1
(
x
)
=
0
,
.
.
.
,
l
r
(
x
)
=
0
l_1(x)=0,...,l_r(x)=0
l1(x)=0,...,lr(x)=0满足强对偶。
可以验证的是,对于线性规划问题,LP对偶的对偶就是原LP问题。且LP问题总是有强对偶性。
例子:支持向量机
给定
y
∈
{
−
1
,
1
}
n
y\in \{-1,1\}^n
y∈{−1,1}n,
X
∈
R
n
×
p
X\in R^{n\times p}
X∈Rn×p有行向量
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn,则支持向量机(SVM)定义为:
min
β
,
β
0
,
ξ
1
2
∥
β
∥
2
2
+
C
∑
i
=
1
n
ξ
i
s
u
b
j
e
c
t
t
o
ξ
i
≥
0
,
i
=
1
,
.
.
.
,
n
y
i
(
x
i
T
β
+
β
0
)
≥
1
−
ξ
i
,
i
=
1
,
.
.
.
,
n
\begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}
β,β0,ξminsubject to21∥β∥22+Ci=1∑nξiξi≥0, i=1,...,nyi(xiTβ+β0)≥1−ξi, i=1,...,n
引入对偶变量
v
,
w
≥
0
v,w\geq 0
v,w≥0,可以得到拉格朗日方程:
L
(
β
,
β
0
,
ξ
,
v
,
w
)
=
1
2
∥
β
∥
2
+
C
∑
i
=
1
n
ξ
i
−
∑
i
=
1
n
v
i
ξ
i
+
∑
i
=
1
n
w
i
(
1
−
ξ
i
−
y
i
(
x
i
T
β
+
β
0
)
)
L(\beta, \beta_0, \xi, v, w)=\frac{1}{2}\|\beta\|^2+C\sum^n_{i=1}\xi_i-\sum^n_{i=1}v_i\xi_i+\sum^n_{i=1}w_i(1-\xi_i-y_i(x^T_i\beta + \beta_0))
L(β,β0,ξ,v,w)=21∥β∥2+Ci=1∑nξi−i=1∑nviξi+i=1∑nwi(1−ξi−yi(xiTβ+β0))
则拉格朗日对偶函数为:
min
β
,
β
0
,
ξ
L
=
g
(
v
,
w
)
=
{
−
1
2
w
T
X
~
X
~
T
w
+
1
T
w
i
f
w
=
C
1
−
v
,
w
T
y
=
0
−
∞
o
t
h
e
r
w
i
s
e
\min_{\beta,\beta_0,\xi}L = g(v,w)=\left\{ \begin{aligned} &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw &{\rm if}\ w=C1-v,\ w^Ty=0\\ &-\infty &otherwise \end{aligned} \right.
β,β0,ξminL=g(v,w)=⎩⎨⎧−21wTX~X~Tw+1Tw−∞if w=C1−v, wTy=0otherwise
其中,
X
~
=
d
i
a
g
(
y
)
X
\tilde{X}={\rm diag}(y)X
X~=diag(y)X。因此,SVM的对偶问题消除了松弛变量
v
v
v:
max
w
−
1
2
w
T
X
~
X
~
T
w
+
1
T
w
s
u
b
j
e
c
t
t
o
0
≤
w
≤
C
1
,
w
T
y
=
0
\begin{aligned} \max_{w}\quad &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw\\ {\rm subject\ to}\quad &0\leq w\leq C1,\ w^Ty=0 \end{aligned}
wmaxsubject to−21wTX~X~Tw+1Tw0≤w≤C1, wTy=0
可以看到,Slater条件是满足的,因而SVM是有强对偶性的。
对偶间隙
给定原变量
x
x
x和对偶变量
u
,
v
u,v
u,v,则
f
(
x
)
−
g
(
u
,
v
)
f(x)-g(u,v)
f(x)−g(u,v)称为对偶间隙(duality gap)。注意到
f
(
x
)
−
f
∗
≤
f
(
x
)
−
g
(
u
,
v
)
f(x)-f^*\leq f(x)-g(u,v)
f(x)−f∗≤f(x)−g(u,v),所以当对偶间隙为0时,
x
x
x就是原问题的最优解(同时,
u
,
v
u,v
u,v也是对偶问题的最优解)。
从算法角度来看,只要给定一个停止阈值:
f
(
x
)
−
g
(
u
,
v
)
≤
ϵ
f(x)-g(u,v)\leq \epsilon
f(x)−g(u,v)≤ϵ,那么就可以保证
f
(
x
)
−
f
∗
≤
ϵ
f(x)-f^*\leq \epsilon
f(x)−f∗≤ϵ。