凸优化 [2]:什么是凸函数——一阶与二阶条件
定义:
∀
x
,
y
∈
X
\forall x,y\in X
∀x,y∈X ,
∀
α
∈
[
0
,
1
]
\forall \alpha \in [0,1]
∀α∈[0,1] 使得:
f
(
α
x
+
(
1
−
α
)
y
)
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
convex
f
(
α
x
+
(
1
−
α
)
y
)
<
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
strictly convex
\begin{aligned} f(\alpha x+(1-\alpha)y)\le \alpha f(x)+(1-\alpha)f(y)&&\text{convex}\\ f(\alpha x+(1-\alpha)y)< \alpha f(x)+(1-\alpha)f(y)&&\text{strictly convex} \end{aligned}
f(αx+(1−α)y)≤αf(x)+(1−α)f(y)f(αx+(1−α)y)<αf(x)+(1−α)f(y)convexstrictly convex
凸函数扩充到
R
n
\R^n
Rn 中:
f
~
(
x
)
=
{
f
(
x
)
if
x
∈
X
∞
otherwise
\tilde f(x)=\begin{cases} f(x)&\text{if $x\in X$}\\ \infty&\text{otherwise} \end{cases}
f~(x)={f(x)∞if x∈Xotherwise
凸函数:函数为凸的条件
一阶充要条件:
f ( x ) ≥ f ( y ) + ∇ f ( y ) T ( x − y ) f(x)\ge f(y)+\nabla f(y)^T(x-y) f(x)≥f(y)+∇f(y)T(x−y)
必要性:
由凸性可得:
f
(
(
α
x
−
α
y
)
+
y
)
≤
α
f
(
x
)
+
(
1
−
α
)
f
(
y
)
⇓
⇓
α
f
(
x
)
≥
f
(
α
(
x
−
y
)
+
y
)
−
(
1
−
α
)
f
(
y
)
\begin{aligned} f((\alpha x - \alpha y) + y)&\le \alpha f(x)+(1-\alpha)f(y)\\ \Downarrow \Downarrow\\ \alpha f(x)&\ge f(\alpha (x-y) + y)-(1-\alpha) f(y) \end{aligned}
f((αx−αy)+y)⇓⇓αf(x)≤αf(x)+(1−α)f(y)≥f(α(x−y)+y)−(1−α)f(y)
两端除以
α
\alpha
α :
f
(
x
)
≥
f
(
α
(
x
−
y
)
+
y
)
−
(
1
−
α
)
f
(
y
)
α
=
f
(
y
)
+
f
(
y
+
α
(
x
−
y
)
)
−
f
(
y
)
α
f(x)\ge \frac{f(\alpha (x-y) + y)-(1-\alpha) f(y)}{\alpha}=f(y)+\frac{f(y+\alpha (x-y))- f(y)}{\alpha}
f(x)≥αf(α(x−y)+y)−(1−α)f(y)=f(y)+αf(y+α(x−y))−f(y)
因为:(由一阶 Taylor 展开)
lim
α
→
0
f
(
y
+
α
(
x
−
y
)
)
−
f
(
y
)
α
=
f
(
y
)
+
α
∇
f
(
y
)
T
(
x
−
y
)
−
f
(
y
)
α
=
∇
f
(
y
)
T
(
x
−
y
)
\lim_{\alpha\rightarrow 0} \frac{f(y+\alpha (x-y))- f(y)}{\alpha}=\frac{f(y)+\alpha \nabla f(y)^T(x-y)- f(y)}{\alpha}=\nabla f(y)^T(x-y)
α→0limαf(y+α(x−y))−f(y)=αf(y)+α∇f(y)T(x−y)−f(y)=∇f(y)T(x−y)
因此:
f
(
x
)
≥
f
(
y
)
+
∇
f
(
y
)
T
(
x
−
y
)
f(x)\ge f(y)+\nabla f(y)^T(x-y)
f(x)≥f(y)+∇f(y)T(x−y)
得证
□
\square
□
充分性:
令
z
=
θ
x
+
(
1
−
θ
)
y
z=\theta x+(1-\theta)y
z=θx+(1−θ)y
f
(
x
)
≥
f
(
z
)
+
∇
f
(
z
)
T
(
x
−
z
)
f
(
y
)
≥
f
(
z
)
+
∇
f
(
z
)
T
(
y
−
z
)
f(x)\ge f(z)+\nabla f(z)^T(x-z)\\ f(y)\ge f(z)+\nabla f(z)^T(y-z)
f(x)≥f(z)+∇f(z)T(x−z)f(y)≥f(z)+∇f(z)T(y−z)
则:
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
≥
[
θ
f
(
z
)
+
θ
∇
f
(
z
)
T
(
x
−
z
)
]
+
[
(
1
−
θ
)
f
(
z
)
+
(
1
−
θ
)
∇
f
(
z
)
T
(
y
−
z
)
]
⇓
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
≥
f
(
z
)
\theta f(x)+(1-\theta)f(y)\ge\left[\theta f(z)+\theta\nabla f(z)^T(x-z)\right]+\left[(1-\theta) f(z)+(1-\theta)\nabla f(z)^T(y-z)\right]\\ \Downarrow\\ \theta f(x)+(1-\theta)f(y)\ge f(z)
θf(x)+(1−θ)f(y)≥[θf(z)+θ∇f(z)T(x−z)]+[(1−θ)f(z)+(1−θ)∇f(z)T(y−z)]⇓θf(x)+(1−θ)f(y)≥f(z)
因此有:
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
≥
f
(
θ
x
+
(
1
−
θ
)
y
)
\theta f(x)+(1-\theta)f(y)\ge f(\theta x+(1-\theta)y)
θf(x)+(1−θ)f(y)≥f(θx+(1−θ)y)
得证
□
\square
□
二阶充要条件:
∇ 2 f ( x ) ⪰ 0 \nabla^2 f(x) \succeq 0 ∇2f(x)⪰0
充分性:
由二阶 Taylor 展开:
f
(
y
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
1
2
(
y
−
x
)
T
∇
2
f
(
x
)
(
y
−
x
)
+
o
(
∥
y
−
x
∥
2
)
f(y)=f(x)+\nabla f(x)^T (y-x) + \frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)+o(\|y-x\|^2)
f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(x)(y−x)+o(∥y−x∥2)
因为
∇
2
f
(
x
)
⪰
0
\nabla^2 f(x) \succeq 0
∇2f(x)⪰0 ,恒成立:
1
2
(
y
−
x
)
T
∇
2
f
(
x
)
(
y
−
x
)
≥
0
\frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)\ge 0
21(y−x)T∇2f(x)(y−x)≥0
因此:
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
f(y)\ge f(x) +\nabla f(x)^T(y-x)
f(y)≥f(x)+∇f(x)T(y−x)
由一阶条件,推出
f
f
f 为凸函数。
□
\square
□
必要性:
由二阶 Taylor 展开:
f
(
y
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
1
2
(
y
−
x
)
T
∇
2
f
(
x
)
(
y
−
x
)
+
o
(
∥
y
−
x
∥
2
)
f(y)=f(x)+\nabla f(x)^T (y-x) + \frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)+o(\|y-x\|^2)
f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(x)(y−x)+o(∥y−x∥2)
已知函数
f
f
f 为凸函数,则由一阶充要条件:
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
f(y)\ge f(x)+\nabla f(x)^T (y-x)
f(y)≥f(x)+∇f(x)T(y−x)
因此:
1
2
(
y
−
x
)
T
∇
2
f
(
x
)
(
y
−
x
)
+
o
(
∥
y
−
x
∥
2
)
≥
0
\frac{1}{2}(y-x)^T \nabla^2f(x)(y-x)+o(\|y-x\|^2)\ge 0
21(y−x)T∇2f(x)(y−x)+o(∥y−x∥2)≥0
Taylor 展开余项可忽略,因此 Hessian 矩阵要满足
∀
(
y
−
x
)
∈
R
n
\forall (y-x)\in \R^n
∀(y−x)∈Rn 都成立,因此
∇
2
f
(
x
)
⪰
0
\nabla^2f(x)\succeq 0
∇2f(x)⪰0 。
得证 □ \square □
将不等式的等号去掉,就是严格凸函数的证明。