Chapter Ⅱ
文章主要用来记录《convex optimization》中出现的概念定义(性质基本不写证明,详细的证明过程可以翻作者的书)和一些个人想法。
2.1 Affine and convex sets(仿射集和凸集)
2.1.1 Lines and line segments(直线与线段)
假设 x 1 、 x 2 x_1、x_2 x1、x2是 R n \mathbb{R^n} Rn不重合的两点,即 x 1 ≠ x 2 x_1\neq x_2 x1=x2,则通过 x 1 , x 2 x_1,x_2 x1,x2两点的直线表达式为: y = θ x 1 + ( 1 − θ ) x 2 , θ ∈ R y=\theta x_1+(1-\theta)x_2,\theta \in \mathbb{R} y=θx1+(1−θ)x2,θ∈R当 θ \theta θ取值 0 ≤ θ ≤ 1 0 \leq\theta\leq1 0≤θ≤1时,上式表示的是以 x 1 , x 2 x_1,x_2 x1,x2为端点的线段。
2.1.2 Affine sets(仿射集)
仿射集与仿射组合(affine sets and affine combination)
对任意
x
1
,
x
2
∈
C
,
其中
C
⊆
R
n
,
θ
∈
R
,
有
θ
x
1
+
(
1
−
θ
)
x
2
∈
C
对任意x_1,x_2\in C,其中C\subseteq \mathbb{R^n},\theta \in \mathbb{R},有\theta x_1+(1-\theta)x_2 \in C
对任意x1,x2∈C,其中C⊆Rn,θ∈R,有θx1+(1−θ)x2∈C(从几何意义上看,就是通过
x
1
,
x
2
x_1,x_2
x1,x2两点的直线还在集合C中),那么集合C就被称为仿射集。根据定义,可以知道直线是仿射集,但仿射集不一定是直线。容易联想,更广泛地,将两个点推广到多个点:
θ
1
x
1
+
.
.
.
+
θ
k
x
k
\theta_1 x_1+...+\theta_k x_k
θ1x1+...+θkxk被称为点
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk的仿射组合,其中
θ
1
+
.
.
.
θ
k
=
1
\theta_1+...\theta_k=1
θ1+...θk=1。容易证明:
若
C
是一个仿射集
,
x
1
,
.
.
.
,
x
k
∈
C
,
且
θ
1
+
.
.
.
θ
k
=
1
,那么
θ
1
x
1
+
.
.
.
+
θ
k
x
k
∈
C
若C是一个仿射集,x_1,...,x_k\in C,且\theta_1+...\theta_k=1,那么\theta_1 x_1+...+\theta_k x_k\in C
若C是一个仿射集,x1,...,xk∈C,且θ1+...θk=1,那么θ1x1+...+θkxk∈C,也即仿射集包含其它的点的所有仿射组合。
子空间与子空间的维度(subspace and dimension of subspace)
如果C是仿射集,且
x
0
∈
C
x_0 \in C
x0∈C,那么
V
=
C
−
x
0
=
{
x
−
x
0
∣
x
∈
C
}
V=C-x_0=\{x-x_0|x\in C\}
V=C−x0={x−x0∣x∈C}被称为与C相关的子空间(subspace),具有在定义域内加法乘法运算的封闭性。仿射集可以表示成子空间V与偏置
x
0
x_0
x0的和,即:
C
=
V
+
x
0
=
{
v
+
x
0
∣
v
∈
V
}
C=V+x_0=\{v+x_0|v\in V\}
C=V+x0={v+x0∣v∈V}为什么要定义子空间呢,子空间有哪些性质呢?从上面的定义可以知道,如果存在
α
,
β
∈
R
,
x
1
,
x
2
∈
C
,
α
+
β
≠
1
,
那么
α
x
1
+
β
x
2
不一定在
C
中
\alpha,\beta \in \mathbb{R},x_1,x_2 \in C,\alpha+\beta \neq 1,那么\alpha x_1+\beta x_2不一定在C中
α,β∈R,x1,x2∈C,α+β=1,那么αx1+βx2不一定在C中.但子空间却满足这个性质,也即如果存在
α
,
β
∈
R
,
x
1
,
x
2
∈
V
,
α
+
β
≠
1
,
那么
α
x
1
+
β
x
2
∈
V
仍然满足
\alpha,\beta \in \mathbb{R},x_1,x_2 \in V,\alpha+\beta \neq 1,那么\alpha x_1+\beta x_2 \in V仍然满足
α,β∈R,x1,x2∈V,α+β=1,那么αx1+βx2∈V仍然满足.证明如下:
我们定义仿射集C的维度等于子空间
V
=
C
−
x
0
(
x
0
是
C
的任一元素
)
V=C-x_0(x_0是C的任一元素)
V=C−x0(x0是C的任一元素)的维度。
仿射包(affine hull)
任意集合
C
⊆
R
的
C\subseteq \mathbb{R}的
C⊆R的任意点的所有仿射组合构成的集合称为集合C的仿射包,记作aff C:
a
f
f
C
=
{
θ
1
x
1
+
.
.
.
+
θ
k
x
k
∣
x
1
,
.
.
.
,
x
k
∈
C
,
θ
1
+
.
.
.
+
θ
k
=
1
}
\mathbf{aff} C=\{\theta_1 x_1+...+\theta_k x_k|x_1,...,x_k \in C,\theta_1+...+\theta_k=1\}
affC={θ1x1+...+θkxk∣x1,...,xk∈C,θ1+...+θk=1}仿射包的性质:仿射包是包含集合C的最小仿射集,也就是说,若S是任一满足
C
⊆
S
C \subseteq S
C⊆S 的仿射集,那么
a
f
f
C
⊆
S
\mathbf{aff} C \subseteq S
affC⊆S.
2.1.3 Affine demension and relative interior(仿射维度与相对内部)
仿射维度(affine dimension)
定义:集合C的仿射维度等于集合C的仿射包的维度。如果
C
⊆
R
2
,
C
=
{
x
1
,
x
2
,
x
3
}
,
x
1
,
x
2
,
x
3
C\subseteq \mathbb{R^2},C= \{x_1,x_2,x_3\},x_1,x_2,x_3
C⊆R2,C={x1,x2,x3},x1,x2,x3是平面空间中的三点,两两连线不重合,那么集合C的仿射包就等于空间
R
2
\mathbb{R^2}
R2,此时集合C的仿射包的维度就等于2,根据定义,集合C的仿射维度也就是2。如果集合
C
⊆
R
n
C \subseteq \mathbb{R^n}
C⊆Rn的放射维度小于n,就说明其分量两两连线并不全是不重合的,因此这些点生成的仿射包就不能铺满空间
R
2
\mathbb{R}^2
R2,故
a
f
f
C
≠
R
n
\mathbf{aff} C\neq \mathbb{R^n}
affC=Rn.
相对内部(relative interior)
使用符号
r
e
l
i
n
t
C
\mathbf{relint} C
relintC记作集合C的相对内部,也表示
a
f
f
C
\mathbf{aff} C
affC的相对内部:
r
e
l
i
n
t
C
=
{
x
∈
C
∣
存在
r
>
0
,
使得
B
(
x
,
r
)
∩
a
f
f
C
⊆
C
}
,
\mathbf{relint} C=\{x\in C|存在r>0,使得B(x,r)\cap \mathbf{aff} C \subseteq C\},
relintC={x∈C∣存在r>0,使得B(x,r)∩affC⊆C},其中
B
(
x
,
r
)
=
{
y
∣
∣
∣
y
−
x
∣
∣
<
r
}
B(x,r)=\{y|\thinspace||y-x||<r\}
B(x,r)={y∣∣∣y−x∣∣<r}表示半径为
r
r
r,中心为
x
x
x,并由范数||.||定义的球。同时,我们还能定义
c
l
C
∖
r
e
l
i
n
t
C
\mathbf{cl} C \setminus \mathbf{relint}C
clC∖relintC为集合C的相对边界,其中
c
l
C
\mathbf{cl} C
clC是C的闭包。下面给出关于相对边界的一个示例:
2.1.4 Convex set(凸集)
凸集(convex sets)
当集合C中任意两点构成的线段仍在集合C中,则称集合C是凸的,即
对任意
x
1
,
x
2
∈
C
,
0
≤
θ
≤
1
对任意x_1,x_2\in C,0\leq \theta \leq 1
对任意x1,x2∈C,0≤θ≤1,有:
θ
x
1
+
(
1
−
θ
)
x
2
∈
C
.
\theta x_1+(1-\theta)x_2 \in C.
θx1+(1−θ)x2∈C.根据仿射集和凸集的定义,我们知道凸集一定是仿射集,从几何意义上讲,过两点的线段一定被过这两点的直线包含.
凸组合(convex combination)
像定义仿射组合的方式一样,我们定义
θ
1
x
1
+
.
.
.
+
θ
k
x
k
\theta_1 x_1+...+\theta_k x_k
θ1x1+...+θkxk为点
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk的凸组合,其中
θ
1
+
.
.
.
+
θ
k
=
1
,
θ
i
≥
0
,
i
=
1
,
.
.
.
,
k
.
\theta_1+...+\theta_k=1,\theta_i \geq 0,i=1,...,k.
θ1+...+θk=1,θi≥0,i=1,...,k.可以证明,一个集合是凸的当且仅当该集合包含它的所有点的凸组合.
凸包(convex hull)
集合C的凸包记作
c
o
n
v
C
,
\mathbf{conv} C,
convC,凸包是C中所有点的所有凸组合:
c
o
n
v
C
=
{
θ
1
x
1
+
.
.
.
+
θ
k
x
k
∣
x
i
∈
C
,
θ
i
≥
0
,
i
=
1
,
.
.
.
,
k
,
θ
1
+
.
.
.
+
θ
k
=
1
}
.
\mathbf{conv} C=\{\theta_1 x_1+...+\theta_k x_k|x_i \in C,\theta_i \geq 0,i=1,...,k,\theta_1+...+\theta_k=1\}.
convC={θ1x1+...+θkxk∣xi∈C,θi≥0,i=1,...,k,θ1+...+θk=1}.凸包
c
o
n
v
C
\mathbf{conv}C
convC一定是凸的,且凸包是包含集合C的最小凸集.
2.1.5 Cones(锥)
锥(cone)
如果对任意
x
∈
C
,
θ
≥
0
x\in C,\theta \geq 0
x∈C,θ≥0,有
θ
x
∈
C
,
\theta x\in C,
θx∈C,那么集合C就是锥,或者称为非负同质(nonnegtive homogeneous).
凸锥(convex cone)
如果对任意
x
∈
C
,
θ
1
,
θ
2
≥
0
x\in C,\theta_1,\theta_2 \geq 0
x∈C,θ1,θ2≥0,有
θ
1
x
1
+
θ
2
x
2
∈
C
.
\theta_1 x_1+\theta_2 x_2\in C.
θ1x1+θ2x2∈C.那么集合C就是凸锥(既是凸的又是锥).凸锥的几何形式就是从原点O向集合C中的两点
x
1
,
x
2
x_1,x_2
x1,x2引出的射线所包围形成的图形(包括射线),下面的图可以给你一个直观的印象。
凸锥组合(conic combination)
我们定义
θ
1
x
1
+
.
.
.
+
θ
k
x
k
\theta_1 x_1+...+\theta_k x_k
θ1x1+...+θkxk为点
x
1
,
.
.
.
,
x
k
x_1,...,x_k
x1,...,xk的凸锥组合,其中
θ
i
≥
0
,
i
=
1
,
.
.
.
,
k
.
\theta_i \geq 0,i=1,...,k.
θi≥0,i=1,...,k.如果
x
i
x_i
xi在凸锥C中,那么
x
i
x_i
xi的所有凸锥组合都在集合C中,这个性质和仿射组合、凸组合是一样的。集合C是凸锥当且仅当集合C包含其元素的所有凸锥组合.
凸锥包(conic hull)
凸锥包是集合C的点的所有凸锥组合组成的集合,它是包含C的最小凸锥:
{
θ
1
x
1
+
.
.
.
+
θ
k
x
k
∣
x
i
∈
C
,
θ
i
≥
0
,
i
=
1
,
.
.
.
,
k
}
.
\{\theta_1 x_1+...+\theta_k x_k|x_i\in C,\theta_i\geq 0,i=1,...,k\}.
{θ1x1+...+θkxk∣xi∈C,θi≥0,i=1,...,k}.
2.2 几个重要的凸集
2.2.1 Hyperplanes and halfspaces(超平面与半空间)
超平面(Hyperplanes)
具有如下形式的集合称为超平面:
{
x
∣
a
T
x
=
b
,
a
∈
R
n
,
a
≠
0
,
b
∈
R
}
,
\{x|a^Tx=b,a\in \mathbb{R^n},a \neq 0,b \in \mathbb{R}\},
{x∣aTx=b,a∈Rn,a=0,b∈R},超平面是一个仿射集。从几何层面来看,超平面的法向量为a,常数
b
∈
R
b\in \mathbb{R}
b∈R决定了超平面相对于原点的偏移距离。
半空间(halfspace)
超平面将
R
n
\mathbb{R^n}
Rn空间分为两个半空间.半空间是凸集,但不是仿射集。当
b
=
0
b=0
b=0,即超平面经过原点时半空间是凸锥。下图给出了超平面和半空间在
R
2
\mathbb{R^2}
R2空间上直观的几何表示,
{
x
∣
a
T
x
≤
b
,
a
∈
R
n
,
a
≠
0
,
b
∈
R
}
\{x|a^Tx \leq b,a\in \mathbb{R^n},a \neq 0,b \in \mathbb{R}\}
{x∣aTx≤b,a∈Rn,a=0,b∈R}表示的是图中的阴影部分,当不等号取不到时,即除去边界,剩下的部分称为开半空间(open halfspace)
2.2.2 Euclidean balls and ellopsoids(球与椭球)
球(Euclidean ball)
球在
R
n
\mathbb{R^n}
Rn上的表达式为:
B
(
x
c
,
r
)
=
{
x
∣
∣
∣
x
−
x
c
∣
∣
≤
r
}
=
{
x
∣
(
x
−
x
c
)
T
(
x
−
x
c
)
≤
r
}
,
B(x_c,r)=\{x|\thinspace||x-x_c|| \leq r\}=\{x|(x-x_c)^T(x-x_c)\leq r\},
B(xc,r)={x∣∣∣x−xc∣∣≤r}={x∣(x−xc)T(x−xc)≤r},其中
r
>
0
,
∣
∣
.
∣
∣
r>0,||.||
r>0,∣∣.∣∣表示欧几里得范数,即
∣
∣
u
∣
∣
2
=
(
u
T
u
)
1
/
2
.
B
(
x
c
,
r
)
||u||_2=(u^Tu)^{1/2}.B(x_c,r)
∣∣u∣∣2=(uTu)1/2.B(xc,r)表示所有距离中心
x
c
x_c
xc不足
r
r
r的点的集合。另外,球的常见表达式还可以写为:
B
(
x
c
,
r
)
=
{
x
c
+
r
u
∣
∣
∣
u
∣
∣
2
≤
1
}
.
B(x_c,r)=\{x_c+ru|\thinspace||u||_2 \leq 1\}.
B(xc,r)={xc+ru∣∣∣u∣∣2≤1}.可以证明,球是凸集,从直觉上来讲它应该就是凸集。
椭球(ellipsoids)
椭球的表达式:
ε
=
{
x
∣
(
x
−
x
c
)
T
P
−
1
(
x
−
x
c
)
≤
1
}
,
\varepsilon=\{x|(x-x_c)^TP^{-1}(x-x_c) \leq 1\},
ε={x∣(x−xc)TP−1(x−xc)≤1},其中
P
=
P
T
≻
0
,
P=P^T\succ 0,
P=PT≻0,即P是对称正定矩阵。
x
c
∈
R
n
x_c\in \mathbb{R^n}
xc∈Rn是椭球的中心,矩阵P决定了椭球从
x
c
x_c
xc向n个方向延伸的长度情况。椭球也是凸集。椭球的另一个常用表达式为:
ε
=
{
x
c
+
A
u
∣
∣
∣
u
∣
∣
2
≤
1
}
.
\varepsilon=\{x_c+Au|\thinspace||u||_2 \leq 1\}.
ε={xc+Au∣∣∣u∣∣2≤1}.
2.2.3 Norm balls and norm cones(范数球与范数锥)
略
2.2.4 Polyhedra(多面体)
多面体(Polyhedra)
有限个线性等式和不等式的解集称为多面体:
P
=
{
x
∣
a
j
T
x
≤
b
j
,
j
=
1
,
.
.
.
,
m
,
c
j
T
x
=
d
j
,
j
=
1
,
.
.
.
,
p
}
.
\mathcal{P}=\{x|a^T_jx \leq b_j,j=1,...,m,c^T_jx=d_j,j=1,...,p\}.
P={x∣ajTx≤bj,j=1,...,m,cjTx=dj,j=1,...,p}.或:
P
=
{
x
∣
A
x
⪯
b
,
C
x
=
d
}
,
\mathcal{P}=\{x|Ax\preceq b,Cx=d\},
P={x∣Ax⪯b,Cx=d},从多面体的定义可以看出,它其实是有限个半空间和超平面的交集,半空间、超平面、直线都是凸集,所以多面体也是凸集。有界多面体有时会被称为多胞体(polytope),有些学者会将多面体和多胞体的定义反着记,这都是正确的,不必疑惑。
单纯形(Simplexes)
单纯形是一类重要的多面体。假设有
k
+
1
k+1
k+1个仿射独立的点
v
0
,
.
.
.
,
v
k
∈
R
n
v_0,...,v_k\in \mathbb{R^n}
v0,...,vk∈Rn,即
v
1
−
v
0
,
.
.
.
,
v
k
−
v
0
v_1-v_0,...,v_k-v_0
v1−v0,...,vk−v0线性独立(线性无关),则单纯形的定义为:
C
=
c
o
n
v
{
v
0
,
.
.
.
v
k
}
=
{
θ
0
v
0
+
.
.
.
+
θ
k
x
k
∣
θ
⪰
0
,
1
T
θ
=
1
}
,
C=\mathbf{conv} \{v_0,...v_k\}=\{\theta_0 v_0+...+\theta_k x_k|\theta \succeq 0,\mathbf{1}^T\theta=1\},
C=conv{v0,...vk}={θ0v0+...+θkxk∣θ⪰0,1Tθ=1},单纯形的放射维度是
k
k
k,所以有时会直接称在
R
n
\thinspace \mathbf{R}^n
Rn中的k维单纯形。可以证明(这里没有给出证明过程,详细过程在书Page 33),单纯形确实是多面体,而且
x
∈
C
当且仅当
A
2
x
=
A
2
v
0
,
A
1
x
⪯
A
1
v
0
,
1
T
A
1
x
≤
1
+
1
T
A
1
v
0
,
with
A
=
(
A
1
,
A
2
)
∈
R
n
×
n
非奇异
x\in C当且仅当A_2x=A_2v_0,A_1x\preceq A_1v_0,\mathbf{1}^TA_1x\leq1+\mathbf{1}^TA_1v_0,\text{with}A=(A_1,A_2)\in \mathbb{R}^{n\times n}非奇异
x∈C当且仅当A2x=A2v0,A1x⪯A1v0,1TA1x≤1+1TA1v0,withA=(A1,A2)∈Rn×n非奇异
多面体的凸包描述(Convex hull description of polyhedra)
略(因为我不是很看得懂T_T)
2.2.5 The positive semidefinite cone(正半定锥)
主要介绍三个符号:
S
n
,
S
+
n
,
S
+
+
n
\mathbf{S}^n,\mathbf{S}^n_+,\mathbf{S}^n_{++}
Sn,S+n,S++n,它们依照顺序分别表示对称
n
×
n
n\times n
n×n矩阵,对称半正定
n
×
n
n\times n
n×n矩阵和对称正定
n
×
n
n\times n
n×n矩阵。
S
n
,
S
+
n
\mathbf{S}^n,\mathbf{S}^n_+
Sn,S+n是凸锥,但
S
+
+
n
\mathbf{S}^n_{++}
S++n不能判断是凸锥(用定义能直接证).
2.3 Operations that preserve convexity(保凸运算)
介绍保凸运算是为了能够判断运算之后的集合是否为凸集,以及如何构造凸集。
2.3.1 Intersection(交)
集合的交集能保持凸性:
if
S
1
,
S
2
are convex,then
S
1
∩
S
2
is convex
.
\text{if}\thinspace S_1,S_2 \text{are convex,then}\thinspace S_1\cap S_2 \text{is convex}.
ifS1,S2are convex,thenS1∩S2is convex.这一个性质可以扩展到任意多个凸集的交集也仍然是凸集。
2.3.2 Affine functions(仿射函数)
具有以下形式的函数
f
:
R
n
→
R
m
f:\mathbb{R}^n \rightarrow \mathbb{R}^m
f:Rn→Rm是仿射的(不记得仿射的概念可以跳到2.1.2看看):
f
(
x
)
=
A
x
+
b
,
A
∈
R
m
×
n
,
b
∈
R
m
×
n
.
f(x)=Ax+b,A\in \mathbb{R}^{m\times n},b\in \mathbb{R}^{m\times n}.
f(x)=Ax+b,A∈Rm×n,b∈Rm×n.一个重要的性质:假设
S
⊆
R
n
S\subseteq \mathbb{R}^n
S⊆Rn是凸集,
f
:
R
n
→
R
m
f:\mathbb{R}^n \rightarrow \mathbb{R}^m
f:Rn→Rm是仿射函数,那么
S
S
S在
f
f
f下的像的集合也是凸集:
f
(
S
)
=
{
f
(
x
)
∣
x
∈
S
}
.
f(S)=\{f(x)|x\in S\}.
f(S)={f(x)∣x∈S}.类似地,若
f
:
R
k
→
R
n
f:\mathbb{R}^k \rightarrow \mathbb{R}^n
f:Rk→Rn是仿射函数,那么
S
S
S在
f
f
f下的逆像也是凸集,即:
f
−
1
(
S
)
=
{
x
∣
f
(
x
)
∈
S
}
.
f^{-1}(S)=\{x|f(x)\in S\}.
f−1(S)={x∣f(x)∈S}.还有几个例子,这里一并给出(假设下面提到的
S
S
S或
S
1
,
S
2
S_1,S_2
S1,S2都是凸集):
(1)放缩和位移保持凸性:
α
∈
R
,
a
∈
R
n
\alpha\in\mathbb{R},a\in\mathbb{R}^n
α∈R,a∈Rn,那么
α
S
=
{
α
x
∣
x
∈
S
}
,
S
+
a
=
{
x
+
a
∣
x
∈
S
}
\alpha S=\{\alpha x|x\in S\},S+a=\{x+a|x\in S\}
αS={αx∣x∈S},S+a={x+a∣x∈S}是凸集
(2)凸集在其某些坐标上的投影也是凸集:
T
=
{
x
1
∈
R
m
∣
(
x
1
,
x
2
)
∈
S
for some
x
2
∈
R
n
}
T=\{x_1\in\mathbb{R}^m|(x_1,x_2)\in S\thinspace\text{for some}\thinspace x_2\in\mathbb{R}^n\}
T={x1∈Rm∣(x1,x2)∈Sfor somex2∈Rn}是凸集
(3)两个凸集的和是凸集:
S
1
+
S
2
=
{
x
+
y
∣
x
∈
S
1
,
y
∈
S
2
}
S_1+S_2=\{x+y|x\in S_1,y\in S_2\}
S1+S2={x+y∣x∈S1,y∈S2}是凸集
(4)两个凸集的直积或者说笛卡尔乘积是凸集:
S
1
×
S
2
=
{
(
x
1
,
x
2
)
∣
x
1
∈
S
1
,
x
2
∈
S
2
}
S_1\times S_2=\{(x_1,x_2)|x_1\in S_1,x_2\in S_2\}
S1×S2={(x1,x2)∣x1∈S1,x2∈S2}是凸集
(5)凸集的偏序和是凸集:
S
=
{
(
x
,
y
1
+
y
2
)
∣
(
x
,
y
1
)
∈
S
1
,
(
x
,
y
2
)
∈
S
2
}
S=\{(x,y_1+y_2)|(x,y_1)\in S_1,(x,y_2)\in S_2\}
S={(x,y1+y2)∣(x,y1)∈S1,(x,y2)∈S2}是凸集
2.3.3 Linear-fractional and perspective functions(线性分数与透视函数)
透视函数(The perspective function)
定义
P
:
R
n
+
1
→
R
n
P:\mathbb{R}^{n+1}\rightarrow\mathbb{R}^n
P:Rn+1→Rn(with
d
o
m
P
=
R
n
×
R
+
+
,
a
s
P
(
z
,
t
)
=
z
/
t
.
\mathbf{dom} P=\mathbb{R}^n \times \mathbb{R}_{++},as\thinspace P(z,t)=z/t.
domP=Rn×R++,asP(z,t)=z/t.)为透视函数。透视函数通过缩放或规范化向量,使最后一个分量化为1,并删除最后一个分量。可以证明,如果
C
⊆
d
o
m
P
C\subseteq \mathbf{dom} P
C⊆domP是凸集,那么C在透视函数作用下的集合也是凸集:
P
(
C
)
=
{
P
(
x
)
∣
x
∈
C
}
is convex
.
P(C)=\{P(x)|x\in C\}\thinspace \text{is convex}.
P(C)={P(x)∣x∈C}is convex.另外,凸集
C
⊆
d
o
m
P
C\subseteq \mathbf{dom} P
C⊆domP在透视函数下的逆像也是凸集:
P
−
1
(
C
)
=
{
(
x
,
t
)
∈
R
n
+
1
∣
x
/
t
∈
C
,
t
>
0
}
is convex
.
P^{-1}(C)=\{(x,t)\in\mathbb{R}^{n+1}|x/t\in C,t>0\}\thinspace\text{is convex}.
P−1(C)={(x,t)∈Rn+1∣x/t∈C,t>0}is convex.透视函数就像是位于原点的单孔相机,将一个物体生成一张照片,照片位于最后一个分量为1的空间平面上,下面的图片也许会给你更直观的感受(图里投影到-1平面上是取了负操作的)。
线性分式函数(Linear-fractional functions)
假设
g
:
R
n
→
R
m
+
1
g:\mathbb{R}^n\rightarrow\mathbb{R}^{m+1}
g:Rn→Rm+1是仿射函数,即:
g
(
x
)
=
[
A
c
T
]
x
+
[
b
d
]
,
w
i
t
h
A
∈
R
m
×
n
,
b
∈
R
m
,
c
∈
R
n
,
d
∈
R
.
g(x)=\begin{bmatrix} A\\ c^T\\ \end{bmatrix}x+ \begin{bmatrix} b\\ d\\ \end{bmatrix},with \thinspace A\in\mathbb{R}^{m\times n},b\in\mathbb{R}^m,c\in\mathbb{R}^n,d\in\mathbb{R}.
g(x)=[AcT]x+[bd],withA∈Rm×n,b∈Rm,c∈Rn,d∈R.
线性分式函数
f
:
R
n
→
R
m
f:\mathbb{R}^n\rightarrow\mathbb{R}^m
f:Rn→Rm由透视函数
P
P
P和仿射函数
g
g
g给出,
f
=
P
∘
g
,
f=P\circ g,
f=P∘g,即:
f
(
x
)
=
(
A
x
+
b
)
/
(
c
T
+
d
)
,
d
o
m
f
=
{
x
∣
c
T
x
+
d
>
0
}
,
f(x)=(Ax+b)/(c^T+d),\mathbf{dom} f=\{x|c^Tx+d>0\},
f(x)=(Ax+b)/(cT+d),domf={x∣cTx+d>0},若
c
=
0
,
d
>
0
c=0,d>0
c=0,d>0,那么
d
o
m
f
=
R
n
\mathbf{dom}f=\mathbf{R}^n
domf=Rn,这时候
f
f
f是仿射函数,所以你可以说仿射函数和线性函数都是线性分式函数的特殊形式。透视函数和仿射函数的映射都是保凸的,而线性分式函数由二者复合得到,所以很显然线性分式函数的映射也是保凸的。类似地,线性分式函数的逆映射也是保凸的。
2.4 Generalized inequalities(广义不等式)
2.4.1 proper cones and generalized inequalities(正常锥与广义不等式)
锥
K
⊆
R
n
K\subseteq\mathbb{R}^n
K⊆Rn被称为正常锥应满足下列性质:
∙
K
\bullet \thinspace K
∙K是凸集
∙
K
\bullet \thinspace K
∙K是闭的
∙
K
\bullet \thinspace K
∙K是实心(solid)的,即
K
K
K没有非空内部
∙
K
\bullet \thinspace K
∙K是尖(pointed)的,即内部不包含直线
正常锥
K
K
K是用来定义广义不等式(generalized inequality)的,什么是广义不等式呢,它表示的是在
R
n
\mathbb{R}^n
Rn空间上的偏序关系,有很多性质与实数空间
R
\mathbb{R}
R上的标准排序关系(就是>,=,<)是一致的。
广义不等式(generalized inequality)
x
⪯
K
y
⟺
y
−
x
∈
K
x\preceq_K y\Longleftrightarrow y-x\in K
x⪯Ky⟺y−x∈K或
x
≺
K
y
⟺
y
−
x
∈
i
n
t
K
x\prec_K y\Longleftrightarrow y-x\in \mathbf{int}K
x≺Ky⟺y−x∈intK举个例子:
K
=
R
+
n
K=\mathbb{R}^n_{+}
K=R+n是一个正常锥(证明略),那么
x
⪯
K
y
⟺
x
i
≤
y
i
,
i
=
1
,
.
.
.
,
n
x\preceq_K y\Longleftrightarrow x_i\leq y_i,i=1,...,n
x⪯Ky⟺xi≤yi,i=1,...,n,或者说
x
≺
K
y
⟺
x
i
<
y
i
,
i
=
1
,
.
.
.
,
n
x\prec_K y\Longleftrightarrow x_i<y_i,i=1,...,n
x≺Ky⟺xi<yi,i=1,...,n
前面说了,广义不等式与标准不等式有相似的性质,下面就列出广义不等式与严格广义不等式的性质:
∙
⪯
K
\bullet \thinspace \preceq_K
∙⪯K加法下保持不等号方向:若
x
⪯
K
y
x\preceq_K y
x⪯Ky且
u
⪯
K
v
u\preceq_K v
u⪯Kv,那么
x
+
u
⪯
K
y
+
v
x+u\preceq_K y+v
x+u⪯Ky+v
∙
⪯
K
\bullet \thinspace \preceq_K
∙⪯K具有传递性:若
x
⪯
K
y
x\preceq_K y
x⪯Ky且
y
⪯
K
z
y\preceq_K z
y⪯Kz,那么
x
⪯
K
z
x\preceq_K z
x⪯Kz
∙
⪯
K
\bullet \thinspace \preceq_K
∙⪯K在非负因子放缩下保持不等号方向:若
x
⪯
K
y
x\preceq_K y
x⪯Ky且
α
≥
0
\alpha \geq 0
α≥0,那么
α
x
⪯
K
α
y
\alpha x\preceq_K \alpha y
αx⪯Kαy
∙
⪯
K
\bullet \thinspace \preceq_K
∙⪯K具有反身性:
x
⪯
K
x
x\preceq_K x
x⪯Kx
∙
⪯
K
\bullet \thinspace \preceq_K
∙⪯K具有反对称性:若
x
⪯
K
y
x\preceq_K y
x⪯Ky且
y
⪯
K
x
y\preceq_K x
y⪯Kx,那么
x
=
y
x=y
x=y
∙
⪯
K
\bullet \thinspace \preceq_K
∙⪯Kis preserved under limits:若
x
i
⪯
K
y
i
x_i\preceq_Ky_i
xi⪯Kyi,对于
i
=
1
,
2
,
.
.
.
,
x
i
→
x
,
y
i
→
y
i=1,2,...,x_i\rightarrow x,y_i\rightarrow y
i=1,2,...,xi→x,yi→y当
i
→
∞
i\rightarrow \infty
i→∞是仍成立,那么
x
⪯
K
y
x\preceq_K y
x⪯Ky
∙
\bullet
∙若
x
≺
K
y
x\prec_K y
x≺Ky那么
x
⪯
K
y
x\preceq_K y
x⪯Ky
∙
\bullet
∙若
x
≺
K
y
x\prec_K y
x≺Ky且
u
⪯
K
v
u\preceq_K v
u⪯Kv,那么
x
+
u
≺
K
y
+
v
x+u\prec_K y+v
x+u≺Ky+v
∙
\bullet
∙若
x
≺
K
y
x\prec_K y
x≺Ky且
α
>
0
\alpha > 0
α>0,那么
α
x
≺
K
α
y
\alpha x\prec_K \alpha y
αx≺Kαy
∙
x
⊀
K
x
\bullet\thinspace x\nprec_K x
∙x⊀Kx
∙
\bullet
∙若
x
≺
K
y
x\prec_K y
x≺Ky且u,v是足够小的数,那么
x
+
u
≺
K
y
+
v
x+u\prec_K y+v
x+u≺Ky+v
2.4.2 Minimum and minimal elements(最小元与极小元)
最小元(minimum element)
x
∈
S
,
x\in S,
x∈S,对任意
y
∈
S
,
有
x
⪯
K
y
y\in S,有x\preceq_K y
y∈S,有x⪯Ky,则称x是最小元。最大元的定义是类似的。如果一个集合有最小元(也就是说可能不存在),那么它是唯一的。
极小元(munimal element)
x
∈
S
,
x\in S,
x∈S,如果
y
∈
S
,
x
⪯
K
y
only if
y
=
x
y\in S,x\preceq_K y\thinspace \text{only if}\thinspace y=x
y∈S,x⪯Kyonly ify=x,那么x是极小元。极大元的定义是类似的。一个集合的极小元不唯一。
关于最小元和极小元的定义,还有另一种定义或者说证明的方法:
x
∈
S
x\in S
x∈S是最小元(minimum element)当且仅当:
S
⊆
x
+
K
.
S\subseteq x+K.
S⊆x+K.其中,
x
+
K
x+K
x+K表示所有能与x进行比较且大于或等于x的点。
x
∈
S
x\in S
x∈S是极小元(minimal element)当且仅当:
(
x
−
K
)
∩
S
=
{
x
}
.
(x-K)\cap S=\{x\}.
(x−K)∩S={x}.其中,
x
−
K
x-K
x−K表示所有能与x进行比较且小于或等于x的点。
下图是最小元与极小元的图形化示例。
2.5 Separating and supporting hyperplanes(分离与支撑超平面)
2.5.1 Separating hyperplane theorem(分离超平面定理)
分离超平面定理(Separating hyperplane theorem)
假设C和D是两个非空不相交的凸集,即
C
∩
D
=
∅
.
C\cap D=\empty.
C∩D=∅.那么存在
a
≠
0
&
b
,
a\neq 0\thinspace \& \thinspace b,
a=0&b,使得对任意
x
∈
C
,
a
T
x
≤
b
x\in C,a^Tx\leq b
x∈C,aTx≤b,任意
x
∈
D
,
a
T
x
≥
b
x\in D,a^Tx\geq b
x∈D,aTx≥b(换句话说,就是仿射函数
a
T
x
−
b
a^Tx-b
aTx−b使得集合C的元素映射后非正,集合D的元素映射后非负)。那么超平面
{
x
∣
a
T
x
=
b
}
\{x|a^Tx=b\}
{x∣aTx=b}就被称为分离超平面,或者说分离了C和D。下图是分离超平面分离C和D的示意:
严格分离(Strict separation)
顾名思义,当超平面分离两个不相交非空凸集时等号取不到就是严格分离。
分离超平面逆定理(Converse separating hyperplane theorems)
请问如果存在一个超平面
{
x
∣
a
T
x
=
b
}
\{x|a^Tx=b\}
{x∣aTx=b}使得对任意
x
∈
C
,
a
T
x
≤
b
x\in C,a^Tx\leq b
x∈C,aTx≤b,对任意
x
∈
D
,
a
T
x
≥
b
x\in D,a^Tx\geq b
x∈D,aTx≥b,那么能证明集合C和D不相交吗?很遗憾,答案是不能。反例:
C
=
D
=
{
0
}
⊆
R
C=D=\{0\}\subseteq\mathbb{R}
C=D={0}⊆R,超平面
x
=
0
x=0
x=0.
也就是说,想要分离超平面逆定理成立,在要求C和D的凸性之外,还应该添加其他的一些要求。这个要求就是:C和D中至少有一个是开集。即:任意两个凸集C和D,其中至少一个是开集,它们不相交当且仅当存在一个分离超平面。
这个逆定理的证明当时没有看懂,所以原文贴在下面。
2.5.2 Supporting hyperplanes(支撑超平面)
支撑超平面(Supporting hyperplanes)
假设
C
⊆
R
n
C\subseteq\mathbb{R}^n
C⊆Rn,且
x
0
x_0
x0在集合C的边界上,即:
x
0
∈
b
d
C
=
c
l
C
∖
i
n
t
C
.
x_0\in\mathbf{bd} C=\mathbf{cl} C\setminus \mathbf{int} C.
x0∈bdC=clC∖intC.若
a
≠
0
a\neq 0
a=0满足对任意
x
∈
C
,
a
T
x
≤
a
T
x
0
x\in C,a^Tx\leq a^Tx_0
x∈C,aTx≤aTx0,那么超平面
{
x
∣
a
T
x
=
a
T
x
0
}
\{x|a^Tx=a^Tx_0\}
{x∣aTx=aTx0}被称为集合C在点
x
0
x_0
x0处的支撑超平面,或者说点
x
0
x_0
x0和集合C被超平面
{
x
∣
a
T
x
=
a
T
x
0
}
\{x|a^Tx=a^Tx_0\}
{x∣aTx=aTx0}分离。在几何直观上,超平面
{
x
∣
a
T
x
=
a
T
x
0
}
\{x|a^Tx=a^Tx_0\}
{x∣aTx=aTx0}就是集合C在点
x
0
x_0
x0处的切线,如下图所示。
分离超平面定理
分离超平面定理:对于任意非空凸集C,及其边界上的任意一点
x
0
x_0
x0,都存在一个集合C在点
x
0
x_0
x0处的支撑超平面。
其存在一个部分形式的逆定理:若一个集合是闭集,其内部非空,在边界上任意一点都有一个支撑超平面,那么这个集合是凸集。
2.6 Dual cones and generalized inequalities(对偶锥与广义不等式)
2.6.1 Dual cones(对偶锥)
对偶锥(Dual cone)
K是锥(锥的定义见2.1.5),集合
K
∗
K^*
K∗被称为对偶锥(dual cone):
K
∗
=
{
y
∣
x
T
y
≥
0
,
for all
x
∈
K
}
.
K^{*}=\{y|x^Ty\geq 0,\text{for all}\thinspace x\in K\}.
K∗={y∣xTy≥0,for allx∈K}.几何意义上,
y
∈
K
∗
y\in K^{*}
y∈K∗当且仅当
−
y
-y
−y是在原点支撑集合K的超平面的法线。这里我个人的理解是,在原点处支撑集合K的超平面一定不能经过集合K的内部,否则就不满足支撑超平面的定义,那么极限情况就是超平面经过集合K的边界(在
R
2
\mathbb{R}^2
R2空间中,从原点引出且经过K边界的超平面应该有两个),
K
∗
K^{*}
K∗就是这两个超平面的法线围成的区域。下图中,一张来自原书插图,一张来自网络文章插图,以期帮助读者理解对偶锥。
对偶锥有几个性质:
∙
K
∗
\bullet\thinspace K^{*}
∙K∗是闭集且是凸集.
∙
K
1
⊆
K
2
\bullet\thinspace K_1\subseteq K_2
∙K1⊆K2能推出
K
1
∗
⊆
K
2
∗
K^{*}_1\subseteq K^{*}_2
K1∗⊆K2∗.
∙
\bullet
∙若
K
K
K有非空内部,那么
K
∗
K^{*}
K∗就是尖(pointed)的.
∙
\bullet
∙若集合
K
K
K的闭包是尖的,那么
K
∗
K^{*}
K∗有非空内部.
∙
K
∗
∗
\bullet\thinspace K^{**}
∙K∗∗是K的凸包的闭集(我没看懂T_T)(因此,若集合
K
K
K是凸集且是闭集,那么
K
∗
∗
=
K
K^{**}=K
K∗∗=K).
2.6.2 Dual generalized inequalities(对偶广义不等式)
假设凸锥
K
K
K是正常锥,由它引申出广义不等式
⪯
K
\preceq_K
⪯K,
K
K
K的对偶锥
K
∗
K^{*}
K∗也是正常锥,因此也能引申出广义不等式
⪯
K
∗
\preceq_{K^{*}}
⪯K∗,它被称为广义不等式
⪯
K
\preceq_K
⪯K的对偶。
性质:
∙
x
⪯
K
y
\bullet\thinspace x\preceq_K y
∙x⪯Ky当且仅当对所有
λ
⪰
K
∗
0
,
有
λ
T
x
≤
λ
T
y
\lambda\succeq_{K^{*}}0,有\lambda^{T}x\leq\lambda^{T}y
λ⪰K∗0,有λTx≤λTy
∙
x
≺
K
y
\bullet\thinspace x\prec_K y
∙x≺Ky当且仅当对所有
λ
⪰
K
∗
0
,
λ
≠
0
,
有
λ
T
x
≤
λ
T
y
\lambda\succeq_{K^{*}}0,\lambda\neq 0,有\lambda^{T}x\leq\lambda^{T}y
λ⪰K∗0,λ=0,有λTx≤λTy
2.6.3 Minimum and minimal elements via dual inequalities(对偶不等式下的最小元与极小元)
最小元的对偶特征(Dual characterization of minimum element)
x
∈
S
x\in S
x∈S是
⪯
K
\preceq_K
⪯K定义下的最小元当且仅当所有
λ
≻
K
∗
0
\lambda\succ_{K^{*}}0
λ≻K∗0时,
x
x
x是
∀
z
∈
S
\forall z\in S
∀z∈S中最小化
λ
T
z
\lambda^Tz
λTz的唯一解。几何上来说,这意味着对于所有
λ
≻
K
∗
0
\lambda\succ_{K^{*}}0
λ≻K∗0,超平面
{
z
∣
λ
T
(
z
−
x
)
=
0
}
\{z|\lambda^T(z-x)=0\}
{z∣λT(z−x)=0}在点x处是严格支撑超平面(严格支撑超平面是指,该平面与几何S唯一的交集是点x)。下图是示例:
极小元的对偶特征(Dual characterization of minimal element)
广义不等式
⪯
K
\preceq_K
⪯K下的极小元满足:对于某个
λ
≻
K
∗
0
\lambda\succ_{K^{*}}0
λ≻K∗0,x是
∀
z
∈
S
\forall z\in S
∀z∈S中最小化
λ
T
z
\lambda^Tz
λTz的唯一解。下图是示例:
2.7 写在最后
这一节不是书中的内容。第一次看磕磕绊绊,希望有时间能重新看几次,因为特别是从对偶锥开始对我来说就比较难理解了。前面的概念还是很重要的。如有错漏,欢迎批评指正。