Convex Optimization Chapter Ⅱ笔记


文章主要用来记录《convex optimization》中出现的概念定义(性质基本不写证明,详细的证明过程可以翻作者的书)和一些个人想法。

2.1 Affine and convex sets(仿射集和凸集)

2.1.1 Lines and line segments(直线与线段)

假设 x 1 、 x 2 x_1、x_2 x1x2 R n \mathbb{R^n} Rn不重合的两点,即 x 1 ≠ x 2 x_1\neq x_2 x1=x2,则通过 x 1 , x 2 x_1,x_2 x1,x2两点的直线表达式为: y = θ x 1 + ( 1 − θ ) x 2 , θ ∈ R y=\theta x_1+(1-\theta)x_2,\theta \in \mathbb{R} y=θx1+(1θ)x2,θR θ \theta θ取值 0 ≤ θ ≤ 1 0 \leq\theta\leq1 0θ1时,上式表示的是以 x 1 , x 2 x_1,x_2 x1,x2为端点的线段。

2.1.2 Affine sets(仿射集)

仿射集与仿射组合(affine sets and affine combination)
对任意 x 1 , x 2 ∈ C , 其中 C ⊆ R n , θ ∈ R , 有 θ x 1 + ( 1 − θ ) x 2 ∈ C 对任意x_1,x_2\in C,其中C\subseteq \mathbb{R^n},\theta \in \mathbb{R},有\theta x_1+(1-\theta)x_2 \in C 对任意x1,x2C,其中CRn,θR,θx1+(1θ)x2C(从几何意义上看,就是通过 x 1 , x 2 x_1,x_2 x1,x2两点的直线还在集合C中),那么集合C就被称为仿射集。根据定义,可以知道直线是仿射集,但仿射集不一定是直线。容易联想,更广泛地,将两个点推广到多个点: θ 1 x 1 + . . . + θ k x k \theta_1 x_1+...+\theta_k x_k θ1x1+...+θkxk被称为点 x 1 , . . . , x k x_1,...,x_k x1,...,xk仿射组合,其中 θ 1 + . . . θ k = 1 \theta_1+...\theta_k=1 θ1+...θk=1。容易证明: 若 C 是一个仿射集 , x 1 , . . . , x k ∈ C , 且 θ 1 + . . . θ k = 1 ,那么 θ 1 x 1 + . . . + θ k x k ∈ C 若C是一个仿射集,x_1,...,x_k\in C,且\theta_1+...\theta_k=1,那么\theta_1 x_1+...+\theta_k x_k\in C C是一个仿射集,x1,...,xkC,θ1+...θk=1,那么θ1x1+...+θkxkC,也即仿射集包含其它的点的所有仿射组合。

子空间与子空间的维度(subspace and dimension of subspace)
如果C是仿射集,且 x 0 ∈ C x_0 \in C x0C,那么 V = C − x 0 = { x − x 0 ∣ x ∈ C } V=C-x_0=\{x-x_0|x\in C\} V=Cx0={xx0xC}被称为与C相关的子空间(subspace),具有在定义域内加法乘法运算的封闭性。仿射集可以表示成子空间V与偏置 x 0 x_0 x0的和,即: C = V + x 0 = { v + x 0 ∣ v ∈ V } C=V+x_0=\{v+x_0|v\in V\} C=V+x0={v+x0vV}为什么要定义子空间呢,子空间有哪些性质呢?从上面的定义可以知道,如果存在 α , β ∈ R , x 1 , x 2 ∈ C , α + β ≠ 1 , 那么 α x 1 + β x 2 不一定在 C 中 \alpha,\beta \in \mathbb{R},x_1,x_2 \in C,\alpha+\beta \neq 1,那么\alpha x_1+\beta x_2不一定在C中 α,βR,x1,x2C,α+β=1,那么αx1+βx2不一定在C.但子空间却满足这个性质,也即如果存在 α , β ∈ R , x 1 , x 2 ∈ V , α + β ≠ 1 , 那么 α x 1 + β x 2 ∈ V 仍然满足 \alpha,\beta \in \mathbb{R},x_1,x_2 \in V,\alpha+\beta \neq 1,那么\alpha x_1+\beta x_2 \in V仍然满足 α,βR,x1,x2V,α+β=1,那么αx1+βx2V仍然满足.证明如下:





我们定义仿射集C的维度等于子空间 V = C − x 0 ( x 0 是 C 的任一元素 ) V=C-x_0(x_0是C的任一元素) V=Cx0(x0C的任一元素)维度

仿射包(affine hull)
任意集合 C ⊆ R 的 C\subseteq \mathbb{R}的 CR任意点的所有仿射组合构成的集合称为集合C的仿射包,记作aff C: a f f C = { θ 1 x 1 + . . . + θ k x k ∣ x 1 , . . . , x k ∈ C , θ 1 + . . . + θ k = 1 } \mathbf{aff} C=\{\theta_1 x_1+...+\theta_k x_k|x_1,...,x_k \in C,\theta_1+...+\theta_k=1\} affC={θ1x1+...+θkxkx1,...,xkC,θ1+...+θk=1}仿射包的性质:仿射包是包含集合C的最小仿射集,也就是说,若S是任一满足 C ⊆ S C \subseteq S CS 的仿射集,那么 a f f C ⊆ S \mathbf{aff} C \subseteq S affCS.

2.1.3 Affine demension and relative interior(仿射维度与相对内部)

仿射维度(affine dimension)
定义:集合C的仿射维度等于集合C的仿射包的维度。如果 C ⊆ R 2 , C = { x 1 , x 2 , x 3 } , x 1 , x 2 , x 3 C\subseteq \mathbb{R^2},C= \{x_1,x_2,x_3\},x_1,x_2,x_3 CR2,C={x1,x2,x3},x1,x2,x3是平面空间中的三点,两两连线不重合,那么集合C的仿射包就等于空间 R 2 \mathbb{R^2} R2,此时集合C的仿射包的维度就等于2,根据定义,集合C的仿射维度也就是2。如果集合 C ⊆ R n C \subseteq \mathbb{R^n} CRn的放射维度小于n,就说明其分量两两连线并不全是不重合的,因此这些点生成的仿射包就不能铺满空间 R 2 \mathbb{R}^2 R2,故 a f f C ≠ R n \mathbf{aff} C\neq \mathbb{R^n} affC=Rn.

相对内部(relative interior)
使用符号 r e l i n t C \mathbf{relint} C relintC记作集合C的相对内部,也表示 a f f C \mathbf{aff} C affC的相对内部: r e l i n t C = { x ∈ C ∣ 存在 r > 0 , 使得 B ( x , r ) ∩ a f f C ⊆ C } , \mathbf{relint} C=\{x\in C|存在r>0,使得B(x,r)\cap \mathbf{aff} C \subseteq C\}, relintC={xC存在r>0,使得B(x,r)affCC},其中 B ( x , r ) = { y ∣   ∣ ∣ y − x ∣ ∣ < r } B(x,r)=\{y|\thinspace||y-x||<r\} B(x,r)={y∣∣yx∣∣<r}表示半径为 r r r,中心为 x x x,并由范数||.||定义的球。同时,我们还能定义 c l C ∖ r e l i n t C \mathbf{cl} C \setminus \mathbf{relint}C clCrelintC为集合C的相对边界,其中 c l C \mathbf{cl} C clC是C的闭包。下面给出关于相对边界的一个示例:

在这里插入图片描述

2.1.4 Convex set(凸集)

凸集(convex sets)
当集合C中任意两点构成的线段仍在集合C中,则称集合C是的,即 对任意 x 1 , x 2 ∈ C , 0 ≤ θ ≤ 1 对任意x_1,x_2\in C,0\leq \theta \leq 1 对任意x1,x2C,0θ1,有: θ x 1 + ( 1 − θ ) x 2 ∈ C . \theta x_1+(1-\theta)x_2 \in C. θx1+(1θ)x2C.根据仿射集和凸集的定义,我们知道凸集一定是仿射集,从几何意义上讲,过两点的线段一定被过这两点的直线包含.

凸组合(convex combination)
像定义仿射组合的方式一样,我们定义 θ 1 x 1 + . . . + θ k x k \theta_1 x_1+...+\theta_k x_k θ1x1+...+θkxk为点 x 1 , . . . , x k x_1,...,x_k x1,...,xk的凸组合,其中 θ 1 + . . . + θ k = 1 , θ i ≥ 0 , i = 1 , . . . , k . \theta_1+...+\theta_k=1,\theta_i \geq 0,i=1,...,k. θ1+...+θk=1,θi0,i=1,...,k.可以证明,一个集合是凸的当且仅当该集合包含它的所有点的凸组合.

凸包(convex hull)
集合C的凸包记作 c o n v C , \mathbf{conv} C, convC,凸包是C中所有点的所有凸组合: c o n v C = { θ 1 x 1 + . . . + θ k x k ∣ x i ∈ C , θ i ≥ 0 , i = 1 , . . . , k , θ 1 + . . . + θ k = 1 } . \mathbf{conv} C=\{\theta_1 x_1+...+\theta_k x_k|x_i \in C,\theta_i \geq 0,i=1,...,k,\theta_1+...+\theta_k=1\}. convC={θ1x1+...+θkxkxiC,θi0,i=1,...,k,θ1+...+θk=1}.凸包 c o n v C \mathbf{conv}C convC一定是凸的,且凸包是包含集合C的最小凸集.

2.1.5 Cones(锥)

锥(cone)
如果对任意 x ∈ C , θ ≥ 0 x\in C,\theta \geq 0 xC,θ0,有 θ x ∈ C , \theta x\in C, θxC,那么集合C就是,或者称为非负同质(nonnegtive homogeneous).

凸锥(convex cone)
如果对任意 x ∈ C , θ 1 , θ 2 ≥ 0 x\in C,\theta_1,\theta_2 \geq 0 xC,θ1,θ20,有 θ 1 x 1 + θ 2 x 2 ∈ C . \theta_1 x_1+\theta_2 x_2\in C. θ1x1+θ2x2C.那么集合C就是凸锥(既是凸的又是锥).凸锥的几何形式就是从原点O向集合C中的两点 x 1 , x 2 x_1,x_2 x1,x2引出的射线所包围形成的图形(包括射线),下面的图可以给你一个直观的印象。
在这里插入图片描述


凸锥组合(conic combination)
我们定义 θ 1 x 1 + . . . + θ k x k \theta_1 x_1+...+\theta_k x_k θ1x1+...+θkxk为点 x 1 , . . . , x k x_1,...,x_k x1,...,xk的凸锥组合,其中 θ i ≥ 0 , i = 1 , . . . , k . \theta_i \geq 0,i=1,...,k. θi0,i=1,...,k.如果 x i x_i xi在凸锥C中,那么 x i x_i xi的所有凸锥组合都在集合C中,这个性质和仿射组合、凸组合是一样的。集合C是凸锥当且仅当集合C包含其元素的所有凸锥组合.

凸锥包(conic hull)
凸锥包是集合C的点的所有凸锥组合组成的集合,它是包含C的最小凸锥: { θ 1 x 1 + . . . + θ k x k ∣ x i ∈ C , θ i ≥ 0 , i = 1 , . . . , k } . \{\theta_1 x_1+...+\theta_k x_k|x_i\in C,\theta_i\geq 0,i=1,...,k\}. {θ1x1+...+θkxkxiC,θi0,i=1,...,k}.

2.2 几个重要的凸集

2.2.1 Hyperplanes and halfspaces(超平面与半空间)

超平面(Hyperplanes)
具有如下形式的集合称为超平面: { x ∣ a T x = b , a ∈ R n , a ≠ 0 , b ∈ R } , \{x|a^Tx=b,a\in \mathbb{R^n},a \neq 0,b \in \mathbb{R}\}, {xaTx=b,aRn,a=0,bR},超平面是一个仿射集。从几何层面来看,超平面的法向量为a,常数 b ∈ R b\in \mathbb{R} bR决定了超平面相对于原点的偏移距离。

半空间(halfspace)
超平面将 R n \mathbb{R^n} Rn空间分为两个半空间.半空间是凸集,但不是仿射集。当 b = 0 b=0 b=0,即超平面经过原点时半空间是凸锥。下图给出了超平面和半空间在 R 2 \mathbb{R^2} R2空间上直观的几何表示, { x ∣ a T x ≤ b , a ∈ R n , a ≠ 0 , b ∈ R } \{x|a^Tx \leq b,a\in \mathbb{R^n},a \neq 0,b \in \mathbb{R}\} {xaTxb,aRn,a=0,bR}表示的是图中的阴影部分,当不等号取不到时,即除去边界,剩下的部分称为开半空间(open halfspace)

在这里插入图片描述

2.2.2 Euclidean balls and ellopsoids(球与椭球)

球(Euclidean ball)
球在 R n \mathbb{R^n} Rn上的表达式为: B ( x c , r ) = { x ∣   ∣ ∣ x − x c ∣ ∣ ≤ r } = { x ∣ ( x − x c ) T ( x − x c ) ≤ r } , B(x_c,r)=\{x|\thinspace||x-x_c|| \leq r\}=\{x|(x-x_c)^T(x-x_c)\leq r\}, B(xc,r)={x∣∣xxc∣∣r}={x(xxc)T(xxc)r},其中 r > 0 , ∣ ∣ . ∣ ∣ r>0,||.|| r>0,∣∣.∣∣表示欧几里得范数,即 ∣ ∣ u ∣ ∣ 2 = ( u T u ) 1 / 2 . B ( x c , r ) ||u||_2=(u^Tu)^{1/2}.B(x_c,r) ∣∣u2=(uTu)1/2.B(xc,r)表示所有距离中心 x c x_c xc不足 r r r的点的集合。另外,球的常见表达式还可以写为: B ( x c , r ) = { x c + r u ∣   ∣ ∣ u ∣ ∣ 2 ≤ 1 } . B(x_c,r)=\{x_c+ru|\thinspace||u||_2 \leq 1\}. B(xc,r)={xc+ru∣∣u21}.可以证明,球是凸集,从直觉上来讲它应该就是凸集。

椭球(ellipsoids)
椭球的表达式: ε = { x ∣ ( x − x c ) T P − 1 ( x − x c ) ≤ 1 } , \varepsilon=\{x|(x-x_c)^TP^{-1}(x-x_c) \leq 1\}, ε={x(xxc)TP1(xxc)1},其中 P = P T ≻ 0 , P=P^T\succ 0, P=PT0,即P是对称正定矩阵。 x c ∈ R n x_c\in \mathbb{R^n} xcRn是椭球的中心,矩阵P决定了椭球从 x c x_c xc向n个方向延伸的长度情况。椭球也是凸集。椭球的另一个常用表达式为: ε = { x c + A u ∣   ∣ ∣ u ∣ ∣ 2 ≤ 1 } . \varepsilon=\{x_c+Au|\thinspace||u||_2 \leq 1\}. ε={xc+Au∣∣u21}.

2.2.3 Norm balls and norm cones(范数球与范数锥)


2.2.4 Polyhedra(多面体)

多面体(Polyhedra)
有限个线性等式和不等式的解集称为多面体: P = { x ∣ a j T x ≤ b j , j = 1 , . . . , m , c j T x = d j , j = 1 , . . . , p } . \mathcal{P}=\{x|a^T_jx \leq b_j,j=1,...,m,c^T_jx=d_j,j=1,...,p\}. P={xajTxbj,j=1,...,m,cjTx=dj,j=1,...,p}.或: P = { x ∣ A x ⪯ b , C x = d } , \mathcal{P}=\{x|Ax\preceq b,Cx=d\}, P={xAxb,Cx=d},从多面体的定义可以看出,它其实是有限个半空间和超平面的交集,半空间、超平面、直线都是凸集,所以多面体也是凸集。有界多面体有时会被称为多胞体(polytope),有些学者会将多面体和多胞体的定义反着记,这都是正确的,不必疑惑。

单纯形(Simplexes)
单纯形是一类重要的多面体。假设有 k + 1 k+1 k+1个仿射独立的点 v 0 , . . . , v k ∈ R n v_0,...,v_k\in \mathbb{R^n} v0,...,vkRn,即 v 1 − v 0 , . . . , v k − v 0 v_1-v_0,...,v_k-v_0 v1v0,...,vkv0线性独立(线性无关),则单纯形的定义为: C = c o n v { v 0 , . . . v k } = { θ 0 v 0 + . . . + θ k x k ∣ θ ⪰ 0 , 1 T θ = 1 } , C=\mathbf{conv} \{v_0,...v_k\}=\{\theta_0 v_0+...+\theta_k x_k|\theta \succeq 0,\mathbf{1}^T\theta=1\}, C=conv{v0,...vk}={θ0v0+...+θkxkθ0,1Tθ=1},单纯形的放射维度是 k k k,所以有时会直接称在   R n \thinspace \mathbf{R}^n Rn中的k维单纯形。可以证明(这里没有给出证明过程,详细过程在书Page 33),单纯形确实是多面体,而且 x ∈ C 当且仅当 A 2 x = A 2 v 0 , A 1 x ⪯ A 1 v 0 , 1 T A 1 x ≤ 1 + 1 T A 1 v 0 , with A = ( A 1 , A 2 ) ∈ R n × n 非奇异 x\in C当且仅当A_2x=A_2v_0,A_1x\preceq A_1v_0,\mathbf{1}^TA_1x\leq1+\mathbf{1}^TA_1v_0,\text{with}A=(A_1,A_2)\in \mathbb{R}^{n\times n}非奇异 xC当且仅当A2x=A2v0,A1xA1v0,1TA1x1+1TA1v0,withA=(A1,A2)Rn×n非奇异

多面体的凸包描述(Convex hull description of polyhedra)
略(因为我不是很看得懂T_T)

2.2.5 The positive semidefinite cone(正半定锥)

主要介绍三个符号: S n , S + n , S + + n \mathbf{S}^n,\mathbf{S}^n_+,\mathbf{S}^n_{++} Sn,S+n,S++n,它们依照顺序分别表示对称 n × n n\times n n×n矩阵,对称半正定 n × n n\times n n×n矩阵和对称正定 n × n n\times n n×n矩阵。 S n , S + n \mathbf{S}^n,\mathbf{S}^n_+ Sn,S+n是凸锥,但 S + + n \mathbf{S}^n_{++} S++n不能判断是凸锥(用定义能直接证).

2.3 Operations that preserve convexity(保凸运算)

介绍保凸运算是为了能够判断运算之后的集合是否为凸集,以及如何构造凸集。

2.3.1 Intersection(交)

集合的交集能保持凸性: if   S 1 , S 2 are convex,then   S 1 ∩ S 2 is convex . \text{if}\thinspace S_1,S_2 \text{are convex,then}\thinspace S_1\cap S_2 \text{is convex}. ifS1,S2are convex,thenS1S2is convex.这一个性质可以扩展到任意多个凸集的交集也仍然是凸集。

2.3.2 Affine functions(仿射函数)

具有以下形式的函数 f : R n → R m f:\mathbb{R}^n \rightarrow \mathbb{R}^m f:RnRm是仿射的(不记得仿射的概念可以跳到2.1.2看看): f ( x ) = A x + b , A ∈ R m × n , b ∈ R m × n . f(x)=Ax+b,A\in \mathbb{R}^{m\times n},b\in \mathbb{R}^{m\times n}. f(x)=Ax+b,ARm×n,bRm×n.一个重要的性质:假设 S ⊆ R n S\subseteq \mathbb{R}^n SRn是凸集, f : R n → R m f:\mathbb{R}^n \rightarrow \mathbb{R}^m f:RnRm是仿射函数,那么 S S S f f f下的像的集合也是凸集: f ( S ) = { f ( x ) ∣ x ∈ S } . f(S)=\{f(x)|x\in S\}. f(S)={f(x)xS}.类似地,若 f : R k → R n f:\mathbb{R}^k \rightarrow \mathbb{R}^n f:RkRn是仿射函数,那么 S S S f f f下的逆像也是凸集,即: f − 1 ( S ) = { x ∣ f ( x ) ∈ S } . f^{-1}(S)=\{x|f(x)\in S\}. f1(S)={xf(x)S}.还有几个例子,这里一并给出(假设下面提到的 S S S S 1 , S 2 S_1,S_2 S1,S2都是凸集):
(1)放缩和位移保持凸性: α ∈ R , a ∈ R n \alpha\in\mathbb{R},a\in\mathbb{R}^n αR,aRn,那么 α S = { α x ∣ x ∈ S } , S + a = { x + a ∣ x ∈ S } \alpha S=\{\alpha x|x\in S\},S+a=\{x+a|x\in S\} αS={αxxS},S+a={x+axS}是凸集
(2)凸集在其某些坐标上的投影也是凸集: T = { x 1 ∈ R m ∣ ( x 1 , x 2 ) ∈ S   for some   x 2 ∈ R n } T=\{x_1\in\mathbb{R}^m|(x_1,x_2)\in S\thinspace\text{for some}\thinspace x_2\in\mathbb{R}^n\} T={x1Rm(x1,x2)Sfor somex2Rn}是凸集
(3)两个凸集的和是凸集: S 1 + S 2 = { x + y ∣ x ∈ S 1 , y ∈ S 2 } S_1+S_2=\{x+y|x\in S_1,y\in S_2\} S1+S2={x+yxS1,yS2}是凸集
(4)两个凸集的直积或者说笛卡尔乘积是凸集: S 1 × S 2 = { ( x 1 , x 2 ) ∣ x 1 ∈ S 1 , x 2 ∈ S 2 } S_1\times S_2=\{(x_1,x_2)|x_1\in S_1,x_2\in S_2\} S1×S2={(x1,x2)x1S1,x2S2}是凸集
(5)凸集的偏序和是凸集: S = { ( x , y 1 + y 2 ) ∣ ( x , y 1 ) ∈ S 1 , ( x , y 2 ) ∈ S 2 } S=\{(x,y_1+y_2)|(x,y_1)\in S_1,(x,y_2)\in S_2\} S={(x,y1+y2)(x,y1)S1,(x,y2)S2}是凸集

2.3.3 Linear-fractional and perspective functions(线性分数与透视函数)

透视函数(The perspective function)
定义 P : R n + 1 → R n P:\mathbb{R}^{n+1}\rightarrow\mathbb{R}^n P:Rn+1Rn(with d o m P = R n × R + + , a s   P ( z , t ) = z / t . \mathbf{dom} P=\mathbb{R}^n \times \mathbb{R}_{++},as\thinspace P(z,t)=z/t. domP=Rn×R++,asP(z,t)=z/t.)为透视函数。透视函数通过缩放或规范化向量,使最后一个分量化为1,并删除最后一个分量。可以证明,如果 C ⊆ d o m P C\subseteq \mathbf{dom} P CdomP是凸集,那么C在透视函数作用下的集合也是凸集: P ( C ) = { P ( x ) ∣ x ∈ C }   is convex . P(C)=\{P(x)|x\in C\}\thinspace \text{is convex}. P(C)={P(x)xC}is convex.另外,凸集 C ⊆ d o m P C\subseteq \mathbf{dom} P CdomP在透视函数下的逆像也是凸集: P − 1 ( C ) = { ( x , t ) ∈ R n + 1 ∣ x / t ∈ C , t > 0 }   is convex . P^{-1}(C)=\{(x,t)\in\mathbb{R}^{n+1}|x/t\in C,t>0\}\thinspace\text{is convex}. P1(C)={(x,t)Rn+1x/tC,t>0}is convex.透视函数就像是位于原点的单孔相机,将一个物体生成一张照片,照片位于最后一个分量为1的空间平面上,下面的图片也许会给你更直观的感受(图里投影到-1平面上是取了负操作的)。
在这里插入图片描述


线性分式函数(Linear-fractional functions)
假设 g : R n → R m + 1 g:\mathbb{R}^n\rightarrow\mathbb{R}^{m+1} g:RnRm+1是仿射函数,即: g ( x ) = [ A c T ] x + [ b d ] , w i t h   A ∈ R m × n , b ∈ R m , c ∈ R n , d ∈ R . g(x)=\begin{bmatrix} A\\ c^T\\ \end{bmatrix}x+ \begin{bmatrix} b\\ d\\ \end{bmatrix},with \thinspace A\in\mathbb{R}^{m\times n},b\in\mathbb{R}^m,c\in\mathbb{R}^n,d\in\mathbb{R}. g(x)=[AcT]x+[bd],withARm×n,bRm,cRn,dR.
线性分式函数 f : R n → R m f:\mathbb{R}^n\rightarrow\mathbb{R}^m f:RnRm由透视函数 P P P和仿射函数 g g g给出, f = P ∘ g , f=P\circ g, f=Pg,即: f ( x ) = ( A x + b ) / ( c T + d ) , d o m f = { x ∣ c T x + d > 0 } , f(x)=(Ax+b)/(c^T+d),\mathbf{dom} f=\{x|c^Tx+d>0\}, f(x)=(Ax+b)/(cT+d),domf={xcTx+d>0}, c = 0 , d > 0 c=0,d>0 c=0,d>0,那么 d o m f = R n \mathbf{dom}f=\mathbf{R}^n domf=Rn,这时候 f f f是仿射函数,所以你可以说仿射函数和线性函数都是线性分式函数的特殊形式。透视函数和仿射函数的映射都是保凸的,而线性分式函数由二者复合得到,所以很显然线性分式函数的映射也是保凸的。类似地,线性分式函数的逆映射也是保凸的。

2.4 Generalized inequalities(广义不等式)

2.4.1 proper cones and generalized inequalities(正常锥与广义不等式)

K ⊆ R n K\subseteq\mathbb{R}^n KRn被称为正常锥应满足下列性质
∙   K \bullet \thinspace K K是凸集
∙   K \bullet \thinspace K K是闭的
∙   K \bullet \thinspace K K是实心(solid)的,即 K K K没有非空内部
∙   K \bullet \thinspace K K是尖(pointed)的,即内部不包含直线
正常锥 K K K是用来定义广义不等式(generalized inequality)的,什么是广义不等式呢,它表示的是在 R n \mathbb{R}^n Rn空间上的偏序关系,有很多性质与实数空间 R \mathbb{R} R上的标准排序关系(就是>,=,<)是一致的。

广义不等式(generalized inequality) x ⪯ K y ⟺ y − x ∈ K x\preceq_K y\Longleftrightarrow y-x\in K xKyyxK x ≺ K y ⟺ y − x ∈ i n t K x\prec_K y\Longleftrightarrow y-x\in \mathbf{int}K xKyyxintK举个例子: K = R + n K=\mathbb{R}^n_{+} K=R+n是一个正常锥(证明略),那么 x ⪯ K y ⟺ x i ≤ y i , i = 1 , . . . , n x\preceq_K y\Longleftrightarrow x_i\leq y_i,i=1,...,n xKyxiyi,i=1,...,n,或者说 x ≺ K y ⟺ x i < y i , i = 1 , . . . , n x\prec_K y\Longleftrightarrow x_i<y_i,i=1,...,n xKyxi<yi,i=1,...,n

前面说了,广义不等式与标准不等式有相似的性质,下面就列出广义不等式与严格广义不等式的性质:
∙   ⪯ K \bullet \thinspace \preceq_K K加法下保持不等号方向:若 x ⪯ K y x\preceq_K y xKy u ⪯ K v u\preceq_K v uKv,那么 x + u ⪯ K y + v x+u\preceq_K y+v x+uKy+v
∙   ⪯ K \bullet \thinspace \preceq_K K具有传递性:若 x ⪯ K y x\preceq_K y xKy y ⪯ K z y\preceq_K z yKz,那么 x ⪯ K z x\preceq_K z xKz
∙   ⪯ K \bullet \thinspace \preceq_K K在非负因子放缩下保持不等号方向:若 x ⪯ K y x\preceq_K y xKy α ≥ 0 \alpha \geq 0 α0,那么 α x ⪯ K α y \alpha x\preceq_K \alpha y αxKαy
∙   ⪯ K \bullet \thinspace \preceq_K K具有反身性: x ⪯ K x x\preceq_K x xKx
∙   ⪯ K \bullet \thinspace \preceq_K K具有反对称性:若 x ⪯ K y x\preceq_K y xKy y ⪯ K x y\preceq_K x yKx,那么 x = y x=y x=y
∙   ⪯ K \bullet \thinspace \preceq_K Kis preserved under limits:若 x i ⪯ K y i x_i\preceq_Ky_i xiKyi,对于 i = 1 , 2 , . . . , x i → x , y i → y i=1,2,...,x_i\rightarrow x,y_i\rightarrow y i=1,2,...,xix,yiy i → ∞ i\rightarrow \infty i是仍成立,那么 x ⪯ K y x\preceq_K y xKy

∙ \bullet x ≺ K y x\prec_K y xKy那么 x ⪯ K y x\preceq_K y xKy
∙ \bullet x ≺ K y x\prec_K y xKy u ⪯ K v u\preceq_K v uKv,那么 x + u ≺ K y + v x+u\prec_K y+v x+uKy+v
∙ \bullet x ≺ K y x\prec_K y xKy α > 0 \alpha > 0 α>0,那么 α x ≺ K α y \alpha x\prec_K \alpha y αxKαy
∙   x ⊀ K x \bullet\thinspace x\nprec_K x xKx
∙ \bullet x ≺ K y x\prec_K y xKy且u,v是足够小的数,那么 x + u ≺ K y + v x+u\prec_K y+v x+uKy+v

2.4.2 Minimum and minimal elements(最小元与极小元)

最小元(minimum element)
x ∈ S , x\in S, xS,对任意 y ∈ S , 有 x ⪯ K y y\in S,有x\preceq_K y yS,xKy,则称x是最小元。最大元的定义是类似的。如果一个集合有最小元(也就是说可能不存在),那么它是唯一的。

极小元(munimal element)
x ∈ S , x\in S, xS,如果 y ∈ S , x ⪯ K y   only if   y = x y\in S,x\preceq_K y\thinspace \text{only if}\thinspace y=x yS,xKyonly ify=x,那么x是极小元。极大元的定义是类似的。一个集合的极小元不唯一。

关于最小元和极小元的定义,还有另一种定义或者说证明的方法:
x ∈ S x\in S xS是最小元(minimum element)当且仅当: S ⊆ x + K . S\subseteq x+K. Sx+K.其中, x + K x+K x+K表示所有能与x进行比较且大于或等于x的点。

x ∈ S x\in S xS是极小元(minimal element)当且仅当: ( x − K ) ∩ S = { x } . (x-K)\cap S=\{x\}. (xK)S={x}.其中, x − K x-K xK表示所有能与x进行比较且小于或等于x的点。
下图是最小元与极小元的图形化示例。
在这里插入图片描述

2.5 Separating and supporting hyperplanes(分离与支撑超平面)

2.5.1 Separating hyperplane theorem(分离超平面定理)

分离超平面定理(Separating hyperplane theorem)
假设C和D是两个非空不相交的凸集,即 C ∩ D = ∅ . C\cap D=\empty. CD=∅.那么存在 a ≠ 0   &   b , a\neq 0\thinspace \& \thinspace b, a=0&b,使得对任意 x ∈ C , a T x ≤ b x\in C,a^Tx\leq b xC,aTxb,任意 x ∈ D , a T x ≥ b x\in D,a^Tx\geq b xD,aTxb(换句话说,就是仿射函数 a T x − b a^Tx-b aTxb使得集合C的元素映射后非正,集合D的元素映射后非负)。那么超平面 { x ∣ a T x = b } \{x|a^Tx=b\} {xaTx=b}就被称为分离超平面,或者说分离了C和D。下图是分离超平面分离C和D的示意:
在这里插入图片描述


严格分离(Strict separation)
顾名思义,当超平面分离两个不相交非空凸集时等号取不到就是严格分离。

分离超平面逆定理(Converse separating hyperplane theorems)
请问如果存在一个超平面 { x ∣ a T x = b } \{x|a^Tx=b\} {xaTx=b}使得对任意 x ∈ C , a T x ≤ b x\in C,a^Tx\leq b xC,aTxb,对任意 x ∈ D , a T x ≥ b x\in D,a^Tx\geq b xD,aTxb,那么能证明集合C和D不相交吗?很遗憾,答案是不能。反例: C = D = { 0 } ⊆ R C=D=\{0\}\subseteq\mathbb{R} C=D={0}R,超平面 x = 0 x=0 x=0.
也就是说,想要分离超平面逆定理成立,在要求C和D的凸性之外,还应该添加其他的一些要求。这个要求就是:C和D中至少有一个是开集。即:任意两个凸集C和D,其中至少一个是开集,它们不相交当且仅当存在一个分离超平面。

这个逆定理的证明当时没有看懂,所以原文贴在下面。
在这里插入图片描述

2.5.2 Supporting hyperplanes(支撑超平面)

支撑超平面(Supporting hyperplanes)
假设 C ⊆ R n C\subseteq\mathbb{R}^n CRn,且 x 0 x_0 x0在集合C的边界上,即: x 0 ∈ b d C = c l C ∖ i n t C . x_0\in\mathbf{bd} C=\mathbf{cl} C\setminus \mathbf{int} C. x0bdC=clCintC. a ≠ 0 a\neq 0 a=0满足对任意 x ∈ C , a T x ≤ a T x 0 x\in C,a^Tx\leq a^Tx_0 xC,aTxaTx0,那么超平面 { x ∣ a T x = a T x 0 } \{x|a^Tx=a^Tx_0\} {xaTx=aTx0}被称为集合C在点 x 0 x_0 x0处的支撑超平面,或者说点 x 0 x_0 x0和集合C被超平面 { x ∣ a T x = a T x 0 } \{x|a^Tx=a^Tx_0\} {xaTx=aTx0}分离。在几何直观上,超平面 { x ∣ a T x = a T x 0 } \{x|a^Tx=a^Tx_0\} {xaTx=aTx0}就是集合C在点 x 0 x_0 x0处的切线,如下图所示。
在这里插入图片描述


分离超平面定理
分离超平面定理:对于任意非空凸集C,及其边界上的任意一点 x 0 x_0 x0,都存在一个集合C在点 x 0 x_0 x0处的支撑超平面。

其存在一个部分形式的逆定理:若一个集合是闭集,其内部非空,在边界上任意一点都有一个支撑超平面,那么这个集合是凸集。

2.6 Dual cones and generalized inequalities(对偶锥与广义不等式)

2.6.1 Dual cones(对偶锥)

对偶锥(Dual cone)
K是锥(锥的定义见2.1.5),集合 K ∗ K^* K被称为对偶锥(dual cone): K ∗ = { y ∣ x T y ≥ 0 , for all   x ∈ K } . K^{*}=\{y|x^Ty\geq 0,\text{for all}\thinspace x\in K\}. K={yxTy0,for allxK}.几何意义上, y ∈ K ∗ y\in K^{*} yK当且仅当 − y -y y是在原点支撑集合K的超平面的法线。这里我个人的理解是,在原点处支撑集合K的超平面一定不能经过集合K的内部,否则就不满足支撑超平面的定义,那么极限情况就是超平面经过集合K的边界(在 R 2 \mathbb{R}^2 R2空间中,从原点引出且经过K边界的超平面应该有两个), K ∗ K^{*} K就是这两个超平面的法线围成的区域。下图中,一张来自原书插图,一张来自网络文章插图,以期帮助读者理解对偶锥。
在这里插入图片描述
在这里插入图片描述


对偶锥有几个性质:
∙   K ∗ \bullet\thinspace K^{*} K是闭集且是凸集.
∙   K 1 ⊆ K 2 \bullet\thinspace K_1\subseteq K_2 K1K2能推出 K 1 ∗ ⊆ K 2 ∗ K^{*}_1\subseteq K^{*}_2 K1K2.
∙ \bullet K K K有非空内部,那么 K ∗ K^{*} K就是尖(pointed)的.
∙ \bullet 若集合 K K K的闭包是尖的,那么 K ∗ K^{*} K有非空内部.
∙   K ∗ ∗ \bullet\thinspace K^{**} K∗∗是K的凸包的闭集(我没看懂T_T)(因此,若集合 K K K是凸集且是闭集,那么 K ∗ ∗ = K K^{**}=K K∗∗=K).

2.6.2 Dual generalized inequalities(对偶广义不等式)

假设凸锥 K K K是正常锥,由它引申出广义不等式 ⪯ K \preceq_K K K K K的对偶锥 K ∗ K^{*} K也是正常锥,因此也能引申出广义不等式 ⪯ K ∗ \preceq_{K^{*}} K,它被称为广义不等式 ⪯ K \preceq_K K对偶

性质:
∙   x ⪯ K y \bullet\thinspace x\preceq_K y xKy当且仅当对所有 λ ⪰ K ∗ 0 , 有 λ T x ≤ λ T y \lambda\succeq_{K^{*}}0,有\lambda^{T}x\leq\lambda^{T}y λK0,λTxλTy
∙   x ≺ K y \bullet\thinspace x\prec_K y xKy当且仅当对所有 λ ⪰ K ∗ 0 , λ ≠ 0 , 有 λ T x ≤ λ T y \lambda\succeq_{K^{*}}0,\lambda\neq 0,有\lambda^{T}x\leq\lambda^{T}y λK0,λ=0,λTxλTy

2.6.3 Minimum and minimal elements via dual inequalities(对偶不等式下的最小元与极小元)

最小元的对偶特征(Dual characterization of minimum element)
x ∈ S x\in S xS ⪯ K \preceq_K K定义下的最小元当且仅当所有 λ ≻ K ∗ 0 \lambda\succ_{K^{*}}0 λK0时, x x x ∀ z ∈ S \forall z\in S zS中最小化 λ T z \lambda^Tz λTz的唯一解。几何上来说,这意味着对于所有 λ ≻ K ∗ 0 \lambda\succ_{K^{*}}0 λK0,超平面 { z ∣ λ T ( z − x ) = 0 } \{z|\lambda^T(z-x)=0\} {zλT(zx)=0}在点x处是严格支撑超平面(严格支撑超平面是指,该平面与几何S唯一的交集是点x)。下图是示例:
在这里插入图片描述


极小元的对偶特征(Dual characterization of minimal element)
广义不等式 ⪯ K \preceq_K K下的极小元满足:对于某个 λ ≻ K ∗ 0 \lambda\succ_{K^{*}}0 λK0,x是 ∀ z ∈ S \forall z\in S zS中最小化 λ T z \lambda^Tz λTz的唯一解。下图是示例:
在这里插入图片描述

2.7 写在最后

这一节不是书中的内容。第一次看磕磕绊绊,希望有时间能重新看几次,因为特别是从对偶锥开始对我来说就比较难理解了。前面的概念还是很重要的。如有错漏,欢迎批评指正。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值