Title: 奇异值分解之 Weyl 不等式及其变体
文章目录
引言
Weyl 不等式常用于扰动分析, 本博文整理 Weyl 不等式 (Weyl inequality, 或 Weyl 定理, Weyl theorem) 是为了 Frobenius-范数下奇异值低秩近似的证明.
主要涉及 Weyl 不等式两种变体形式:
- 特征值形式
- 奇异值形式
在正式开始 Weyl 不等式的了解前, 我们先看一下子空间相交定理, 作为 Weyl 不等式证明时所用之基础.
相关博文介绍
- 奇异值分解之 Courant-Fischer 定理及其变体
- 奇异值分解之 Weyl 不等式及其变体
I. 子空间相交 Subspace Intersection
1. 子空间相交引理
[Subspace intersection lemma][1] Let V \mathit{V} V be a finite-dimensional vector space and let S 1 \mathit{S}_1 S1 and S 2 \mathit{S}_2 S2 be two given subspaces of V \mathit{V} V . Then
dim ( S 1 ∩ S 2 ) + dim ( S 1 + S 2 ) = dim ( S 1 ) + dim ( S 2 ) (I-1) \dim (\mathit{S}_1 \cap \mathit{S}_2) + \dim (\mathit{S}_1 + \mathit{S}_2) = \dim(\mathit{S}_1)+ \dim(\mathit{S}_2) \tag{I-1} dim(S1∩S2)+dim(S1+S2)=dim(S1)+dim(S2)(I-1)
Rewriting this identity as,
dim ( S 1 ∩ S 2 ) = dim S 1 + dim S 2 − dim ( S 1 + S 2 ) ≥ dim S 1 + dim S 2 − dim V (I-2) \begin{aligned} \dim (\mathit{S}_1 \cap \mathit{S}_2) &= \dim\mathit{S}_1+ \dim\mathit{S}_2 - \dim (\mathit{S}_1 + \mathit{S}_2)\\ &\geq \dim\mathit{S}_1+ \dim\mathit{S}_2 - \dim \mathit{V} \end{aligned} \tag{I-2} dim(S1∩S2)=dimS1+dimS2−dim(S1+S2)≥dimS1+dimS2−dimV(I-2)
That is to say, that if $\delta = \dim \mathit{S}_1 + \dim \mathit{S}_2 -\dim \mathit{V} \geq 1 $, then the subspace S 1 ∩ S 2 \mathit{S}_1 \cap \mathit{S}_2 S1∩S2 has dimension at least δ \delta δ.If S 1 , S 2 , … , S k \mathit{S}_1, \mathit{S}_2,\ldots ,\mathit{S}_k S1,S2,…,Sk are subspaces of V \mathit{V} V, an induction argument is
dim ( S 1 ∩ S 2 ∩ … ∩ S k ) ≥ dim S 1 + dim S 2 + ⋯ + dim S k − ( k − 1 ) dim V (I-3) \dim (\mathit{S}_1 \cap \mathit{S}_2 \cap\ldots \cap \mathit{S}_k) \geq \dim\mathit{S}_1+ \dim\mathit{S}_2 +\cdots + \dim\mathit{S}_k - (k-1) \dim \mathit{V} \tag{I-3} dim(S1∩S2∩…∩Sk)≥dimS1+dimS2+⋯+dimSk−(k−1)dimV(I-3)
This shows that if δ = dim S 1 + dim S 2 + ⋯ + dim S k − ( k − 1 ) dim V ≥ 1 \delta = \dim \mathit{S}_1 + \dim \mathit{S}_2 + \dots + \dim \mathit{S}_k- (k-1)\dim \mathit{V} \geq 1 δ=dimS1+dimS2+⋯+dimSk−(k−1)dimV≥1, then dim ( S 1 ∩ S 2 ∩ … ∩ S k ) ≥ δ \dim(\mathit{S}_1 \cap \mathit{S}_2 \cap\ldots \cap \mathit{S}_k)\geq \delta dim(S1∩S2∩…∩Sk)≥δ. ( k ≥ 2 k \geq 2 k≥2)
Proof
式 (I-1) 和式 (I-2), 显然成立.
利用归纳法证明式 (I-3). 假设
k
−
1
k-1
k−1 情况下成立, 即
dim
(
S
1
∩
S
2
∩
…
∩
S
k
−
1
)
≥
dim
S
1
+
dim
S
2
+
⋯
+
dim
S
k
−
1
−
(
k
−
2
)
dim
V
(I-4)
\dim (\mathit{S}_1 \cap \mathit{S}_2 \cap\ldots \cap \mathit{S}_{k-1}) \geq \dim\mathit{S}_1+ \dim\mathit{S}_2 +\cdots + \dim\mathit{S}_{k-1} - (k-2) \dim \mathit{V} \tag{I-4}
dim(S1∩S2∩…∩Sk−1)≥dimS1+dimS2+⋯+dimSk−1−(k−2)dimV(I-4)
那么
k
k
k 情况下, 由式 (I-2) 和式 (I-4) 可知
dim
(
S
1
∩
…
∩
S
k
−
1
∩
S
k
)
=
dim
(
(
S
1
∩
…
∩
S
k
−
1
)
∩
S
k
)
(I-2)
≥
dim
(
S
1
∩
…
∩
S
k
−
1
)
+
dim
(
S
k
)
−
dim
V
(I-4)
=
dim
S
1
+
⋯
+
dim
S
k
−
1
+
dim
S
k
−
(
k
−
1
)
dim
V
\begin{aligned} \dim (\mathit{S}_1 \cap\ldots \cap \mathit{S}_{k-1} \cap \mathit{S}_{k}) & = \dim \left((\mathit{S}_1 \cap\ldots \cap \mathit{S}_{k-1}) \cap \mathit{S}_{k}\right)\\ {\small\text{(I-2)}} \quad &\geq \dim (\mathit{S}_1 \cap\ldots \cap \mathit{S}_{k-1} ) + \dim(\mathit{S}_{k}) - \dim \mathit{V}\\ {\small\text{(I-4)}} \quad & = \dim\mathit{S}_1 +\cdots + \dim\mathit{S}_{k-1} + \dim\mathit{S}_{k} - (k-1) \dim \mathit{V} \end{aligned}
dim(S1∩…∩Sk−1∩Sk)(I-2)(I-4)=dim((S1∩…∩Sk−1)∩Sk)≥dim(S1∩…∩Sk−1)+dim(Sk)−dimV=dimS1+⋯+dimSk−1+dimSk−(k−1)dimV
证毕.
2. 子空间相交定理
[Subspace intersection][1] Let S 1 , … , S k \mathit{S}_1, \ldots, \mathit{S}_k S1,…,Sk be given subspaces of R n \mathbb{R}^n Rn. If δ = dim ( S 1 ) + ⋯ + dim S k − ( k − 1 ) n ≥ 1 \delta = \dim(S_1) + \dots + \dim S_k − (k − 1)n \geq 1 δ=dim(S1)+⋯+dimSk−(k−1)n≥1, there are orthonormal vectors x 1 , … , x δ x_1, \ldots , x_{\delta} x1,…,xδ such that x 1 , … , x δ ∈ S i x_1 , \ldots , x_\delta \in \mathit{S}_i x1,…,xδ∈Si for every i = 1 , … , k i = 1, \ldots , k i=1,…,k. In particular, S 1 ∩ … ∩ S k S_1 ∩ \ldots ∩ S_k S1∩…∩Sk contains a unit vector.
Proof
首先, 集合 S 1 ∩ … ∩ S k S_1 ∩ \ldots ∩ S_k S1∩…∩Sk 是子空间.
应用子空间相交引理可知, dim ( S 1 ∩ … ∩ S k ) ≥ δ ≥ 1 \dim(\mathit{S}_1 \cap \ldots \cap \mathit{S}_k) \geq \delta \geq 1 dim(S1∩…∩Sk)≥δ≥1. 令 x 1 , … , x δ x_1 , \ldots , x_\delta x1,…,xδ 是子空间 S 1 ∩ … ∩ S k S_1 ∩ \ldots ∩ S_k S1∩…∩Sk 的任意的包含 δ \delta δ 个元素的正交基.
证毕.
II. 特征值形式的 Weyl 不等式 Weyl’s Inequality for Eigenvalues
[Weyl’s inequality][2] Let M = N + R \mathbf{M}= \mathbf{N}+\mathbf{R} M=N+R, N \mathbf{N} N, and R \mathbf{R} R be n × n n\times n n×n symmetric matrices, with their respective eigenvalues ordered as λ 1 ( M ) ≥ … ≥ λ n ( M ) \lambda_{1}(\mathbf{M})\geq \ldots\geq \lambda_{n}(\mathbf{M}) λ1(M)≥…≥λn(M), λ 1 ( N ) ≥ … ≥ λ n ( N ) \lambda_{1}(\mathbf{N})\geq \ldots\geq \lambda_{n}(\mathbf{N}) λ1(N)≥…≥λn(N), and λ 1 ( R ) ≥ … ≥ λ n ( R ) \lambda_{1}(\mathbf{R})\geq \ldots\geq \lambda_{n}(\mathbf{R}) λ1(R)≥…≥λn(R).
Then the following inequalities hold:
λ i ( N ) + λ n ( R ) ≤ λ i ( M ) ≤ λ i ( N ) + λ 1 ( R ) (II-0-1) \lambda_i(\mathbf{N})+\lambda_n(\mathbf{R}) \leq \lambda_{i}(\mathbf{M}) \leq \lambda_i(\mathbf{N})+\lambda_1(\mathbf{R}) \tag{II-0-1} λi(N)+λn(R)≤λi(M)≤λi(N)+λ1(R)(II-0-1)
for i = 1 , … , n i=1,\ldots,n i=1,…,n.More generally,
λ j ( N ) + λ k ( R ) ≤ λ i ( M ) ≤ λ r ( N ) + λ s ( R ) (II-0-2) \lambda_j(\mathbf{N})+\lambda_k(\mathbf{R}) \leq \lambda_{i}(\mathbf{M}) \leq \lambda_r(\mathbf{N})+\lambda_s(\mathbf{R}) \tag{II-0-2} λj(N)+λk(R)≤λi(M)≤λr(N)+λs(R)(II-0-2)
for j + k − n ≥ i ≥ r + s − 1 j+k-n \geq i \geq r+s-1 j+k−n≥i≥r+s−1.In particular, if R \mathbf{R} R is positive definite then plugging λ n ( R ) > 0 \lambda_n(\mathbf{R}) > 0 λn(R)>0 into the above inequalities leads to
λ i ( M ) > λ i ( N ) (II-0-3) \lambda_{i}(\mathbf{M}) > \lambda_i(\mathbf{N}) \tag{II-0-3} λi(M)>λi(N)(II-0-3)
for i = 1 , … , n i =1,\dots,n i=1,…,n.
Proof
先证明一般形式 (II-0-2).
1. 一般形式的证明
一般形式 (II-0-2) 中又可分为两个不等式, 即
第一个不等式:
λ
i
(
M
)
≥
λ
j
(
N
)
+
λ
k
(
R
)
,
(
for
j
+
k
−
n
≥
i
≥
1
)
(II-1-1)
\lambda_{i}(\mathbf{M})\geq \lambda_j(\mathbf{N})+\lambda_k(\mathbf{R}) , \quad (\text{for}\;j+k-n \geq i \geq 1) \tag{II-1-1}
λi(M)≥λj(N)+λk(R),(forj+k−n≥i≥1)(II-1-1)
第二个不等式:
λ
i
(
M
)
≤
λ
r
(
N
)
+
λ
s
(
R
)
,
(
for
n
≥
i
≥
r
+
s
−
1
)
(II-1-2)
\lambda_{i}(\mathbf{M}) \leq \lambda_r(\mathbf{N})+\lambda_s(\mathbf{R}),\quad (\text{for}\;n \geq i \geq r+s-1 ) \tag{II-1-2}
λi(M)≤λr(N)+λs(R),(forn≥i≥r+s−1)(II-1-2)
i = 1 , … , n i=1,\ldots,n i=1,…,n, 显然 n ≥ i ≥ 1 n\geq i\geq 1 n≥i≥1.
A. 第一个不等式的证明
我们考虑利用 Courant-Fischer 定理 来证明, 故先要构建特殊子空间, 再由特殊子空间扩展到一般子空间, 最后完成证明.
因为 M \mathbf{M} M 是对称矩阵, 故都存在着对应于特征值 λ i ( M ) \lambda_i(\mathbf{M}) λi(M) 的正交特征向量 m i \mathbf{m}_i mi ( i = 1 , 2 , … , n i=1,2,\ldots,n i=1,2,…,n). 同理,
因为 N \mathbf{N} N 是对称矩阵, 故都存在着对应于特征值 λ i ( N ) \lambda_i(\mathbf{N}) λi(N) 的正交特征向量 n i \mathbf{n}_i ni ( i = 1 , 2 , … , n i=1,2,\ldots,n i=1,2,…,n).
因为 R \mathbf{R} R 是对称矩阵, 故都存在着对应于特征值 λ i ( R ) \lambda_i(\mathbf{R}) λi(R) 的正交特征向量 r i \mathbf{r}_i ri ( i = 1 , 2 , … , n i=1,2,\ldots,n i=1,2,…,n).
在线性空间
R
n
\mathbb{R}^n
Rn 内, 定义 2 个特殊的子空间
S
n
≜
s
p
a
n
{
n
1
,
n
2
,
…
,
n
j
}
,
dim
S
n
=
j
(II-1-A-1)
\mathit{S}_n \triangleq {\rm span}\{\mathbf{n}_1, \mathbf{n}_2, \ldots, \mathbf{n}_j \}, \quad \dim{\mathit{S}_n}=j \tag{II-1-A-1}
Sn≜span{n1,n2,…,nj},dimSn=j(II-1-A-1)
S r ≜ s p a n { r 1 , r 2 , … , r k } , dim S r = k (II-1-A-2) \mathit{S}_r \triangleq {\rm span}\{\mathbf{r}_1, \mathbf{r}_2, \ldots, \mathbf{r}_k\}, \quad \dim{\mathit{S}_r}=k \tag{II-1-A-2} Sr≜span{r1,r2,…,rk},dimSr=k(II-1-A-2)
根据子空间相交引理, 定义交集构成的子空间的维度
v
≜
dim
(
S
n
∩
S
r
)
=
dim
S
n
+
dim
S
r
−
dim
(
S
n
+
S
r
)
(II-1-A-3)
v \triangleq \dim(\mathit{S}_n\cap \mathit{S}_r) = \dim\mathit{S}_n + \dim\mathit{S}_r - \dim(\mathit{S}_n+\mathit{S}_r) \tag{II-1-A-3}
v≜dim(Sn∩Sr)=dimSn+dimSr−dim(Sn+Sr)(II-1-A-3)
因为
dim
(
S
n
+
S
r
)
≤
n
\dim(\mathit{S}_n+\mathit{S}_r) \leq n
dim(Sn+Sr)≤n, 故有
v
≥
j
+
k
−
n
≥
i
≥
1
(II-1-A-4)
v \geq j+k-n \geq i \geq 1 \tag{II-1-A-4}
v≥j+k−n≥i≥1(II-1-A-4)
所以集合
S
n
∩
S
r
\mathit{S}_n\cap \mathit{S}_r
Sn∩Sr 构成维度不小于 1 的子空间, 也就说
∃
x
∈
S
n
∩
S
r
\exist x \in \mathit{S}_n\cap \mathit{S}_r
∃x∈Sn∩Sr .
由特征值的降序排列可知
λ
v
(
M
)
≤
λ
j
+
k
−
n
(
M
)
≤
λ
i
(
M
)
(II-1-A-5)
\lambda_{v}(\mathbf{M}) \leq \lambda_{j+k-n}(\mathbf{M}) \leq \lambda_{i}(\mathbf{M}) \tag{II-1-A-5}
λv(M)≤λj+k−n(M)≤λi(M)(II-1-A-5)
由 Courant-Fischer 定理中式 (II-2) 可知
λ
v
(
M
)
=
max
S
⊆
R
n
d
i
m
(
S
)
=
v
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
≥
min
x
∈
S
n
∩
S
r
x
≠
0
x
T
M
x
x
T
x
≥
min
x
∈
S
n
∩
S
r
x
≠
0
x
T
N
x
x
T
x
+
min
x
∈
S
n
∩
S
r
x
≠
0
x
T
R
x
x
T
x
≥
min
x
∈
S
n
x
≠
0
x
T
N
x
x
T
x
+
min
x
∈
S
r
x
≠
0
x
T
R
x
x
T
x
≥
λ
j
(
N
)
+
λ
k
(
R
)
(II-1-A-6)
\begin{aligned} \lambda_{v}(\mathbf{M}) & = \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = v \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ & \geq \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\cap \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ & \geq \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\cap \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{N} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} + \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\cap \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{R} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ & \geq \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{N} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} + \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{R} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ &\geq \lambda_j(\mathbf{N}) + \lambda_k(\mathbf{R}) \end{aligned}\tag{II-1-A-6}
λv(M)=S⊆Rndim(S)=vmaxx∈Sx=0minxTxxTMx≥x∈Sn∩Srx=0minxTxxTMx≥x∈Sn∩Srx=0minxTxxTNx+x∈Sn∩Srx=0minxTxxTRx≥x∈Snx=0minxTxxTNx+x∈Srx=0minxTxxTRx≥λj(N)+λk(R)(II-1-A-6)
对上式推导过程解释如下:
- 式 (II-1-A-6) 中第一行和第二行组成的不等式是通过缩小极小值的搜索空间. 初始时是从所有的维度为 v v v 的子空间中搜索极小值, 并从这些极小值中找到最大的那个值; 缩小搜索空间后, 只在 S n ∩ S r \mathit{S}_n\cap \mathit{S}_r Sn∩Sr 这一特殊 v v v 维度子空间中寻找极小值. 自然从更广搜索域中找到的极小值中的极大值比局部搜索域中找的极小值更大.
- 式 (II-1-A-6) 中第二行和第三行组成的不等式, 是因为放松了 M = N + R \mathbf{M}=\mathbf{N}+\mathbf{R} M=N+R 之间的关联, 使得两部分自由取各自的极小值, 这样能够取得更小的结果, 故等式成立. 再详细一点是在 min x ∈ S n ∩ S r x ≠ 0 x T M x x T x \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\cap \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} minx∈Sn∩Srx=0xTxxTMx 中取到的极小值也可以应用到 min x ∈ S n ∩ S r x ≠ 0 x T N x x T x + min x ∈ S n ∩ S r x ≠ 0 x T R x x T x \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\cap \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{N} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} + \min_{\begin{array}{c}\mathbf{x} \in \mathit{S_n}\cap \mathit{S_r}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{R} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} minx∈Sn∩Srx=0xTxxTNx+minx∈Sn∩Srx=0xTxxTRx 且结果是一样的; 而反之则不行, 因为后者是两部分分开取不同的值.
- 式 (II-1-A-6) 中第三行和第四行组成的不等式, 是因为扩大极小值的搜索范围后获得极小值更小.
- 式 (II-1-A-6) 中第四行和第五行组成的不等式参考 Courant-Fischer 定理中式 (II-1-A-3), 本质是瑞利定理 (Rayleigh theorem).
联立式 (II-1-A-5) 与式 (II-1-A-6) 可知
λ
i
(
M
)
≥
λ
j
(
N
)
+
λ
k
(
R
)
,
(
for
j
+
k
−
n
≥
i
≥
1
)
(II-1-A-7)
\lambda_{i}(\mathbf{M}) \geq \lambda_j(\mathbf{N}) + \lambda_k(\mathbf{R}) , \quad (\text{for}\;j+k-n \geq i \geq 1) \tag{II-1-A-7}
λi(M)≥λj(N)+λk(R),(forj+k−n≥i≥1)(II-1-A-7)
第一个不等式的证明完毕.
B. 第二个不等式的证明
构建子空间
S
n
′
≜
s
p
a
n
{
n
r
,
…
,
n
n
}
,
dim
S
n
′
=
n
−
r
+
1
(II-1-B-1)
\mathit{S}^{'}_n \triangleq {\rm span}\{\mathbf{n}_r, \ldots, \mathbf{n}_n \}, \quad \dim{\mathit{S}^{'}_n}=n-r+1 \tag{II-1-B-1}
Sn′≜span{nr,…,nn},dimSn′=n−r+1(II-1-B-1)
S r ′ ≜ s p a n { r s , … , r n } , dim S r ′ = n − s + 1 (II-1-B-2) \mathit{S}^{'}_r \triangleq {\rm span}\{\mathbf{r}_s, \ldots, \mathbf{r}_n\}, \quad \dim{\mathit{S}^{'}_r}=n-s+1 \tag{II-1-B-2} Sr′≜span{rs,…,rn},dimSr′=n−s+1(II-1-B-2)
利用子空间相交引理, 定义交集构成的子空间的维度
v
′
≜
dim
(
S
n
′
∩
S
r
′
)
=
dim
(
S
n
′
)
+
dim
(
S
r
′
)
−
dim
(
S
n
′
+
S
r
′
)
≥
(
n
−
r
+
1
)
+
(
n
−
s
+
1
)
−
n
=
n
−
(
r
+
s
−
1
)
+
1
≥
1
(II-1-B-3)
\begin{aligned} v^{'} &\triangleq \dim(\mathit{S}_n^{'}\cap \mathit{S}_r^{'}) \\ &= \dim(\mathit{S}_n^{'}) + \dim(\mathit{S}_r^{'}) - \dim(\mathit{S}_n^{'}+\mathit{S}_r^{'}) \\ &\geq (n-r+1) +(n-s+1)-n \\ &= n-(r+s-1)+1 \\ &\geq 1 \end{aligned} \tag{II-1-B-3}
v′≜dim(Sn′∩Sr′)=dim(Sn′)+dim(Sr′)−dim(Sn′+Sr′)≥(n−r+1)+(n−s+1)−n=n−(r+s−1)+1≥1(II-1-B-3)
根据条件式
n
≥
i
≥
r
+
s
−
1
n \geq i \geq r+s-1
n≥i≥r+s−1, 上式最后一步中的不等式成立.
因为 v ′ ≥ 1 v^{'} \geq 1 v′≥1, 所以 ∃ y ∈ S n ′ ∩ S r ′ \exist y \in \mathit{S}_n^{'}\cap \mathit{S}_r^{'} ∃y∈Sn′∩Sr′.
对式 (II-1-B-3) 移项, 得到
i
≥
r
+
s
−
1
≥
n
−
v
′
+
1
(II-1-B-4)
i\geq r+s-1 \geq n-v^{'} + 1 \tag{II-1-B-4}
i≥r+s−1≥n−v′+1(II-1-B-4)
因为特征值降序排列, 可知
λ
i
(
M
)
≤
λ
r
+
s
−
1
(
M
)
≤
λ
n
−
v
′
+
1
(
M
)
(II-1-B-5)
\lambda_{i} (\mathbf{M}) \leq \lambda_{r+s-1} (\mathbf{M}) \leq \lambda_{n-v^{'} + 1} (\mathbf{M}) \tag{II-1-B-5}
λi(M)≤λr+s−1(M)≤λn−v′+1(M)(II-1-B-5)
由 Courant-Fischer 定理中式 (II-3) 可知
λ
n
−
v
′
+
1
(
M
)
=
min
T
⊆
R
n
d
i
m
(
T
)
=
n
−
(
n
−
v
′
+
1
)
+
1
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
=
min
T
⊆
R
n
d
i
m
(
T
)
=
v
′
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
≤
max
x
∈
S
n
′
∩
S
r
′
x
≠
0
x
T
M
x
x
T
x
≤
max
x
∈
S
n
′
∩
S
r
′
x
≠
0
x
T
N
x
x
T
x
+
max
x
∈
S
n
′
∩
S
r
′
x
≠
0
x
T
R
x
x
T
x
≤
max
x
∈
S
n
′
x
≠
0
x
T
N
x
x
T
x
+
max
x
∈
S
r
′
x
≠
0
x
T
R
x
x
T
x
≤
λ
r
(
N
)
+
λ
s
(
R
)
(II-1-B-6)
\begin{aligned} \lambda_{n-v^{'}+1} (\mathbf{M}) & = \min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = n-(n-v^{'}+1)+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ & = \min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = v^{'} \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ & \leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_n^{'}\cap \mathit{S}_r^{'} \\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ &\leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_n^{'}\cap \mathit{S}_r^{'} \\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{N} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} + \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_n^{'}\cap \mathit{S}_r^{'} \\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{R} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ &\leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_n^{'} \\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{N} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} + \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_r^{'} \\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{R} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}\\ & \leq \lambda_r(\mathbf{N}) + \lambda_s(\mathbf{R}) \end{aligned} \tag{II-1-B-6}
λn−v′+1(M)=T⊆Rndim(T)=n−(n−v′+1)+1minx∈Tx=0maxxTxxTMx=T⊆Rndim(T)=v′minx∈Tx=0maxxTxxTMx≤x∈Sn′∩Sr′x=0maxxTxxTMx≤x∈Sn′∩Sr′x=0maxxTxxTNx+x∈Sn′∩Sr′x=0maxxTxxTRx≤x∈Sn′x=0maxxTxxTNx+x∈Sr′x=0maxxTxxTRx≤λr(N)+λs(R)(II-1-B-6)
对上式推导过程解释如下:
- 式 (II-1-B-6) 中第二行和第三行组成的不等式, 是因为将 min-max 变为了 max, 同时缩小搜索空间.
- 式 (II-1-B-6) 中第三行和第四行组成的不等式, 是因为释放了两部分的关联 (即放松了约束条件), 故能取得更大的极大值.
- 式 (II-1-B-6) 中第四行和第五行组成的不等式, 是因为扩大了极大值的搜索范围.
- 式 (II-1-B-6) 中第五行和第六行组成的不等式参考 Courant-Fischer 定理中式 (II-1-B-4), 本质是瑞利定理.
联立式 (II-1-B-5) 和式 (II-1-B-6) 可知
λ
i
(
M
)
≤
λ
r
(
N
)
+
λ
s
(
R
)
,
(
n
≥
i
≥
r
+
s
−
1
)
(II-1-B-7)
\lambda_{i} (\mathbf{M}) \leq \lambda_r(\mathbf{N}) + \lambda_s(\mathbf{R}), \qquad (n \geq i \geq r+s-1) \tag{II-1-B-7}
λi(M)≤λr(N)+λs(R),(n≥i≥r+s−1)(II-1-B-7)
第二个不等式的证明完毕.
2. 特殊形式的证明
下面证明特殊形式 (II-0-1). 已证明了一般形式
λ
j
(
N
)
+
λ
k
(
R
)
≤
λ
i
(
M
)
≤
λ
r
(
N
)
+
λ
s
(
R
)
(
for
j
+
k
−
n
≥
i
≥
r
+
s
−
1
)
(II-2-1)
\lambda_j(\mathbf{N})+\lambda_k(\mathbf{R}) \leq \lambda_{i}(\mathbf{M}) \leq \lambda_r(\mathbf{N})+\lambda_s(\mathbf{R}) \quad (\text{for}\;\;j+k-n \geq i \geq r+s-1) \tag{II-2-1}
λj(N)+λk(R)≤λi(M)≤λr(N)+λs(R)(forj+k−n≥i≥r+s−1)(II-2-1)
取
j
=
i
,
k
=
n
,
r
=
i
,
s
=
1
j=i, k=n, r=i, s=1
j=i,k=n,r=i,s=1, 代入不等式可得
λ
i
(
N
)
+
λ
n
(
R
)
≤
λ
i
(
M
)
≤
λ
i
(
N
)
+
λ
1
(
R
)
(II-2-2)
\lambda_i(\mathbf{N})+\lambda_n(\mathbf{R}) \leq \lambda_{i}(\mathbf{M}) \leq \lambda_i(\mathbf{N})+\lambda_1(\mathbf{R}) \tag{II-2-2}
λi(N)+λn(R)≤λi(M)≤λi(N)+λ1(R)(II-2-2)
代入条件式后, 条件式也成立, 即
j
+
k
−
n
≥
i
≥
r
+
s
−
1
⇒
i
+
n
−
n
≥
i
≥
i
+
1
−
1
⇒
i
≥
i
≥
i
(II-2-3)
\begin{aligned} & j+k-n \geq i \geq r+s-1\\ \Rightarrow \quad& i+n-n \geq i \geq i+1-1\\ \Rightarrow \quad& i\geq i\geq i \end{aligned} \tag{II-2-3}
⇒⇒j+k−n≥i≥r+s−1i+n−n≥i≥i+1−1i≥i≥i(II-2-3)
特殊形式 (II-0-1) 证明完毕.
3. 正定扰动的证明
下面证明正定扰动式 (II-0-3). 已证明了特殊形式 (II-0-1), 即
λ
i
(
N
)
+
λ
n
(
R
)
≤
λ
i
(
M
)
(II-3-1)
\lambda_i(\mathbf{N})+\lambda_n(\mathbf{R}) \leq \lambda_{i}(\mathbf{M}) \tag{II-3-1}
λi(N)+λn(R)≤λi(M)(II-3-1)
已知条件
λ
n
(
R
)
>
0
\lambda_n(\mathbf{R}) > 0
λn(R)>0. 故有
λ
i
(
N
)
<
λ
i
(
N
)
+
λ
n
(
R
)
≤
λ
i
(
M
)
(II-3-2)
\lambda_i(\mathbf{N}) < \lambda_i(\mathbf{N})+\lambda_n(\mathbf{R}) \leq \lambda_{i}(\mathbf{M}) \tag{II-3-2}
λi(N)<λi(N)+λn(R)≤λi(M)(II-3-2)
正定扰动式 (II-0-3) 得证.
这样 Weyl 不等式 (针对特征值) 全部证明完毕.
III. 奇异值形式的 Weyl 不等式 Weyl’s Inequality for Singular Values
[Weyl’s inequality][3] Let A , B ∈ M m , n \mathbf{A}, \mathbf{B}\in \mathbf{M}_{m, n} A,B∈Mm,n be given and let q = min { m , n } q = \min\{m,n\} q=min{m,n}. The following inequality holds for the decreasingly ordered singular values of A \mathbf{A} A, B \mathbf{B} B, and A + B \mathbf{A}+ \mathbf{B} A+B:
σ i + j − 1 ( A + B ) ≤ σ i ( A ) + σ j ( B ) (III-1) \sigma_{i+j-1} (\mathbf{A} + \mathbf{B}) \leq \sigma_i(\mathbf{A})+ \sigma_j(\mathbf{B}) \tag{III-1} σi+j−1(A+B)≤σi(A)+σj(B)(III-1)
for 1 ≤ i , j ≤ q 1 \leq i,j \leq q 1≤i,j≤q and i + j ≤ q + 1 i+j \leq q+1 i+j≤q+1.
Proof[3]
证明同 “B. 第二个不等式的证明” 类似.
假设
A
\mathbf{A}
A 和
B
\mathbf{B}
B 的奇异值分解为
A
=
V
Σ
A
W
T
(III-2)
\mathbf{A} = \mathbf{V}\boldsymbol{\Sigma}_{A} \mathbf{W}^{\small\rm T}\tag{III-2}
A=VΣAWT(III-2)
其中
n
×
n
n \times n
n×n 正交矩阵
W
=
[
w
1
,
…
,
w
n
]
\mathbf{W} = \begin{bmatrix} \mathbf{w}_1, \ldots, \mathbf{w}_n \end{bmatrix}
W=[w1,…,wn].
B
=
X
Σ
B
Y
T
(III-3)
\mathbf{B} = \mathbf{X}\boldsymbol{\Sigma}_{B} \mathbf{Y}^{\small\rm T}\tag{III-3}
B=XΣBYT(III-3)
其中
n
×
n
n \times n
n×n 正交矩阵
Y
=
[
y
1
,
…
,
y
n
]
\mathbf{Y} = \begin{bmatrix} \mathbf{y}_1, \ldots, \mathbf{y}_n \end{bmatrix}
Y=[y1,…,yn].
定义子空间
S
w
≜
s
p
a
n
{
w
i
,
…
,
w
n
}
,
dim
S
w
=
n
−
i
+
1
(III-4)
\mathit{S}_w \triangleq {\rm span}\{\mathbf{w}_i, \ldots, \mathbf{w}_n\}, \;\;\;\dim\mathit{S}_w = n-i+1 \tag{III-4}
Sw≜span{wi,…,wn},dimSw=n−i+1(III-4)
S y ≜ s p a n { y j , … , y n } , dim S y = n − j + 1 (III-5) \mathit{S}_y \triangleq {\rm span}\{\mathbf{y}_j, \ldots, \mathbf{y}_n\}, \;\;\;\dim\mathit{S}_y = n-j+1 \tag{III-5} Sy≜span{yj,…,yn},dimSy=n−j+1(III-5)
定义交集形成的子空间的维度
v
≜
dim
(
S
w
+
S
y
)
=
dim
S
w
+
dim
S
y
−
dim
(
S
w
∩
S
y
)
≥
(
n
−
i
+
1
)
+
(
n
−
j
+
1
)
−
n
=
n
−
(
i
+
j
−
1
)
+
1
≥
n
−
(
q
+
1
−
1
)
+
1
≥
1
(III-6)
\begin{aligned} v &\triangleq \dim (\mathit{S}_w + \mathit{S}_y)\\ &= \dim \mathit{S}_w + \dim \mathit{S}_y - \dim (\mathit{S}_w \cap \mathit{S}_y)\\ & \geq (n-i+1) + (n-j+1) -n\\ &= n-(i+j-1)+1 \\ &\geq n-(q+1-1)+1\\ &\geq 1 \end{aligned}\tag{III-6}
v≜dim(Sw+Sy)=dimSw+dimSy−dim(Sw∩Sy)≥(n−i+1)+(n−j+1)−n=n−(i+j−1)+1≥n−(q+1−1)+1≥1(III-6)
上式利用了子空间相交引理以及条件式
i
+
j
≤
q
+
1
i+j \leq q+1
i+j≤q+1 和
q
=
min
{
m
,
n
}
q = \min\{m,n\}
q=min{m,n}.
因为 v ≥ 1 v \geq 1 v≥1, 所以 ∃ x ∈ S w ∩ S y \exist \mathbf{x} \in \mathit{S}_w \cap \mathit{S}_y ∃x∈Sw∩Sy.
对式 (III-6) 移项得到
i
+
j
−
1
≥
n
−
v
+
1
(III-7)
i+j-1 \geq n-v+1 \tag{III-7}
i+j−1≥n−v+1(III-7)
因为奇异值的降序排列, 可得
σ
i
+
j
−
1
(
A
+
B
)
≤
σ
n
−
v
+
1
(
A
+
B
)
(III-8)
\sigma_{i+j-1} (\mathbf{A}+\mathbf{B}) \leq \sigma_{n-v+1}(\mathbf{A}+\mathbf{B}) \tag{III-8}
σi+j−1(A+B)≤σn−v+1(A+B)(III-8)
根据 Courant-Fischer Theorem for Singular Values, 可知
σ
n
−
v
+
1
(
A
+
B
)
=
min
S
⊆
R
n
d
i
m
(
S
)
=
v
max
x
∈
S
∥
x
∥
2
=
1
∥
(
A
+
B
)
x
∥
2
≤
max
x
∈
S
w
∩
S
y
∥
x
∥
2
=
1
∥
(
A
+
B
)
x
∥
2
≤
max
x
∈
S
w
∩
S
y
∥
x
∥
2
=
1
(
∥
A
x
∥
2
+
∥
B
x
∥
2
)
≤
max
x
∈
S
w
∩
S
y
∥
x
∥
2
=
1
∥
A
x
∥
2
+
max
x
∈
S
w
∩
S
y
∥
x
∥
2
=
1
∥
B
x
∥
2
≤
max
x
∈
S
w
∥
x
∥
2
=
1
∥
A
x
∥
2
+
max
x
∈
S
y
∥
x
∥
2
=
1
∥
B
x
∥
2
=
σ
i
(
A
)
+
σ
j
(
B
)
(III-9)
\begin{aligned} \sigma_{n-v+1}(\mathbf{A}+\mathbf{B}) &= \min_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = v \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \|\mathbf{x}\|_2 = 1 \end{array} } \| (\mathbf{A}+\mathbf{B}) \mathbf{x}\|_2\\ & \leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w\cap \mathit{S}_y \\ \|\mathbf{x}\|_2 = 1 \end{array} } \| (\mathbf{A}+\mathbf{B}) \mathbf{x}\|_2\\ & \leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w\cap \mathit{S}_y \\ \|\mathbf{x}\|_2 = 1 \end{array} } \left(\| \mathbf{A}\mathbf{x}\|_2 + \| \mathbf{B} \mathbf{x}\|_2\right)\\ & \leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w\cap \mathit{S}_y \\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{A}\mathbf{x}\|_2 + \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w\cap \mathit{S}_y \\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{B} \mathbf{x}\|_2\\ & \leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w \\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{A}\mathbf{x}\|_2 + \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_y \\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{B} \mathbf{x}\|_2\\ & = \sigma_i(\mathbf{A}) + \sigma_j(\mathbf{B}) \end{aligned} \tag{III-9}
σn−v+1(A+B)=S⊆Rndim(S)=vminx∈S∥x∥2=1max∥(A+B)x∥2≤x∈Sw∩Sy∥x∥2=1max∥(A+B)x∥2≤x∈Sw∩Sy∥x∥2=1max(∥Ax∥2+∥Bx∥2)≤x∈Sw∩Sy∥x∥2=1max∥Ax∥2+x∈Sw∩Sy∥x∥2=1max∥Bx∥2≤x∈Sw∥x∥2=1max∥Ax∥2+x∈Sy∥x∥2=1max∥Bx∥2=σi(A)+σj(B)(III-9)
对上式推导过程解释如下:
- 式 (III-9) 中第一行和第二行组成的不等式, 是因为将 min-max 变为了 max, 同时缩小搜索空间.
- 式 (III-9) 中第二行和第三行组成的不等式, 是因为 2-范数的三角不等式.
- 式 (III-9) 中第三行和第四行组成的不等式, 是因为释放了两部分的关联 (即放松了约束条件), 故能取得更大的极大值.
- 式 (III-9) 中第四行和第五行组成的不等式, 是因为扩大了极大值的搜索范围.
- 式 (III-9) 中第五行和第六行组成的等式本质是瑞利定理, 简单说明如下:
max
x
∈
S
w
∥
x
∥
2
=
1
∥
A
x
∥
2
2
=
max
x
∈
S
w
∥
x
∥
2
=
1
x
T
A
T
A
x
≤
λ
i
(
A
T
A
)
=
σ
i
(
A
)
2
(III-10)
\max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w \\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{A} \mathbf{x}\|_2^2 = \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}_w \\ \|\mathbf{x}\|_2 = 1 \end{array} } \mathbf{x}^{\small\rm T} \mathbf{A}^{\small\rm T} \mathbf{A} \mathbf{x} \leq \lambda_i(\mathbf{A}^{\small\rm T} \mathbf{A}) = \sigma_i (\mathbf{A})^2 \tag{III-10}
x∈Sw∥x∥2=1max∥Ax∥22=x∈Sw∥x∥2=1maxxTATAx≤λi(ATA)=σi(A)2(III-10)
根据 “奇异值分解之常用结论” 中可知,
W
\mathbf{W}
W 是
A
T
A
\mathbf{A}^{\small\rm T} \mathbf{A}
ATA 的正交特征矩阵. 因为
x
∈
S
w
\mathbf{x} \in \mathit{S}_w
x∈Sw, 当
x
=
w
i
\mathbf{x} = \mathbf{w}_i
x=wi 时, 取得最大值
∥
A
x
∥
2
2
=
σ
i
(
A
)
2
\| \mathbf{A} \mathbf{x}\|_2^2 = \sigma_i (\mathbf{A})^2
∥Ax∥22=σi(A)2.
联立式 (III-8) 和式 (III-9) 得到
σ
i
+
j
−
1
(
A
+
B
)
≤
σ
i
(
A
)
+
σ
j
(
B
)
(III-11)
\sigma_{i+j-1} (\mathbf{A}+\mathbf{B}) \leq \sigma_i(\mathbf{A}) + \sigma_j(\mathbf{B}) \tag{III-11}
σi+j−1(A+B)≤σi(A)+σj(B)(III-11)
这样完成 Weyl’s Inequality for Singular Values 的证明.
总结
本篇博客整理和证明了 Weyl 不等式的两种形式:
- 特征值形式
- 奇异值形式
(如有问题, 请指正!)
参考文献
[1] Roger A. Horn, Charles R. Johnson, Matrix Analysis, Second Edition, Cambridge University Press, 2012
[2] HandWiki, “Weyl’s inequality”, https://handwiki.org/wiki/Weyl%27s_inequality
[3] Horn, R., Johnson, C., Topics in Matrix Analysis, Cambridge University Press, 1991