Title: 奇异值分解之 Courant-Fischer 定理及其变体
文章目录
前言
“奇异值分解之常用结论” 原本只是日常记录, 方便自己查阅.
但在写的过程中留下了一个问题: Frobenious-范数下低秩近似的证明.
为了清晰地掌握/讲解其中的内容, 我们稍微深入地了解一下奇异值相关的内容:
相关博文介绍
- 奇异值分解之 Courant-Fischer 定理及其变体
Courant-Fischer 定理 (Courant-Fischer theorem) 也称为 Courant-Fischer 极小极大定理 (Courant-Fischer min-max theorem).
本篇博客关于 Courant-Fischer 定理的各种变体和证明
- 子空间形式
- 正交补形式
- 奇异值形式
主要参考文献如博客后面所列[1, 2, 3].
I. Rayleigh 商 (Rayleigh Quotient)
定义向量
x
\mathbf{x}
x 相对于矩阵
M
\mathbf{M}
M 的 Rayleigh 商[1]为
x
T
M
x
x
T
x
\frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}}
xTxxTMx
特征向量的 Rayleigh 商是特征值.
[Lemma 1][1] Let M \mathbf{M} M be a n × n n\times n n×n symmetric matrix with eigenvalues λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2,\ldots, \lambda_n λ1,λ2,…,λn and a corresponding orthonormal basis of eigenvectors v 1 , v 2 , … , v n \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n v1,v2,…,vn. Let x \mathbf{x} x be a vector whose expansion in the eigenbasis is
x = ∑ i = 1 n c i v i (I-1) \mathbf{x} = \sum_{i=1}^{n} c_i \mathbf{v}_i \tag{I-1} x=i=1∑ncivi(I-1)
Then,
x T M x = ∑ i = 1 n c i 2 λ i (I-2) \mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x} = \sum_{i=1}^{n} c_i^2 \lambda_i \tag{I-2} xTMx=i=1∑nci2λi(I-2)
Proof
由正交性可知
v
i
T
v
j
=
{
0
,
for
i
≠
j
1
,
for
i
=
j
(I-3)
\mathbf{v}_i^{\small\rm T} \mathbf{v}_j = \left\{ \begin{array}{ll} 0, &{\text{for}}\;i\neq j\\ 1, &{\text{for}}\;i = j \end{array}\right. \tag{I-3}
viTvj={0,1,fori=jfori=j(I-3)
对
x
T
M
x
\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}
xTMx 展开计算
x
T
M
x
=
(
∑
i
=
1
n
c
i
v
i
)
T
M
(
∑
i
=
1
n
c
i
v
i
)
=
(
∑
i
=
1
n
c
i
v
i
)
T
(
∑
i
=
1
n
c
i
M
v
i
)
=
(
∑
i
=
1
n
c
i
v
i
)
T
(
∑
i
=
1
n
c
i
λ
i
v
i
)
=
∑
i
=
1
n
c
i
2
λ
i
(I-4)
\begin{aligned} \mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x} & = \left(\sum_{i=1}^{n} c_i \mathbf{v}_i\right)^{\small\rm T} \mathbf{M} \left(\sum_{i=1}^{n} c_i \mathbf{v}_i\right)\\ &= \left(\sum_{i=1}^{n} c_i \mathbf{v}_i\right)^{\small\rm T} \left(\sum_{i=1}^{n} c_i \mathbf{M} \mathbf{v}_i\right)\\ &= \left(\sum_{i=1}^{n} c_i \mathbf{v}_i\right)^{\small\rm T} \left(\sum_{i=1}^{n} c_i \lambda_i \mathbf{v}_i\right)\\ & = \sum_{i=1}^{n} c_i^2 \lambda_i \end{aligned} \tag{I-4}
xTMx=(i=1∑ncivi)TM(i=1∑ncivi)=(i=1∑ncivi)T(i=1∑nciMvi)=(i=1∑ncivi)T(i=1∑nciλivi)=i=1∑nci2λi(I-4)
得证.
II. Courant-Fischer 定理
[Courant-Fischer Theorem][1] Let M \mathbf{M} M be a n × n n \times n n×n symmetric matrix with eigenvalues λ 1 ≥ λ 2 ≥ … ≥ λ n \lambda_1 \geq \lambda_2 \geq \ldots\geq \lambda_n λ1≥λ2≥…≥λn. Then,
λ k = max S ⊆ R n d i m ( S ) = k min x ∈ S x ≠ 0 x T M x x T x = min T ⊆ R n d i m ( T ) = n − k + 1 max x ∈ T x ≠ 0 x T M x x T x (II-1) \begin{aligned} \lambda_k & = \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \\ &= \min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = n-k+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \end{aligned}\tag{II-1} λk=S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTMx=T⊆Rndim(T)=n−k+1minx∈Tx=0maxxTxxTMx(II-1)
where the maximization and minimization are over subspaces S \mathit{S} S and T \mathit{T} T of R n \mathbb{R}^n Rn.
为了区分我们把上述定理称为子空间形式. 下面把式 (II-1) 分解为两部分分别证明,
第一个等式
λ
k
=
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
(II-2)
\lambda_k = \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \tag{II-2}
λk=S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTMx(II-2)
第二个等式
λ
k
=
min
T
⊆
R
n
d
i
m
(
T
)
=
n
−
k
+
1
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
(II-3)
\lambda_k = \min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = n-k+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \tag{II-3}
λk=T⊆Rndim(T)=n−k+1minx∈Tx=0maxxTxxTMx(II-3)
下面默认
x
≠
0
\mathbf{x} \neq \mathbf{0}
x=0.
第一个等式和第二个等式形式上对称, 其实可以对应特征值的升序和降序.
特征值排序的不同, Courant-Fischer 定理形式上会对称改变, 注意分辨.
一. 证明第一个等式
A. 证明 LHS ≤ \leq ≤ RHS
令 v 1 , v 2 , … , v n \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n v1,v2,…,vn 是对称矩阵 M \mathbf{M} M 相应于特征值 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \ldots, \lambda_n λ1,λ2,…,λn 的正交特征向量.
S \mathit{S} S 是 R n \mathbb{R}^n Rn 上维度为 k k k 的任意子空间.
构造特殊子空间 S k = s p a n { v 1 , v 2 , … , v k } \mathit{S}_k = {\rm span}\{\mathbf{v}_1, \mathbf{v}_2,\ldots, \mathbf{v}_k\} Sk=span{v1,v2,…,vk}.
假设
x
∈
S
k
\mathbf{x}\in \mathit{S}_k
x∈Sk, 故可以写成
x
=
∑
i
=
1
k
c
i
v
i
(II-1-A-1)
\mathbf{x} = \sum_{i=1}^{k} c_i \mathbf{v}_i \tag{II-1-A-1}
x=i=1∑kcivi(II-1-A-1)
由 [Lemma 1]
x
T
M
x
x
T
x
=
∑
i
=
1
k
c
i
2
λ
i
∑
i
=
1
k
c
i
2
≥
∑
i
=
1
k
c
i
2
λ
k
∑
i
=
1
k
c
i
2
=
λ
k
(II-1-A-2)
\frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} = \frac{\sum_{i=1}^{k} c_i^2 \lambda_i}{\sum_{i=1}^{k} c_i^2 } \geq \frac{\sum_{i=1}^{k} c_i^2 \lambda_k}{\sum_{i=1}^{k} c_i^2 } = \lambda_k \tag{II-1-A-2}
xTxxTMx=∑i=1kci2∑i=1kci2λi≥∑i=1kci2∑i=1kci2λk=λk(II-1-A-2)
只要满足前设条件式 “
x
∈
S
k
\mathbf{x} \in \mathit{S}_k
x∈Sk” 上式都成立, 所以取最小值没有影响, 故有
min
x
∈
S
k
x
≠
0
x
T
M
x
x
T
x
≥
λ
k
(II-1-A-3)
\min_{\begin{array}{c}\mathbf{x} \in \mathit{S}_k\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \geq \lambda_k \tag{II-1-A-3}
x∈Skx=0minxTxxTMx≥λk(II-1-A-3)
我们知道
S
\mathit{S}
S 满足维度条件下的选择是更宽泛的, 而式 (II-1-A-3) 是 “
x
∈
S
k
\mathbf{x} \in \mathit{S}_k
x∈Sk” 这一特殊情况下推导得到的一个极小值不等式.
对更泛化情况下, 从这些极小值中 (包括式 (II-1-A-3) 中的极小值) 选取最大值, 则
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
≥
min
x
∈
S
k
x
≠
0
x
T
M
x
x
T
x
≥
λ
k
(II-1-A-4)
\max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \geq \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}_k\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \geq \lambda_k \tag{II-1-A-4}
S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTMx≥x∈Skx=0minxTxxTMx≥λk(II-1-A-4)
必然成立.
B. 证明 LHS ≥ \geq ≥ RHS
这一部分中我们仍然只要求 S \mathit{S} S 是 R n \mathbb{R}^n Rn 上维度为 k k k 的任意子空间.
此处构造
R
n
\mathbb{R}^n
Rn 上新的子空间
T
\mathit{T}
T , 由
v
k
,
v
k
+
1
,
…
,
v
n
\mathbf{v}_k, \mathbf{v}_{k+1},\ldots, \mathbf{v}_n
vk,vk+1,…,vn 张成,
d
i
m
(
T
)
=
n
−
k
+
1
{\rm dim}(\mathit{T}) = n-k+1
dim(T)=n−k+1. 因为
d
i
m
(
S
)
+
d
i
m
(
T
)
=
k
+
n
−
k
+
1
=
n
+
1
(II-1-B-1)
{\rm dim}(\mathit{S})+{\rm dim}(\mathit{T}) = k +n-k+1= n+1 \tag{II-1-B-1}
dim(S)+dim(T)=k+n−k+1=n+1(II-1-B-1)
所以
S
\mathit{S}
S 与
T
\mathit{T}
T 之间必然存在维度大于等于 1 的交集 (即
d
i
m
(
S
∩
T
)
≥
1
{\rm dim}(\mathit{S} \cap \mathit{T})\geq 1
dim(S∩T)≥1), 那么必然存在向量
x
∗
∈
S
∩
T
\mathbf{x}_{\ast} \in \mathit{S} \cap \mathit{T}
x∗∈S∩T, 故
x
∗
∈
T
\mathbf{x}_{\ast} \in \mathit{T}
x∗∈T 也成立. 所以该向量可以写成
x
∗
=
∑
i
=
k
n
c
i
v
i
(II-1-B-2)
\mathbf{x}_{\ast} = \sum_{i=k}^{n} c_i \mathbf{v}_i \tag{II-1-B-2}
x∗=i=k∑ncivi(II-1-B-2)
由 [Lemma 1]
x
∗
T
M
x
∗
x
∗
T
x
∗
=
∑
i
=
k
n
c
i
2
λ
i
∑
i
=
k
n
c
i
2
≤
∑
i
=
1
k
c
i
2
λ
k
∑
i
=
1
k
c
i
2
=
λ
k
(II-1-B-3)
\frac{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{M} \mathbf{x}_{\ast}}{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{x}_{\ast}} = \frac{\sum_{i=k}^{n} c_i^2 \lambda_i}{\sum_{i=k}^{n} c_i^2 } \leq \frac{\sum_{i=1}^{k} c_i^2 \lambda_k}{\sum_{i=1}^{k} c_i^2 } = \lambda_k \tag{II-1-B-3}
x∗Tx∗x∗TMx∗=∑i=knci2∑i=knci2λi≤∑i=1kci2∑i=1kci2λk=λk(II-1-B-3)
进一步对
x
\mathbf{x}
x 所处空间进行缩放可以得到 (特殊情况到更大范围)
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
≤
x
∗
T
M
x
∗
x
∗
T
x
∗
≤
λ
k
(II-1-B-4)
\min_{ \begin{array}{c} \mathbf{x} \in {\mathit{S} }\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \leq \frac{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{M} \mathbf{x}_{\ast}}{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{x}_{\ast}} \leq \lambda_k \tag{II-1-B-4}
x∈Sx=0minxTxxTMx≤x∗Tx∗x∗TMx∗≤λk(II-1-B-4)
因为
S
\mathit{S}
S 是满足维度条件下的任意空间, 满足这一条件的所有极小值都使得式 (II-1-B-4) 成立. 故这些极小值中的最大值也一样满足式 (II-1-B-4), 即
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
≤
λ
k
(II-1-B-5)
\max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array}} \min_{ \begin{array}{c} \mathbf{x} \in {\mathit{S} }\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \leq \lambda_k \tag{II-1-B-5}
S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTMx≤λk(II-1-B-5)
C. 证明 LHS = RHS
结合式 (II-1-A-4) 和式 (II-1-B-5)
λ
k
≥
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
≥
λ
k
(II-1-C-1)
\lambda_k \geq \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array}} \min_{ \begin{array}{c} \mathbf{x} \in {\mathit{S} }\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \geq \lambda_k \tag{II-1-C-1}
λk≥S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTMx≥λk(II-1-C-1)
即
λ
k
=
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
x
≠
0
x
T
M
x
x
T
x
(II-1-C-2)
\lambda_k = \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array}} \min_{ \begin{array}{c} \mathbf{x} \in {\mathit{S} }\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \tag{II-1-C-2}
λk=S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTMx(II-1-C-2)
第一个等式证明完毕.
二. 证明第二个等式
第二个等式的证明和第一个等式类似, 我们还是简单过一下.
A. 证明 LHS ≥ \geq ≥ RHS
我们构造
T
n
−
k
+
1
=
s
p
a
n
{
v
k
,
v
k
+
1
,
…
,
v
n
}
\mathit{T}_{n-k+1} = {\rm span}\{\mathbf{v}_k, \mathbf{v}_{k+1}, \ldots, \mathbf{v}_{n} \}
Tn−k+1=span{vk,vk+1,…,vn} 这一特殊的
n
−
k
+
1
n-k+1
n−k+1 维子空间. 假设向量
x
∈
T
n
−
k
+
1
\mathbf{x}\in \mathit{T}_{n-k+1}
x∈Tn−k+1, 则
x
=
∑
i
=
k
n
c
i
v
i
(II-2-A-1)
\mathbf{x} = \sum_{i=k}^{n} c_i \mathbf{v}_i \tag{II-2-A-1}
x=i=k∑ncivi(II-2-A-1)
计算
x
T
M
x
x
T
x
=
∑
i
=
k
n
c
i
2
λ
i
∑
i
=
k
n
c
i
2
≤
∑
i
=
k
n
c
i
2
λ
k
∑
i
=
k
n
c
i
2
=
λ
k
(II-2-A-2)
\frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} = \frac{\sum_{i=k}^{n} c_i^2 \lambda_i}{\sum_{i=k}^{n} c_i^2 } \leq \frac{\sum_{i=k}^{n} c_i^2 \lambda_k}{\sum_{i=k}^{n} c_i^2 } = \lambda_k \tag{II-2-A-2}
xTxxTMx=∑i=knci2∑i=knci2λi≤∑i=knci2∑i=knci2λk=λk(II-2-A-2)
只要
x
∈
T
n
−
k
+
1
\mathbf{x}\in \mathit{T}_{n-k+1}
x∈Tn−k+1, 上式都成立. 故有
max
x
∈
T
n
−
k
+
1
x
≠
0
x
T
M
x
x
T
x
≤
λ
k
(II-2-A-3)
\max_{\begin{array}{c}\mathbf{x} \in \mathit{T}_{n-k+1}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \leq \lambda_k \tag{II-2-A-3}
x∈Tn−k+1x=0maxxTxxTMx≤λk(II-2-A-3)
我们知道
T
\mathit{T}
T 满足维度条件下的选择是比较任意的, 上式是特殊情况下推导得到的一个极大值不等式. 对更泛化情况下, 从这些极大值中 (包括上式中的极大值) 选取最小值, 则
min
T
⊆
R
n
d
i
m
(
T
)
=
n
−
k
+
1
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
≤
max
x
∈
T
n
−
k
+
1
x
≠
0
x
T
M
x
x
T
x
≤
λ
k
(II-2-A-4)
\min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = n-k+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \leq \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}_{n-k+1}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \leq \lambda_k \tag{II-2-A-4}
T⊆Rndim(T)=n−k+1minx∈Tx=0maxxTxxTMx≤x∈Tn−k+1x=0maxxTxxTMx≤λk(II-2-A-4)
B. 证明 LHS ≤ \leq ≤ RHS
已知 d i m ( T ) = n − k + 1 {\rm dim}(\mathit{T}) = n-k+1 dim(T)=n−k+1. 构造 k k k 维子空间 S = s p a n { v 1 , v 2 , … , v k } \mathit{S} = {\rm span}\{\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_k\} S=span{v1,v2,…,vk}. 则必然有 d i m ( T ∩ S ) ≥ 1 {\rm dim}(\mathit{T} \cap \mathit{S}) \geq 1 dim(T∩S)≥1. 假设向量 x ∗ ∈ T ∩ S \mathbf{x}_{\ast} \in \mathit{T} \cap \mathit{S} x∗∈T∩S, 则 x ∗ ∈ S \mathbf{x}_{\ast}\in \mathit{S} x∗∈S 也成立, 故
x
∗
=
∑
i
=
1
k
c
i
v
i
(II-2-B-1)
\mathbf{x}_{\ast} = \sum_{i=1}^{k} c_i \mathbf{v}_i \tag{II-2-B-1}
x∗=i=1∑kcivi(II-2-B-1)
计算
x
∗
T
M
x
∗
x
∗
T
x
∗
=
∑
i
=
1
k
c
i
2
λ
i
∑
i
=
1
k
c
i
2
≥
∑
i
=
1
k
c
i
2
λ
k
∑
i
=
1
k
c
i
2
=
λ
k
(II-2-B-2)
\frac{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{M} \mathbf{x}_{\ast}}{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{x}_{\ast}} = \frac{\sum_{i=1}^{k} c_i^2 \lambda_i}{\sum_{i=1}^{k} c_i^2 } \geq \frac{\sum_{i=1}^{k} c_i^2 \lambda_k}{\sum_{i=1}^{k} c_i^2 } = \lambda_k \tag{II-2-B-2}
x∗Tx∗x∗TMx∗=∑i=1kci2∑i=1kci2λi≥∑i=1kci2∑i=1kci2λk=λk(II-2-B-2)
进一步对
x
\mathbf{x}
x 所处空间进行放大可以得到
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
≥
x
∗
T
M
x
∗
x
∗
T
x
∗
≥
λ
k
(II-2-B-3)
\max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \geq \frac{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{M} \mathbf{x}_{\ast}}{\mathbf{x}_{\ast}^{\small\rm T} \mathbf{x}_{\ast}} \geq \lambda_k \tag{II-2-B-3}
x∈Tx=0maxxTxxTMx≥x∗Tx∗x∗TMx∗≥λk(II-2-B-3)
因为
T
\mathit{T}
T 是满足维度条件下的任意空间, 满足这一条件的所有极大值都使得上式成立. 故这些极大值中的最小值也一样满足上式, 即
min
T
⊆
R
n
d
i
m
(
T
)
=
n
−
k
+
1
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
≥
λ
k
(II-2-B-4)
\min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = n-k+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \geq \lambda_k \tag{II-2-B-4}
T⊆Rndim(T)=n−k+1minx∈Tx=0maxxTxxTMx≥λk(II-2-B-4)
C. 证明 LHS = RHS
结合式 (II-2-A-4) 和式 (II-2-B-4), 得到
λ
k
=
min
T
⊆
R
n
d
i
m
(
T
)
=
n
−
k
+
1
max
x
∈
T
x
≠
0
x
T
M
x
x
T
x
(II-2-C-1)
\lambda_k = \min_{\begin{array}{c}\mathit{T} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{T}}) = n-k+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{T}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \tag{II-2-C-1}
λk=T⊆Rndim(T)=n−k+1minx∈Tx=0maxxTxxTMx(II-2-C-1)
第二个等式证明完毕.
III. Courant-Fischer 定理的正交补形式
[Courant-Fischer Theorem][2] Let M \mathbf{M} M be a n × n n \times n n×n symmetric matrix with eigenvalues λ 1 ≥ λ 2 ≥ … ≥ λ n \lambda_1 \geq \lambda_2 \geq \ldots\geq \lambda_n λ1≥λ2≥…≥λn. Then,
λ k = max w 1 , w 2 , … , w n − k ∈ R n min x ∈ R n , x ≠ 0 x ⊥ w 1 , w 2 , … , w n − k x T M x x T x = min w 1 , w 2 , … , w k − 1 ∈ R n max x ∈ R n , x ≠ 0 x ⊥ w 1 , w 2 , … , w k − 1 x T M x x T x (III-1) \begin{aligned} \lambda_k &= \max_{\begin{array}{c} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\in \mathbb{R}^n \end{array} } \min_{\begin{array}{c} \mathbf{x} \in \mathbb{R}^n,\, \mathbf{x}\neq \mathbf{0}\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \\ &= \min_{\begin{array}{c} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\in \mathbb{R}^n \end{array}} \max_{\begin{array}{c} \mathbf{x} \in \mathbb{R}^n,\, \mathbf{x}\neq \mathbf{0}\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \end{aligned} \tag{III-1} λk=w1,w2,…,wn−k∈Rnmaxx∈Rn,x=0x⊥w1,w2,…,wn−kminxTxxTMx=w1,w2,…,wk−1∈Rnminx∈Rn,x=0x⊥w1,w2,…,wk−1maxxTxxTMx(III-1)
where 1 ≤ k ≤ n 1 \leq k \leq n 1≤k≤n.
我们将利用式 (III-1) 与已证明的 (II-1) 之间的等价性, 来证明式 (III-1) 成立. 同样先把式 (III-1) 分解为两部分分别证明.
第一个等式
λ
k
=
max
w
1
,
w
2
,
…
,
w
n
−
k
∈
R
n
min
x
∈
R
n
,
x
≠
0
x
⊥
w
1
,
w
2
,
…
,
w
n
−
k
x
T
M
x
x
T
x
(III-2)
\lambda_k = \max_{\begin{array}{c} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\in \mathbb{R}^n \end{array}} \min_{\begin{array}{c} \mathbf{x} \in \mathbb{R}^n,\, \mathbf{x}\neq \mathbf{0}\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \tag{III-2}
λk=w1,w2,…,wn−k∈Rnmaxx∈Rn,x=0x⊥w1,w2,…,wn−kminxTxxTMx(III-2)
称该第一个等式右手边的值为 “max-min 值”.
第二个等式
λ
k
=
min
w
1
,
w
2
,
…
,
w
k
−
1
∈
R
n
max
x
∈
R
n
,
x
≠
0
x
⊥
w
1
,
w
2
,
…
,
w
k
−
1
x
T
M
x
x
T
x
(III-3)
\lambda_k = \min_{\begin{array}{c} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\in \mathbb{R}^n \end{array}} \max_{\begin{array}{c} \mathbf{x} \in \mathbb{R}^n,\, \mathbf{x}\neq \mathbf{0}\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{M} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \tag{III-3}
λk=w1,w2,…,wk−1∈Rnminx∈Rn,x=0x⊥w1,w2,…,wk−1maxxTxxTMx(III-3)
称该第二个等式右手边的值为 “min-max 值”.
Proof
一. 证明第一个等式
A. 线性无关假设下的证明
我们先假设 w 1 , w 2 , … , w n − k \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} w1,w2,…,wn−k 是线性无关, 即此时 d i m ( s p a n { w 1 , w 2 , … , w k − 1 } ) = n − k {\rm dim}({\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\})= n-k dim(span{w1,w2,…,wk−1})=n−k.
这种情况下, 利用式 (III-2) 与已证明的式 (II-2) 之间的等价性来证明式 (III-2) 成立.
我们很容易等到两者条件范围的等价关系如下
{
w
1
,
w
2
,
…
,
w
n
−
k
,
x
∈
R
n
x
⊥
w
1
,
w
2
,
…
,
w
n
−
k
d
i
m
(
s
p
a
n
{
w
1
,
w
2
,
…
,
w
n
−
k
}
)
=
n
−
k
⇔
{
x
∈
S
⊆
R
n
S
=
s
p
a
n
{
w
1
,
w
2
,
…
,
w
n
−
k
}
⊥
d
i
m
(
S
)
=
k
(III-1-A-1)
\begin{aligned} &\left\{{\begin{array}{l} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} , \mathbf{x}\in \mathbb{R}^n\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\\ {\rm dim}({\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} \}) = n-k \end{array}}\\ \right.\\ &\Leftrightarrow \\ &\left\{{\begin{array}{l} \mathbf{x} \in \mathit{S} \subseteq \mathbb{R}^n\\ S = {\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\}^{\bot}\\ {\rm dim}(S) = k \end{array}}\right. \end{aligned}\tag{III-1-A-1}
⎩
⎨
⎧w1,w2,…,wn−k,x∈Rnx⊥w1,w2,…,wn−kdim(span{w1,w2,…,wn−k})=n−k⇔⎩
⎨
⎧x∈S⊆RnS=span{w1,w2,…,wn−k}⊥dim(S)=k(III-1-A-1)
由前述已证明的 Courant-Fischer 定理式 (II-2), 可知线性无关假设下式 (III-2) 对应的 max-min 值为
λ
k
\lambda_k
λk.
B. 线性相关假设下的证明
如果
w
1
,
w
2
,
…
,
w
n
−
k
\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}
w1,w2,…,wn−k 是线性相关的, 即此时
d
i
m
(
s
p
a
n
{
w
1
,
w
2
,
…
,
w
k
−
1
}
)
=
n
−
k
−
i
<
n
−
k
{\rm dim}({\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\}) = n-k-i < n-k
dim(span{w1,w2,…,wk−1})=n−k−i<n−k, 其中
0
<
i
≤
n
−
k
0< i \leq n-k
0<i≤n−k. 那么等价的取值范围将是
{
w
1
,
w
2
,
…
,
w
n
−
k
,
x
∈
R
n
x
⊥
w
1
,
w
2
,
…
,
w
n
−
k
d
i
m
(
s
p
a
n
{
w
1
,
w
2
,
…
,
w
n
−
k
}
)
=
n
−
k
−
i
⇒
{
x
∈
S
⊆
R
n
S
=
s
p
a
n
{
w
1
,
w
2
,
…
,
w
n
−
k
}
⊥
d
i
m
(
S
)
=
n
−
(
n
−
k
−
i
)
=
k
+
i
(III-1-B-1)
\begin{aligned} &\left\{{\begin{array}{l} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} , \mathbf{x}\in \mathbb{R}^n\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\\ {\rm dim}({\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} \}) = n-k-i \end{array}}\right. \\ &\Rightarrow \\ &\left\{{\begin{array}{l} \mathbf{x} \in \mathit{S} \subseteq \mathbb{R}^n\\ S = {\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\}^{\bot}\\ {\rm dim}(S) = n-(n-k-i) = k+i \end{array}}\right. \end{aligned}\tag{III-1-B-1}
⎩
⎨
⎧w1,w2,…,wn−k,x∈Rnx⊥w1,w2,…,wn−kdim(span{w1,w2,…,wn−k})=n−k−i⇒⎩
⎨
⎧x∈S⊆RnS=span{w1,w2,…,wn−k}⊥dim(S)=n−(n−k−i)=k+i(III-1-B-1)
由前述已证明的 Courant-Fischer 定理式 (II-2), 可知线性相关假设下式 (III-2) 对应的 max-min 值为
λ
k
+
i
\lambda_{k+i}
λk+i.
C. 所有假设下的证明
综合线性相关和相信无关这两种分类情况, 取出最大值作为最后的结果.
已知式 (III-1-A-1) 与式 (III-1-B-1) 的结论, 以及
λ
k
≥
λ
k
+
i
\lambda_k \geq \lambda_{k+i}
λk≥λk+i ( for
0
<
i
≤
n
−
k
0< i \leq n-k
0<i≤n−k), 可以推导得到
m
a
x
-
m
i
n
=
{
λ
k
i
n
d
e
p
e
n
d
e
n
c
e
λ
k
+
i
d
e
p
e
n
d
e
n
c
e
⇒
m
a
x
-
m
i
n
=
λ
k
{\rm{max \text{-} min}} =\left\{ {\begin{array}{ll} \lambda_k &{\rm independence}\\ \lambda_{k+i} & {\rm dependence} \end{array}} \right. \\ \Rightarrow {\rm{max \text{-} min}} =\lambda_k
max-min={λkλk+iindependencedependence⇒max-min=λk
第一个等式证明完毕.
二. 证明第二个等式
第二个等式的证明类似, 简短说明如下.
A. 线性无关假设下的证明
利用等价关系
{
w
1
,
w
2
,
…
,
w
k
−
1
,
x
∈
R
n
x
⊥
w
1
,
w
2
,
…
,
w
k
−
1
d
i
m
(
s
p
a
n
{
w
1
,
w
2
,
…
,
w
k
−
1
}
)
=
k
−
1
⇔
{
x
∈
T
⊆
R
n
T
=
s
p
a
n
{
w
1
,
w
2
,
…
,
w
k
−
1
}
⊥
d
i
m
(
T
)
=
n
−
k
+
1
(III-2-A-1)
\begin{aligned} &\left\{{\begin{array}{l} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} , \mathbf{x}\in \mathbb{R}^n\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\\ {\rm dim}({\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} \}) = k-1 \end{array}}\right.\\ &\Leftrightarrow \\ &\left\{{\begin{array}{l} \mathbf{x} \in \mathit{T} \subseteq \mathbb{R}^n\\ T = {\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\}^{\bot}\\ {\rm dim}(T) = n-k+1 \end{array}}\right. \end{aligned}\tag{III-2-A-1}
⎩
⎨
⎧w1,w2,…,wk−1,x∈Rnx⊥w1,w2,…,wk−1dim(span{w1,w2,…,wk−1})=k−1⇔⎩
⎨
⎧x∈T⊆RnT=span{w1,w2,…,wk−1}⊥dim(T)=n−k+1(III-2-A-1)
由前述已证明的 Courant-Fischer 定理式 (II-3), 可知线性无关假设下式 (III-3) 对应的 max-min 值为 λ k \lambda_k λk.
B. 线性相关假设下的证明
利用等价关系
{
w
1
,
w
2
,
…
,
w
k
−
1
,
x
∈
R
n
x
⊥
w
1
,
w
2
,
…
,
w
k
−
1
d
i
m
(
s
p
a
n
{
w
1
,
w
2
,
…
,
w
k
−
1
}
)
=
k
−
1
−
i
⇔
{
x
∈
T
⊆
R
n
T
=
s
p
a
n
{
w
1
,
w
2
,
…
,
w
k
−
1
}
⊥
d
i
m
(
T
)
=
n
−
(
k
−
1
−
i
)
=
n
−
k
+
1
+
i
(III-2-B-1)
\begin{aligned} &\left\{{\begin{array}{l} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} , \mathbf{x}\in \mathbb{R}^n\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\\ {\rm dim}({\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} \}) = k-1-i \end{array}}\right.\\ &\Leftrightarrow \\ &\left\{{\begin{array}{l} \mathbf{x} \in \mathit{T} \subseteq \mathbb{R}^n\\ T = {\rm span}\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\}^{\bot}\\ {\rm dim}(T) = n-(k-1-i)=n-k+1+i \end{array}}\right. \end{aligned}\tag{III-2-B-1}
⎩
⎨
⎧w1,w2,…,wk−1,x∈Rnx⊥w1,w2,…,wk−1dim(span{w1,w2,…,wk−1})=k−1−i⇔⎩
⎨
⎧x∈T⊆RnT=span{w1,w2,…,wk−1}⊥dim(T)=n−(k−1−i)=n−k+1+i(III-2-B-1)
其中
0
<
i
≤
k
−
1
0< i \leq k-1
0<i≤k−1
由前述已证明的 Courant-Fischer 定理式 (II-3), 可知线性相关假设下式 (III-3) 对应的min-max 值为 λ k − i \lambda_{k-i} λk−i.
C. 所有假设下的证明
综合线性相关和相信无关这两种分类情况, 取出最小值作为最后的结果.
已知式 (III-2-A-1) 与式 (III-2-B-1) 的结论, 以及
λ
k
−
i
≥
λ
k
\lambda_{k-i} \geq \lambda_{k}
λk−i≥λk ( for
0
<
i
≤
k
−
1
0< i \leq k-1
0<i≤k−1), 可以推导得到
m
i
n
-
m
a
x
=
{
λ
k
i
n
d
e
p
e
n
d
e
n
c
e
λ
k
−
i
d
e
p
e
n
d
e
n
c
e
⇒
m
i
n
-
m
a
x
=
λ
k
{\rm{min \text{-} max}} =\left\{ {\begin{array}{ll} \lambda_k &{\rm independence}\\ \lambda_{k-i} & {\rm dependence} \end{array}} \right. \\ \Rightarrow {\rm{min \text{-} max}} =\lambda_k
min-max={λkλk−iindependencedependence⇒min-max=λk
第二个等式证明完毕.
IV. Courant-Fischer Theorem for Singular Values
[Courant-Fischer Theorem][3] Let A \mathbf{A} A be a m × n m \times n m×n matrix, let σ 1 ≥ σ 2 ≥ … \sigma_1 \geq \sigma_2 \geq \ldots σ1≥σ2≥… be the ordered singular values of A \mathbf{A} A, and let k k k be a given integer with 1 ≤ k ≤ min { m , n } 1\leq k \leq \min\{m, n\} 1≤k≤min{m,n}. Then,
σ k = max w 1 , w 2 , … , w n − k ∈ R n min x ∈ R n , ∥ x ∥ 2 = 1 x ⊥ w 1 , w 2 , … , w n − k ∥ A x ∥ 2 = min w 1 , w 2 , … , w k − 1 ∈ R n max x ∈ R n , ∥ x ∥ 2 = 1 x ⊥ w 1 , w 2 , … , w k − 1 ∥ A x ∥ 2 = min S ⊆ R n d i m ( S ) = n − k + 1 max x ∈ S ∥ x ∥ 2 = 1 ∥ A x ∥ 2 = max S ⊆ R n d i m ( S ) = k min x ∈ S ∥ x ∥ 2 = 1 ∥ A x ∥ 2 (IV-1) \begin{aligned} \sigma_k &= \max_{\begin{array}{c} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k}\in \mathbb{R}^n \end{array}} \min_{\begin{array}{c} \mathbf{x} \in \mathbb{R}^n,\, \|\mathbf{x}\|_2 = 1 \\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{n-k} \end{array} } \|\mathbf{A} \mathbf{x}\|_2 \\ \\& = \min_{\begin{array}{c} \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1}\in \mathbb{R}^n \end{array}} \max_{\begin{array}{c} \mathbf{x} \in \mathbb{R}^n,\, \|\mathbf{x}\|_2 = 1\\ \mathbf{x} \bot \mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_{k-1} \end{array} } \|\mathbf{A} \mathbf{x}\|_2\\ \\&= \min_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = n-k+1 \end{array} } \max_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{A} \mathbf{x}\|_2\\ \\&= \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \|\mathbf{x}\|_2 = 1 \end{array} } \| \mathbf{A} \mathbf{x}\|_2 \end{aligned} \tag{IV-1} σk=w1,w2,…,wn−k∈Rnmaxx∈Rn,∥x∥2=1x⊥w1,w2,…,wn−kmin∥Ax∥2=w1,w2,…,wk−1∈Rnminx∈Rn,∥x∥2=1x⊥w1,w2,…,wk−1max∥Ax∥2=S⊆Rndim(S)=n−k+1minx∈S∥x∥2=1max∥Ax∥2=S⊆Rndim(S)=kmaxx∈S∥x∥2=1min∥Ax∥2(IV-1)
由于已经证明的 Courant-Fischer 定理的 2 个不同形式 (II-1) 和 (III-1), 我们只需证明上式的一个等式成立, 就可以推得上式整体成立.
由式 (II-2) 及向量 2-范数定义可知
λ
k
(
A
T
A
)
=
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
x
≠
0
x
T
A
T
A
x
x
T
x
=
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
∥
x
∥
2
=
1
∥
A
x
∥
2
2
(IV-2)
\begin{aligned} \lambda_k(\mathbf{A}^{\small\rm T} \mathbf{A}) &= \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \mathbf{x}\neq \mathbf{0} \end{array} } \frac{\mathbf{x}^{\small\rm T} \mathbf{A}^{\small\rm T} \mathbf{A} \mathbf{x}}{\mathbf{x}^{\small\rm T} \mathbf{x}} \\ &= \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \|\mathbf{x}\|_2= 1 \end{array} } \| \mathbf{A} \mathbf{x} \|_2^2 \\ \end{aligned}\tag{IV-2}
λk(ATA)=S⊆Rndim(S)=kmaxx∈Sx=0minxTxxTATAx=S⊆Rndim(S)=kmaxx∈S∥x∥2=1min∥Ax∥22(IV-2)
说明: 对
x
\mathbf{x}
x 缩放一个倍数使其长度为 1, 不改变上式.
又由于奇异值与特征值之间的性质,
σ
k
(
A
)
2
=
λ
k
(
A
T
A
)
\sigma_k(\mathbf{A})^2 = \lambda_k(\mathbf{A}^{\small\rm T} \mathbf{A})
σk(A)2=λk(ATA), 故
σ
k
(
A
)
=
max
S
⊆
R
n
d
i
m
(
S
)
=
k
min
x
∈
S
∥
x
∥
2
=
1
∥
A
x
∥
2
(IV-2)
\begin{aligned} \sigma_k(\mathbf{A}) &= \max_{\begin{array}{c}\mathit{S} \subseteq \mathbb{R}^n\\ {\rm dim}({\mathit{S}}) = k \end{array} } \min_{\begin{array}{c}\mathbf{x} \in \mathit{S}\\ \|\mathbf{x}\|_2= 1 \end{array} } \| \mathbf{A} \mathbf{x} \|_2 \\ \end{aligned}\tag{IV-2}
σk(A)=S⊆Rndim(S)=kmaxx∈S∥x∥2=1min∥Ax∥2(IV-2)
根据式 (II-1)、式 (III-1) 和式 (IV-2), 证得式 (IV-1), 即 Courant-Fischer Theorem for Singular Values 成立.
总结
本篇博客整理了 Courant-Fischer 定理的三个变体, 分别是
- 子空间形式
- 正交补形式
- 奇异值形式
奇异值的排序方式在各种文献中都很统一, 从大到小的降序形式;
而特征值的排序方式有的文献中是降序, 而有的文献是升序.
我们统一采用了降序形式.
虽然 Courant-Fischer 定理能够兼容升序和降序, 但在形式上会对称改变, 需要注意分辨.
(如有问题请指出, 谢谢!)
参考文献
[1] Daniel A. Spielman, Spectral and Algebraic Graph Theory, 2019, http://cs-www.cs.yale.edu/homes/spielman/sagt
[2] Horn, R., Johnson, C., Matrix Analysis, Cambridge University Press, 1985
[3] Horn, R., Johnson, C., Topics in Matrix Analysis, Cambridge University Press, 1991