一个关于随机矩阵谱范数的不等式
在许多随机图模型的问题中,采用图的邻接矩阵
A
A
A来研究总体
E
[
A
]
E[A]
E[A] 的性质,前者是
n
×
n
n\times n
n×n的随机矩阵。这样做之所以可行,是因为A和
E
[
A
]
E[A]
E[A]在渐进意义上足够接近。假设A是对称矩阵,即研究对象是无向图,可以采取谱范数作为这一距离的度量,谱范数的定义为:
∣
∣
A
∣
∣
:
=
m
a
x
x
∈
R
n
/
0
∣
∣
A
x
∣
∣
2
∣
∣
x
∣
∣
2
||A||:=max_{x\in R^n/0}\frac{||Ax ||_2}{||x||_2}
∣∣A∣∣:=maxx∈Rn/0∣∣x∣∣2∣∣Ax∣∣2
也就是A的最大的特征值。从上式可以看出,当每一顶点的度
d
n
d_n
dn(即
E
[
A
]
E[A]
E[A]每一行的和)与n同阶时,有
∣
∣
A
∣
∣
≍
n
||A||\asymp n
∣∣A∣∣≍n。于是希望
∣
∣
A
−
E
[
A
]
∣
∣
|| A-E[A] ||
∣∣A−E[A]∣∣的阶数更小。事实上,记
R
=
A
−
E
[
A
]
R=A-E[A]
R=A−E[A],有
P
(
∣
∣
R
∣
∣
≤
C
n
)
≥
1
−
4
e
−
n
.
P(||R||\leq C\sqrt{n})\geq1-4e^{-n}.
P(∣∣R∣∣≤Cn)≥1−4e−n.
即为主要讨论和证明的不等式。
次高斯元素随机矩阵的谱范数
考虑更一般的情况。
定理1:
A
A
A为
m
×
n
m\times n
m×n的随机矩阵,其中各个元素
A
i
j
A_{ij}
Aij是均值为零的独立的次高斯随机变量。则对任意
t
>
0
t>0
t>0,有
P
{
∣
∣
A
∣
∣
≤
C
K
(
m
+
n
+
t
)
}
≥
1
−
e
−
t
2
.
P\{||A||\leq CK(\sqrt{m}+\sqrt{n}+t)\}\geq 1-e^{-t^2}.
P{∣∣A∣∣≤CK(m+n+t)}≥1−e−t2.
K
=
m
a
x
i
,
j
∣
∣
A
i
,
j
∣
∣
ψ
2
K=max_{i,j}||A_{i,j}||_{\psi_2}
K=maxi,j∣∣Ai,j∣∣ψ2为最大次高斯范数,
C
C
C为合适的常数。
考虑到 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣为A的最大奇异值,有 ∣ ∣ A ∣ ∣ = m a x x ∈ S n − 1 , y ∈ S m − 1 ⟨ A x , y ⟩ ||A||=max_{x\in S^{n-1}, y\in S^{m-1}}{\langle Ax,y \rangle} ∣∣A∣∣=maxx∈Sn−1,y∈Sm−1⟨Ax,y⟩, S n − 1 S^{n-1} Sn−1表示n维单位球面。对于固定的xy, ⟨ A x , y ⟩ {\langle Ax,y \rangle} ⟨Ax,y⟩也是次高斯随机变量。证明分成三步进行,第一步对初步估计 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣,利用 ϵ \epsilon ϵ-net给出 ∣ ∣ A ∣ ∣ ||A|| ∣∣A∣∣的一个略大的近似;第二步利用 ⟨ A x , y ⟩ {\langle Ax,y \rangle} ⟨Ax,y⟩的次高斯性得到固定xy时的尾部概率的上界;第三步结合前两步,得到 ⟨ A x , y ⟩ {\langle Ax,y \rangle} ⟨Ax,y⟩对xy一致的尾部概率上界,选择足够大C,放缩得到最后的不等式。
第一步
首先引入覆盖数(covering number)和填充数(packing number)的概念。
简单来说,在一个距离空间中(不妨设为欧氏空间),对于一个集合 K K K,可以被圆心在 K K K内,半径为 ϵ \epsilon ϵ的圆覆盖,这些圆心构成的点集成为一个 K K K的 ϵ \epsilon ϵ-net,满足条件的条件的最小的圆心个数,称为K的覆盖数(covering number),记为 N ( K , ϵ ) \mathcal{N}(K,\epsilon) N(K,ϵ)。同样的,圆心在 K K K内,半径为 ϵ / 2 \epsilon/2 ϵ/2的圆,且这些圆互不相交,即任意两个圆心的距离大于 ϵ \epsilon ϵ,这些圆心构成的点集称为一个 K K K的 ϵ \epsilon ϵ-separated,满足条件的条件的最大的圆心个数,称为K的填充数(packing number),记为 P ( K , ϵ ) \mathcal{P}(K,\epsilon) P(K,ϵ)。
引理1.1: 令
K
∈
R
n
K\in R^n
K∈Rn,
ϵ
>
0
\epsilon >0
ϵ>0,
B
2
n
B_{2}^n
B2n表示
R
n
R^n
Rn空间中的单位球,| . |表示体积,集合间的加法定义为闵可夫斯基和(Minkowski sum),则
∣
K
∣
∣
ϵ
B
2
n
∣
≤
N
(
K
,
ϵ
)
≤
P
(
K
,
ϵ
)
≤
∣
K
+
(
ϵ
/
2
)
B
2
n
∣
∣
(
ϵ
/
2
)
B
2
n
∣
\frac{|K|}{|\epsilon B_{2}^n|}\leq \mathcal{N}(K,\epsilon)\leq \mathcal{P}(K,\epsilon)\leq \frac{|K+(\epsilon/2) B_{2}^n|}{|(\epsilon/2) B_{2}^n|}
∣ϵB2n∣∣K∣≤N(K,ϵ)≤P(K,ϵ)≤∣(ϵ/2)B2n∣∣K+(ϵ/2)B2n∣
证明: 只证明中间的不等式。只需要说明, K K K的最大的 ϵ \epsilon ϵ-separated,记为 P \mathcal{P} P,是一个 ϵ \epsilon ϵ-net。对任意 x ∈ K x\in K x∈K,如果 x ∈ P x\in \mathcal{P} x∈P,则有 x 0 = x ∈ P x_0=x\in \mathcal{P} x0=x∈P,使得 d ( x 0 , x ) = 0 < ϵ d(x_0,x)=0<\epsilon d(x0,x)=0<ϵ;如果 x ∉ P x\notin \mathcal{P} x∈/P,则由 P \mathcal{P} P的最大性, P ∪ { x } \mathcal{P}\cup\{x\} P∪{x}不是一个 ϵ \epsilon ϵ-separated,即存在 x 0 ∈ P x_0\in \mathcal{P} x0∈P,使得 d ( x 0 , x ) < ϵ d(x_0,x)<\epsilon d(x0,x)<ϵ。于是 P \mathcal{P} P是一个 ϵ \epsilon ϵ-net, ϵ \epsilon ϵ-net中点的个数一定比最小 ϵ \epsilon ϵ-net中的大。
取
K
=
B
2
n
K=B_{2}^n
K=B2n,即有
(
1
ϵ
)
n
≤
N
(
B
2
n
,
ϵ
)
≤
(
2
ϵ
+
1
)
n
(1)
(\frac{1}{\epsilon })^n\leq \mathcal{N}(B_{2}^n,\epsilon)\leq (\frac{2}{\epsilon }+1)^n \tag{1}
(ϵ1)n≤N(B2n,ϵ)≤(ϵ2+1)n(1)
引理1.2: A是一个
m
×
n
m\times n
m×n的矩阵,
ϵ
∈
[
0
,
1
/
2
)
\epsilon \in [0,1/2)
ϵ∈[0,1/2),
N
\mathcal{N}
N是
S
n
−
1
S^{n-1}
Sn−1的任意一个
ϵ
\epsilon
ϵ-net,
M
\mathcal{M}
M是
S
m
−
1
S^{m-1}
Sm−1的任意一个
ϵ
\epsilon
ϵ-net,有
∣
∣
A
∣
∣
≤
1
1
−
2
ϵ
sup
x
∈
N
,
y
∈
M
⟨
A
x
,
y
⟩
(2)
||A||\leq \frac{1}{1-2\epsilon} \sup_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle} \tag{2}
∣∣A∣∣≤1−2ϵ1x∈N,y∈Msup⟨Ax,y⟩(2)
证明: 固定xy,使得
∣
∣
A
∣
∣
=
⟨
A
x
,
y
⟩
||A||={\langle Ax,y \rangle}
∣∣A∣∣=⟨Ax,y⟩,取
x
0
∈
N
,
y
0
∈
M
x_0\in \mathcal{N}, y_0\in \mathcal{M}
x0∈N,y0∈M,满足$||x-x_0||<\epsilon ,||y-y_0||<\epsilon $。则
⟨
A
x
,
y
⟩
−
⟨
A
x
0
,
y
0
⟩
=
⟨
A
x
,
y
−
y
0
⟩
+
⟨
A
(
x
−
x
0
)
,
y
0
⟩
≤
ϵ
∣
∣
A
x
∣
∣
2
+
ϵ
∣
∣
A
y
0
∣
∣
2
≤
2
ϵ
∣
∣
A
∣
∣
\begin{aligned} {\langle Ax,y \rangle}-{\langle Ax_0,y_0 \rangle}&={\langle Ax,y-y_0 \rangle}+{\langle A(x-x_0),y_0 \rangle}\\ &\leq \epsilon ||Ax||_2 +\epsilon ||Ay_0||_2\\ &\leq 2\epsilon ||A|| \end{aligned}
⟨Ax,y⟩−⟨Ax0,y0⟩=⟨Ax,y−y0⟩+⟨A(x−x0),y0⟩≤ϵ∣∣Ax∣∣2+ϵ∣∣Ay0∣∣2≤2ϵ∣∣A∣∣
引理1.1.2给出了
∣
∣
A
∣
∣
||A||
∣∣A∣∣的一个略大的近似。
第二步
对于固定xy,
⟨
A
x
,
y
⟩
=
∑
i
=
1
m
∑
j
=
1
n
A
i
j
x
j
y
i
{\langle Ax,y \rangle}=\sum_{i=1}^m\sum_{j=1}^n A_{ij}x_jy_i
⟨Ax,y⟩=∑i=1m∑j=1nAijxjyi是独立次高斯随机变量的和,有
∣
∣
⟨
A
x
,
y
⟩
∣
∣
ψ
2
2
≤
C
∑
i
=
1
m
∑
j
=
1
n
∣
∣
A
i
j
∣
∣
ψ
2
2
x
i
2
y
i
2
≤
C
K
2
\begin{aligned} || {\langle Ax,y \rangle}||_{\psi_2}^2\leq C\sum_{i=1}^m\sum_{j=1}^n ||A_{ij}||_{\psi_2}^2 x_i^2y_i^2\leq CK^2 \end{aligned}
∣∣⟨Ax,y⟩∣∣ψ22≤Ci=1∑mj=1∑n∣∣Aij∣∣ψ22xi2yi2≤CK2
K
=
max
i
,
j
∣
∣
A
i
j
∣
∣
ψ
2
K=\max_{i,j} ||A_{ij}||_{\psi_2}
K=maxi,j∣∣Aij∣∣ψ2。由次高斯性质,任意
u
>
0
u>0
u>0,有
P
(
⟨
A
x
,
y
⟩
≥
u
)
≤
2
exp
(
−
c
u
2
/
K
2
)
(3)
P({\langle Ax,y \rangle}\geq u)\leq 2\exp(-cu^2/K^2) \tag{3}
P(⟨Ax,y⟩≥u)≤2exp(−cu2/K2)(3)
上式中
C
,
c
C,c
C,c为常数。
第三步
我们考虑
x
∈
N
,
y
∈
M
x\in \mathcal{N}, y\in \mathcal{M}
x∈N,y∈M上尾部概率的一致上界,
P
(
max
x
∈
N
,
y
∈
M
⟨
A
x
,
y
⟩
≥
u
)
≤
∑
x
∈
N
,
y
∈
M
P
(
⟨
A
x
,
y
⟩
≥
u
)
(4)
P(\max_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle}\geq u)\leq \sum_{x\in \mathcal{N},y\in \mathcal{M}} P({\langle Ax,y \rangle}\geq u) \tag{4}
P(x∈N,y∈Mmax⟨Ax,y⟩≥u)≤x∈N,y∈M∑P(⟨Ax,y⟩≥u)(4)
第四步
这一步,我们结合上面步骤。取
ϵ
=
1
/
4
\epsilon = 1/4
ϵ=1/4,由式
(
1
)
(1)
(1)有
∣
N
∣
≤
9
n
,
∣
M
∣
≤
9
m
.
|\mathcal{N}|\leq 9^n,\ |\mathcal{M}|\leq 9^m.
∣N∣≤9n, ∣M∣≤9m.
根据引理1.1.2有
∣
∣
A
∣
∣
≤
2
sup
x
∈
N
,
y
∈
M
⟨
A
x
,
y
⟩
||A||\leq 2\sup_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle}
∣∣A∣∣≤2x∈N,y∈Msup⟨Ax,y⟩
再结合式
(
3
)
(3)
(3),式
(
4
)
(4)
(4)右端可以放大;结合引理1.1.2,式
(
4
)
(4)
(4)左端可以缩小,则有
P
(
∣
∣
A
∣
∣
≥
2
u
)
≤
9
n
+
m
⋅
2
exp
(
−
c
u
2
/
K
2
)
(5)
P(||A||\geq 2u)\leq 9^{n+m} \cdot 2\exp(-cu^2/K^2) \tag{5}
P(∣∣A∣∣≥2u)≤9n+m⋅2exp(−cu2/K2)(5)
对任意
u
>
0
u>0
u>0成立。取
u
=
C
K
(
n
+
m
+
t
)
u=CK(\sqrt{n}+\sqrt{m}+t)
u=CK(n+m+t),
u
2
≥
C
2
K
2
(
n
+
m
+
t
2
)
u^2\geq C^2K^2(n+m+t^2)
u2≥C2K2(n+m+t2),选择合适的
C
C
C,使得
c
u
2
/
K
2
≥
3
(
n
+
m
)
+
t
2
cu^2/K^2\geq 3(n+m)+t^2
cu2/K2≥3(n+m)+t2,有
P
(
∣
∣
A
∣
∣
≥
2
u
)
≤
9
n
+
m
⋅
2
exp
(
−
3
(
n
+
m
)
−
t
2
)
≤
2
exp
(
−
t
2
)
(6)
P(||A||\geq 2u)\leq 9^{n+m} \cdot 2\exp(-3(n+m)-t^2)\leq 2\exp(-t^2)\tag{6}
P(∣∣A∣∣≥2u)≤9n+m⋅2exp(−3(n+m)−t2)≤2exp(−t2)(6)
于是,任意
t
>
0
t>0
t>0
P
{
∣
∣
A
∣
∣
≤
2
C
K
(
m
+
n
+
t
)
}
≥
1
−
2
exp
(
−
t
2
)
.
P\{||A||\leq 2CK(\sqrt{m}+\sqrt{n}+t)\}\geq 1-2\exp(-t^2).
P{∣∣A∣∣≤2CK(m+n+t)}≥1−2exp(−t2).
成立。
当
m
=
n
m=n
m=n时,可以取
u
=
C
K
(
n
+
t
)
u=CK(\sqrt{n}+t)
u=CK(n+t),由上式可以得到
P
{
∣
∣
A
∣
∣
≤
2
C
K
(
n
+
t
)
}
≥
1
−
2
exp
(
−
t
2
)
.
P\{||A||\leq 2CK(\sqrt{n}+t)\}\geq 1-2\exp(-t^2).
P{∣∣A∣∣≤2CK(n+t)}≥1−2exp(−t2).
当A是
n
×
n
n\times n
n×n的对称矩阵,可以把A分解成上三角矩阵
A
+
A^+
A+和下三角矩阵
A
−
A^-
A−,有
∣
∣
A
∣
∣
≤
∣
∣
A
+
∣
∣
+
∣
∣
A
−
∣
∣
||A||\leq ||A^+||+||A^-||
∣∣A∣∣≤∣∣A+∣∣+∣∣A−∣∣,有
P
(
∣
∣
A
∣
∣
≤
4
u
)
≥
P
(
{
∣
∣
A
+
∣
∣
≤
2
u
}
∩
{
∣
∣
A
−
∣
∣
≤
2
u
}
)
≥
1
−
4
exp
(
−
t
2
)
P(||A||\leq 4u)\geq P(\{||A^+||\leq 2u \}\cap \{||A^-||\leq 2u \})\geq 1-4\exp(-t^2)
P(∣∣A∣∣≤4u)≥P({∣∣A+∣∣≤2u}∩{∣∣A−∣∣≤2u})≥1−4exp(−t2)
重新定义常数
C
C
C,得到
P
{
∣
∣
A
∣
∣
≤
C
K
(
n
+
t
)
}
≥
1
−
4
exp
(
−
t
2
)
.
(7)
P\{||A||\leq CK(\sqrt{n}+t)\}\geq 1-4\exp(-t^2). \tag{7}
P{∣∣A∣∣≤CK(n+t)}≥1−4exp(−t2).(7)
注意到文章一开始的不等式中的
R
R
R满足均值为0,各个分量独立且为次高斯随机变量,选择
t
=
n
t=\sqrt{n}
t=n并重新选择常数
C
C
C,有
P
(
∣
∣
R
∣
∣
≤
C
n
)
≥
1
−
4
e
−
n
.
P(||R||\leq C\sqrt{n})\geq1-4e^{-n}.
P(∣∣R∣∣≤Cn)≥1−4e−n.
成立。
于是噪声 R R R在渐进意义上远小于信号 E [ A ] E[A] E[A],为利用图的邻接矩阵 A A A来研究总体 E [ A ] E[A] E[A]的性质提供了理论保证。