一个关于随机矩阵谱范数的不等式

一个关于随机矩阵谱范数的不等式

在许多随机图模型的问题中,采用图的邻接矩阵 A A A来研究总体 E [ A ] E[A] E[A] 的性质,前者是 n × n n\times n n×n的随机矩阵。这样做之所以可行,是因为A和 E [ A ] E[A] E[A]在渐进意义上足够接近。假设A是对称矩阵,即研究对象是无向图,可以采取谱范数作为这一距离的度量,谱范数的定义为:
∣ ∣ A ∣ ∣ : = m a x x ∈ R n / 0 ∣ ∣ A x ∣ ∣ 2 ∣ ∣ x ∣ ∣ 2 ||A||:=max_{x\in R^n/0}\frac{||Ax ||_2}{||x||_2} A:=maxxRn/0x2Ax2
也就是A的最大的特征值。从上式可以看出,当每一顶点的度 d n d_n dn(即 E [ A ] E[A] E[A]每一行的和)与n同阶时,有 ∣ ∣ A ∣ ∣ ≍ n ||A||\asymp n An。于是希望 ∣ ∣ A − E [ A ] ∣ ∣ || A-E[A] || AE[A]的阶数更小。事实上,记 R = A − E [ A ] R=A-E[A] R=AE[A],有
P ( ∣ ∣ R ∣ ∣ ≤ C n ) ≥ 1 − 4 e − n . P(||R||\leq C\sqrt{n})\geq1-4e^{-n}. P(RCn )14en.
即为主要讨论和证明的不等式。

次高斯元素随机矩阵的谱范数

考虑更一般的情况。

定理1: A A A m × n m\times n m×n的随机矩阵,其中各个元素 A i j A_{ij} Aij是均值为零的独立的次高斯随机变量。则对任意 t > 0 t>0 t>0,有
P { ∣ ∣ A ∣ ∣ ≤ C K ( m + n + t ) } ≥ 1 − e − t 2 . P\{||A||\leq CK(\sqrt{m}+\sqrt{n}+t)\}\geq 1-e^{-t^2}. P{ACK(m +n +t)}1et2.
K = m a x i , j ∣ ∣ A i , j ∣ ∣ ψ 2 K=max_{i,j}||A_{i,j}||_{\psi_2} K=maxi,jAi,jψ2为最大次高斯范数, C C C为合适的常数。

考虑到 ∣ ∣ A ∣ ∣ ||A|| A为A的最大奇异值,有 ∣ ∣ A ∣ ∣ = m a x x ∈ S n − 1 , y ∈ S m − 1 ⟨ A x , y ⟩ ||A||=max_{x\in S^{n-1}, y\in S^{m-1}}{\langle Ax,y \rangle} A=maxxSn1,ySm1Ax,y S n − 1 S^{n-1} Sn1表示n维单位球面。对于固定的xy, ⟨ A x , y ⟩ {\langle Ax,y \rangle} Ax,y也是次高斯随机变量。证明分成三步进行,第一步对初步估计 ∣ ∣ A ∣ ∣ ||A|| A,利用 ϵ \epsilon ϵ-net给出 ∣ ∣ A ∣ ∣ ||A|| A的一个略大的近似;第二步利用 ⟨ A x , y ⟩ {\langle Ax,y \rangle} Ax,y的次高斯性得到固定xy时的尾部概率的上界;第三步结合前两步,得到 ⟨ A x , y ⟩ {\langle Ax,y \rangle} Ax,y对xy一致的尾部概率上界,选择足够大C,放缩得到最后的不等式。

第一步

首先引入覆盖数(covering number)和填充数(packing number)的概念。

简单来说,在一个距离空间中(不妨设为欧氏空间),对于一个集合 K K K,可以被圆心在 K K K内,半径为 ϵ \epsilon ϵ的圆覆盖,这些圆心构成的点集成为一个 K K K ϵ \epsilon ϵ-net,满足条件的条件的最小的圆心个数,称为K的覆盖数(covering number),记为 N ( K , ϵ ) \mathcal{N}(K,\epsilon) N(K,ϵ)。同样的,圆心在 K K K内,半径为 ϵ / 2 \epsilon/2 ϵ/2的圆,且这些圆互不相交,即任意两个圆心的距离大于 ϵ \epsilon ϵ,这些圆心构成的点集称为一个 K K K ϵ \epsilon ϵ-separated,满足条件的条件的最大的圆心个数,称为K的填充数(packing number),记为 P ( K , ϵ ) \mathcal{P}(K,\epsilon) P(K,ϵ)

引理1.1: K ∈ R n K\in R^n KRn ϵ > 0 \epsilon >0 ϵ>0 B 2 n B_{2}^n B2n表示 R n R^n Rn空间中的单位球,| . |表示体积,集合间的加法定义为闵可夫斯基和(Minkowski sum),则
∣ K ∣ ∣ ϵ B 2 n ∣ ≤ N ( K , ϵ ) ≤ P ( K , ϵ ) ≤ ∣ K + ( ϵ / 2 ) B 2 n ∣ ∣ ( ϵ / 2 ) B 2 n ∣ \frac{|K|}{|\epsilon B_{2}^n|}\leq \mathcal{N}(K,\epsilon)\leq \mathcal{P}(K,\epsilon)\leq \frac{|K+(\epsilon/2) B_{2}^n|}{|(\epsilon/2) B_{2}^n|} ϵB2nKN(K,ϵ)P(K,ϵ)(ϵ/2)B2nK+(ϵ/2)B2n

证明: 只证明中间的不等式。只需要说明, K K K的最大的 ϵ \epsilon ϵ-separated,记为 P \mathcal{P} P,是一个 ϵ \epsilon ϵ-net。对任意 x ∈ K x\in K xK,如果 x ∈ P x\in \mathcal{P} xP,则有 x 0 = x ∈ P x_0=x\in \mathcal{P} x0=xP,使得 d ( x 0 , x ) = 0 < ϵ d(x_0,x)=0<\epsilon d(x0,x)=0<ϵ;如果 x ∉ P x\notin \mathcal{P} x/P,则由 P \mathcal{P} P的最大性, P ∪ { x } \mathcal{P}\cup\{x\} P{x}不是一个 ϵ \epsilon ϵ-separated,即存在 x 0 ∈ P x_0\in \mathcal{P} x0P,使得 d ( x 0 , x ) < ϵ d(x_0,x)<\epsilon d(x0,x)<ϵ。于是 P \mathcal{P} P是一个 ϵ \epsilon ϵ-net, ϵ \epsilon ϵ-net中点的个数一定比最小 ϵ \epsilon ϵ-net中的大。

K = B 2 n K=B_{2}^n K=B2n,即有
( 1 ϵ ) n ≤ N ( B 2 n , ϵ ) ≤ ( 2 ϵ + 1 ) n (1) (\frac{1}{\epsilon })^n\leq \mathcal{N}(B_{2}^n,\epsilon)\leq (\frac{2}{\epsilon }+1)^n \tag{1} (ϵ1)nN(B2n,ϵ)(ϵ2+1)n(1)

引理1.2: A是一个 m × n m\times n m×n的矩阵, ϵ ∈ [ 0 , 1 / 2 ) \epsilon \in [0,1/2) ϵ[0,1/2) N \mathcal{N} N S n − 1 S^{n-1} Sn1的任意一个 ϵ \epsilon ϵ-net, M \mathcal{M} M S m − 1 S^{m-1} Sm1的任意一个 ϵ \epsilon ϵ-net,有
∣ ∣ A ∣ ∣ ≤ 1 1 − 2 ϵ sup ⁡ x ∈ N , y ∈ M ⟨ A x , y ⟩ (2) ||A||\leq \frac{1}{1-2\epsilon} \sup_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle} \tag{2} A12ϵ1xN,yMsupAx,y(2)
证明: 固定xy,使得 ∣ ∣ A ∣ ∣ = ⟨ A x , y ⟩ ||A||={\langle Ax,y \rangle} A=Ax,y,取 x 0 ∈ N , y 0 ∈ M x_0\in \mathcal{N}, y_0\in \mathcal{M} x0N,y0M,满足$||x-x_0||<\epsilon ,||y-y_0||<\epsilon $。则
⟨ A x , y ⟩ − ⟨ A x 0 , y 0 ⟩ = ⟨ A x , y − y 0 ⟩ + ⟨ A ( x − x 0 ) , y 0 ⟩ ≤ ϵ ∣ ∣ A x ∣ ∣ 2 + ϵ ∣ ∣ A y 0 ∣ ∣ 2 ≤ 2 ϵ ∣ ∣ A ∣ ∣ \begin{aligned} {\langle Ax,y \rangle}-{\langle Ax_0,y_0 \rangle}&={\langle Ax,y-y_0 \rangle}+{\langle A(x-x_0),y_0 \rangle}\\ &\leq \epsilon ||Ax||_2 +\epsilon ||Ay_0||_2\\ &\leq 2\epsilon ||A|| \end{aligned} Ax,yAx0,y0=Ax,yy0+A(xx0),y0ϵAx2+ϵAy022ϵA
引理1.1.2给出了 ∣ ∣ A ∣ ∣ ||A|| A的一个略大的近似。

第二步

对于固定xy, ⟨ A x , y ⟩ = ∑ i = 1 m ∑ j = 1 n A i j x j y i {\langle Ax,y \rangle}=\sum_{i=1}^m\sum_{j=1}^n A_{ij}x_jy_i Ax,y=i=1mj=1nAijxjyi是独立次高斯随机变量的和,有
∣ ∣ ⟨ A x , y ⟩ ∣ ∣ ψ 2 2 ≤ C ∑ i = 1 m ∑ j = 1 n ∣ ∣ A i j ∣ ∣ ψ 2 2 x i 2 y i 2 ≤ C K 2 \begin{aligned} || {\langle Ax,y \rangle}||_{\psi_2}^2\leq C\sum_{i=1}^m\sum_{j=1}^n ||A_{ij}||_{\psi_2}^2 x_i^2y_i^2\leq CK^2 \end{aligned} Ax,yψ22Ci=1mj=1nAijψ22xi2yi2CK2
K = max ⁡ i , j ∣ ∣ A i j ∣ ∣ ψ 2 K=\max_{i,j} ||A_{ij}||_{\psi_2} K=maxi,jAijψ2。由次高斯性质,任意 u > 0 u>0 u>0,有
P ( ⟨ A x , y ⟩ ≥ u ) ≤ 2 exp ⁡ ( − c u 2 / K 2 ) (3) P({\langle Ax,y \rangle}\geq u)\leq 2\exp(-cu^2/K^2) \tag{3} P(Ax,yu)2exp(cu2/K2)(3)
上式中 C , c C,c C,c为常数。

第三步

我们考虑 x ∈ N , y ∈ M x\in \mathcal{N}, y\in \mathcal{M} xN,yM上尾部概率的一致上界,
P ( max ⁡ x ∈ N , y ∈ M ⟨ A x , y ⟩ ≥ u ) ≤ ∑ x ∈ N , y ∈ M P ( ⟨ A x , y ⟩ ≥ u ) (4) P(\max_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle}\geq u)\leq \sum_{x\in \mathcal{N},y\in \mathcal{M}} P({\langle Ax,y \rangle}\geq u) \tag{4} P(xN,yMmaxAx,yu)xN,yMP(Ax,yu)(4)

第四步

这一步,我们结合上面步骤。取 ϵ = 1 / 4 \epsilon = 1/4 ϵ=1/4,由式 ( 1 ) (1) (1)
∣ N ∣ ≤ 9 n ,   ∣ M ∣ ≤ 9 m . |\mathcal{N}|\leq 9^n,\ |\mathcal{M}|\leq 9^m. N9n, M9m.
根据引理1.1.2有
∣ ∣ A ∣ ∣ ≤ 2 sup ⁡ x ∈ N , y ∈ M ⟨ A x , y ⟩ ||A||\leq 2\sup_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle} A2xN,yMsupAx,y
再结合式 ( 3 ) (3) (3),式 ( 4 ) (4) (4)右端可以放大;结合引理1.1.2,式 ( 4 ) (4) (4)左端可以缩小,则有
P ( ∣ ∣ A ∣ ∣ ≥ 2 u ) ≤ 9 n + m ⋅ 2 exp ⁡ ( − c u 2 / K 2 ) (5) P(||A||\geq 2u)\leq 9^{n+m} \cdot 2\exp(-cu^2/K^2) \tag{5} P(A2u)9n+m2exp(cu2/K2)(5)
对任意 u > 0 u>0 u>0成立。取 u = C K ( n + m + t ) u=CK(\sqrt{n}+\sqrt{m}+t) u=CK(n +m +t) u 2 ≥ C 2 K 2 ( n + m + t 2 ) u^2\geq C^2K^2(n+m+t^2) u2C2K2(n+m+t2),选择合适的 C C C,使得 c u 2 / K 2 ≥ 3 ( n + m ) + t 2 cu^2/K^2\geq 3(n+m)+t^2 cu2/K23(n+m)+t2,有
P ( ∣ ∣ A ∣ ∣ ≥ 2 u ) ≤ 9 n + m ⋅ 2 exp ⁡ ( − 3 ( n + m ) − t 2 ) ≤ 2 exp ⁡ ( − t 2 ) (6) P(||A||\geq 2u)\leq 9^{n+m} \cdot 2\exp(-3(n+m)-t^2)\leq 2\exp(-t^2)\tag{6} P(A2u)9n+m2exp(3(n+m)t2)2exp(t2)(6)
于是,任意 t > 0 t>0 t>0
P { ∣ ∣ A ∣ ∣ ≤ 2 C K ( m + n + t ) } ≥ 1 − 2 exp ⁡ ( − t 2 ) . P\{||A||\leq 2CK(\sqrt{m}+\sqrt{n}+t)\}\geq 1-2\exp(-t^2). P{A2CK(m +n +t)}12exp(t2).
成立。

m = n m=n m=n时,可以取 u = C K ( n + t ) u=CK(\sqrt{n}+t) u=CK(n +t),由上式可以得到
P { ∣ ∣ A ∣ ∣ ≤ 2 C K ( n + t ) } ≥ 1 − 2 exp ⁡ ( − t 2 ) . P\{||A||\leq 2CK(\sqrt{n}+t)\}\geq 1-2\exp(-t^2). P{A2CK(n +t)}12exp(t2).

当A是 n × n n\times n n×n的对称矩阵,可以把A分解成上三角矩阵 A + A^+ A+和下三角矩阵 A − A^- A,有 ∣ ∣ A ∣ ∣ ≤ ∣ ∣ A + ∣ ∣ + ∣ ∣ A − ∣ ∣ ||A||\leq ||A^+||+||A^-|| AA++A,有
P ( ∣ ∣ A ∣ ∣ ≤ 4 u ) ≥ P ( { ∣ ∣ A + ∣ ∣ ≤ 2 u } ∩ { ∣ ∣ A − ∣ ∣ ≤ 2 u } ) ≥ 1 − 4 exp ⁡ ( − t 2 ) P(||A||\leq 4u)\geq P(\{||A^+||\leq 2u \}\cap \{||A^-||\leq 2u \})\geq 1-4\exp(-t^2) P(A4u)P({A+2u}{A2u})14exp(t2)
重新定义常数 C C C,得到
P { ∣ ∣ A ∣ ∣ ≤ C K ( n + t ) } ≥ 1 − 4 exp ⁡ ( − t 2 ) . (7) P\{||A||\leq CK(\sqrt{n}+t)\}\geq 1-4\exp(-t^2). \tag{7} P{ACK(n +t)}14exp(t2).(7)
注意到文章一开始的不等式中的 R R R满足均值为0,各个分量独立且为次高斯随机变量,选择 t = n t=\sqrt{n} t=n 并重新选择常数 C C C,有
P ( ∣ ∣ R ∣ ∣ ≤ C n ) ≥ 1 − 4 e − n . P(||R||\leq C\sqrt{n})\geq1-4e^{-n}. P(RCn )14en.
成立。

于是噪声 R R R在渐进意义上远小于信号 E [ A ] E[A] E[A],为利用图的邻接矩阵 A A A来研究总体 E [ A ] E[A] E[A]的性质提供了理论保证。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值