一个关于随机矩阵谱范数的不等式

最新推荐文章于 2022-12-21 19:09:03 发布

gggggakkiiiiii

最新推荐文章于 2022-12-21 19:09:03 发布

阅读量665

点赞数

分类专栏：统计学笔记文章标签：矩阵概率论统计学

本文链接：https://blog.csdn.net/weixin_43670213/article/details/127829232

版权

统计学笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一个关于随机矩阵谱范数的不等式

在许多随机图模型的问题中，采用图的邻接矩阵 $A$ 来研究总体 $E [A]$ 的性质,前者是 $n\times n$ 的随机矩阵。这样做之所以可行，是因为A和 $E [A]$ 在渐进意义上足够接近。假设A是对称矩阵，即研究对象是无向图，可以采取谱范数作为这一距离的度量，谱范数的定义为：
$||A||:=max_{x\in R^n/0}\frac{||Ax ||_2}{||x||_2}$
也就是A的最大的特征值。从上式可以看出，当每一顶点的度 $d_n$ （即 $E [A]$ 每一行的和）与n同阶时，有 $||A||\asymp n$ 。于是希望 $∣ ∣ A - E [A] ∣ ∣$ 的阶数更小。事实上，记 $R = A - E [A]$ ，有
$P(||R||\leq C\sqrt{n})\geq1-4e^{-n}.$
即为主要讨论和证明的不等式。

次高斯元素随机矩阵的谱范数

考虑更一般的情况。

定理1： $A$ 为 $m\times n$ 的随机矩阵，其中各个元素 $A_{ij}$ 是均值为零的独立的次高斯随机变量。则对任意 $t > 0$ ,有
$P\{||A||\leq CK(\sqrt{m}+\sqrt{n}+t)\}\geq 1-e^{-t^2}.$
$K=max_{i,j}||A_{i,j}||_{\psi_2}$ 为最大次高斯范数， $C$ 为合适的常数。

考虑到 $∣ ∣ A ∣ ∣$ 为A的最大奇异值，有 $||A||=max_{x\in S^{n-1}, y\in S^{m-1}}{\langle Ax,y \rangle}$ ， $S^{n-1}$ 表示n维单位球面。对于固定的xy， ${\langle Ax,y \rangle}$ 也是次高斯随机变量。证明分成三步进行，第一步对初步估计 $∣ ∣ A ∣ ∣$ ，利用 $\epsilon$ -net给出 $∣ ∣ A ∣ ∣$ 的一个略大的近似；第二步利用 ${\langle Ax,y \rangle}$ 的次高斯性得到固定xy时的尾部概率的上界；第三步结合前两步，得到 ${\langle Ax,y \rangle}$ 对xy一致的尾部概率上界，选择足够大C，放缩得到最后的不等式。

第一步

首先引入覆盖数（covering number）和填充数（packing number）的概念。

简单来说，在一个距离空间中（不妨设为欧氏空间），对于一个集合 $K$ ，可以被圆心在 $K$ 内，半径为 $\epsilon$ 的圆覆盖，这些圆心构成的点集成为一个 $K$ 的 $\epsilon$ -net，满足条件的条件的最小的圆心个数，称为K的覆盖数（covering number），记为 $\mathcal{N}(K,\epsilon)$ 。同样的，圆心在 $K$ 内，半径为 $\epsilon/2$ 的圆，且这些圆互不相交，即任意两个圆心的距离大于 $\epsilon$ ，这些圆心构成的点集称为一个 $K$ 的 $\epsilon$ -separated，满足条件的条件的最大的圆心个数，称为K的填充数（packing number），记为 $\mathcal{P}(K,\epsilon)$ 。

引理1.1： 令 $K\in R^n$ ， $\epsilon >0$ ， $B_{2}^n$ 表示 $R^n$ 空间中的单位球，| . |表示体积，集合间的加法定义为闵可夫斯基和(Minkowski sum)，则
$\frac{|K|}{|\epsilon B_{2}^n|}\leq \mathcal{N}(K,\epsilon)\leq \mathcal{P}(K,\epsilon)\leq \frac{|K+(\epsilon/2) B_{2}^n|}{|(\epsilon/2) B_{2}^n|}$

证明： 只证明中间的不等式。只需要说明， $K$ 的最大的 $\epsilon$ -separated，记为 $\mathcal{P}$ ，是一个 $\epsilon$ -net。对任意 $x\in K$ ，如果 $x\in \mathcal{P}$ ，则有 $x_0=x\in \mathcal{P}$ ，使得 $d(x_0,x)=0<\epsilon$ ；如果 $x\notin \mathcal{P}$ ，则由 $\mathcal{P}$ 的最大性， $\mathcal{P}\cup\{x\}$ 不是一个 $\epsilon$ -separated，即存在 $x_0\in \mathcal{P}$ ，使得 $d(x_0,x)<\epsilon$ 。于是 $\mathcal{P}$ 是一个 $\epsilon$ -net， $\epsilon$ -net中点的个数一定比最小 $\epsilon$ -net中的大。

取 $K=B_{2}^n$ ，即有
$(\frac{1}{\epsilon })^n\leq \mathcal{N}(B_{2}^n,\epsilon)\leq (\frac{2}{\epsilon }+1)^n \tag{1}$

引理1.2： A是一个 $m\times n$ 的矩阵， $\epsilon \in [0,1/2)$ ， $\mathcal{N}$ 是 $S^{n-1}$ 的任意一个 $\epsilon$ -net， $\mathcal{M}$ 是 $S^{m-1}$ 的任意一个 $\epsilon$ -net，有
$||A||\leq \frac{1}{1-2\epsilon} \sup_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle} \tag{2}$
证明： 固定xy，使得 $||A||={\langle Ax,y \rangle}$ ，取 $x_0\in \mathcal{N}, y_0\in \mathcal{M}$ ，满足$||x-x_0||<\epsilon ,||y-y_0||<\epsilon $。则
$\begin{aligned} {\langle Ax,y \rangle}-{\langle Ax_0,y_0 \rangle}&={\langle Ax,y-y_0 \rangle}+{\langle A(x-x_0),y_0 \rangle}\\ &\leq \epsilon ||Ax||_2 +\epsilon ||Ay_0||_2\\ &\leq 2\epsilon ||A|| \end{aligned}$
引理1.1.2给出了 $∣ ∣ A ∣ ∣$ 的一个略大的近似。

第二步

对于固定xy， ${\langle Ax,y \rangle}=\sum_{i=1}^m\sum_{j=1}^n A_{ij}x_jy_i$ 是独立次高斯随机变量的和，有
$\begin{aligned} || {\langle Ax,y \rangle}||_{\psi_2}^2\leq C\sum_{i=1}^m\sum_{j=1}^n ||A_{ij}||_{\psi_2}^2 x_i^2y_i^2\leq CK^2 \end{aligned}$
$K=\max_{i,j} ||A_{ij}||_{\psi_2}$ 。由次高斯性质，任意 $u > 0$ ，有
$P({\langle Ax,y \rangle}\geq u)\leq 2\exp(-cu^2/K^2) \tag{3}$
上式中 $C, c$ 为常数。

第三步

我们考虑 $x\in \mathcal{N}, y\in \mathcal{M}$ 上尾部概率的一致上界，
$P(\max_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle}\geq u)\leq \sum_{x\in \mathcal{N},y\in \mathcal{M}} P({\langle Ax,y \rangle}\geq u) \tag{4}$

第四步

这一步，我们结合上面步骤。取 $\epsilon = 1/4$ ，由式 $(1)$ 有
$|\mathcal{N}|\leq 9^n,\ |\mathcal{M}|\leq 9^m.$
根据引理1.1.2有
$||A||\leq 2\sup_{x\in \mathcal{N},y\in \mathcal{M}}{\langle Ax,y \rangle}$
再结合式 $(3)$ ，式 $(4)$ 右端可以放大；结合引理1.1.2，式 $(4)$ 左端可以缩小，则有
$P(||A||\geq 2u)\leq 9^{n+m} \cdot 2\exp(-cu^2/K^2) \tag{5}$
对任意 $u > 0$ 成立。取 $u=CK(\sqrt{n}+\sqrt{m}+t)$ ， $u^2\geq C^2K^2(n+m+t^2)$ ，选择合适的 $C$ ，使得 $cu^2/K^2\geq 3(n+m)+t^2$ ，有
$P(||A||\geq 2u)\leq 9^{n+m} \cdot 2\exp(-3(n+m)-t^2)\leq 2\exp(-t^2)\tag{6}$
于是，任意 $t > 0$
$P\{||A||\leq 2CK(\sqrt{m}+\sqrt{n}+t)\}\geq 1-2\exp(-t^2).$
成立。

当 $m = n$ 时，可以取 $u=CK(\sqrt{n}+t)$ ，由上式可以得到
$P\{||A||\leq 2CK(\sqrt{n}+t)\}\geq 1-2\exp(-t^2).$

当A是 $n\times n$ 的对称矩阵，可以把A分解成上三角矩阵 $A^+$ 和下三角矩阵 $A^-$ ，有 $||A||\leq ||A^+||+||A^-||$ ，有
$P(||A||\leq 4u)\geq P(\{||A^+||\leq 2u \}\cap \{||A^-||\leq 2u \})\geq 1-4\exp(-t^2)$
重新定义常数 $C$ ，得到
$P\{||A||\leq CK(\sqrt{n}+t)\}\geq 1-4\exp(-t^2). \tag{7}$
注意到文章一开始的不等式中的 $R$ 满足均值为0，各个分量独立且为次高斯随机变量，选择 $t=\sqrt{n}$ 并重新选择常数 $C$ ，有
$P(||R||\leq C\sqrt{n})\geq1-4e^{-n}.$
成立。