UA MATH567 高维统计II 随机向量1 随机向量的范数
这是高维统计理论的第二部分,这一部分的任务是把第一部分介绍的分析一元随机变量的concentration与尾部概率的方法推广到随机向量。推广的思路是将随机向量这种高维的结构化归为一维的结构进行研究,比较容易想到的是随机向量的范数、随机向量在某个向量上的投影以及上一部分末尾提到的Lipschitz组合等,这些量都是一维的随机变量,我们可以通过研究这类随机变量的性质,进而去理解随机向量的concentration与尾部概率行为。这一讲我们先研究随机向量的范数:
假设 X = ( X 1 , ⋯ , X n ) X=(X_1,\cdots,X_n) X=(X1,⋯,Xn), X i X_i Xi是独立、零均值、方差为1的随机变量(我们假设这一讲讨论的所有随机变量都是如此),则
E ∥ X ∥ 2 2 = E ∑ i = 1 n X i 2 = n E \left\|X \right\|_2^2 = E \sum_{i=1}^n X_i^2 = n E∥X∥22=Ei=1∑nXi2=n
这说明 ∥ X ∥ 2 \left\|X \right\|_2 ∥X∥2的concentration是 n \sqrt{n} n,我们想知道的是how concentrated ∥ X ∥ 2 \left\|X \right\|_2 ∥X∥2 is around n \sqrt{n} n?
L2-Norm的Concentration 假设 X X X是每个分量都是独立亚高斯的 n n n维随机变量,假设它的每个分量二阶矩均为1, K = max 1 ≤ i ≤ N ∥ X i ∥ ψ 2 K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_2} K=max1≤i≤N∥Xi∥ψ2,则 ∃ C > 0 \exists C>0 ∃C>0
∥ ∥ X ∥ 2 − n ∥ ψ 2 ≤ C K 2 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} \le CK^2 ∥∥∥X∥2−n∥∥ψ2≤CK2
评述 这是一个non-asymptotic result,对亚高斯范数不太了解的读者可能会不明觉厉,所以我们可以结合亚高斯性和亚高斯范数简单理解一下。首先这个不等式说明 ∥ X ∥ 2 − n \left\| X\right\|_{2}-\sqrt{n} ∥X∥2−n的亚高斯范数有界,也就是 ∥ X ∥ 2 − n \left\| X\right\|_{2}-\sqrt{n} ∥X∥2−n是亚高斯随机变量,于是它的tail probability满足
P ( ∣ ∥ X ∥ 2 − n ∣ ≥ t ) ≤ 2 exp ( − c t 2 / ∥ ∥ X ∥ 2 − n ∥ ψ 2 2 ) ≤ 2 exp ( − c t 2 C 2 K 4 ) , ∀ t > 0 P(|\left\| X\right\|_{2}-\sqrt{n}|\ge t) \le 2\exp(-ct^2/\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2}^2) \\ \le 2\exp(-\frac{ct^2}{C^2K^4}),\forall t>0 P(∣∥X∥2−n∣≥t)≤2exp(−ct2/∥∥∥X∥2−n∥∥ψ22)≤2exp(−C2K4ct2),∀t>0
也就是tail probability的阶被控制为 e − t 2 e^{-t^2} e−t2。
说明 我们可以直观理解一下这个不等式, ∥ ∥ X ∥ 2 − n ∥ ψ 2 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} ∥∥X∥2−n∥ψ2可以理解为 ∥ X ∥ 2 \left\| X\right\|_{2} ∥X∥2与 n \sqrt{n} n的距离,这个不等式说明它们之间的距离是有界的。事实上对于这里的亚高斯分布,
E ∑ i = 1 n X i 2 = n , V a r ∑ i = 1 n X i 2 = O ( n ) E \sum_{i=1}^n X_i^2=n,Var \sum_{i=1}^n X_i^2 = O(n) Ei=1∑nXi2=n,Vari=1∑nXi2=O(n)
类比正态分布的性质,从直觉上讲 ∑ i = 1 n X i 2 \sum_{i=1}^nX_i^2 ∑i=1nXi2的概率集中在 [ μ − σ , μ + σ ] [\mu-\sigma,\mu+\sigma] [μ−σ,μ+σ]上,也就是 [ n − O ( n ) , n + O ( n ) ] [n-O(\sqrt{n}),n+O(\sqrt{n})] [n−O(n),n+O(n)]上,因此 ( ∑ i = 1 n X i 2 ) 1 / 2 (\sum_{i=1}^nX_i^2)^{1/2} (∑i=1nXi2)1/2的概率集中在 [ n − O ( n ) , n + O ( n ) ] [\sqrt{n-O(\sqrt{n})},\sqrt{n+O(\sqrt{n})}] [n−O(n),n+O(n)]上,因为(证明见末尾)