高维统计学 第一章读书笔记 高维数据与大数定律和中心极限定理
这一篇以简单的正态均值估计为例浅谈一下传统统计理论中最为重要的大数定律与中心极限定理在高维数据问题中可能遇到的问题。
经典统计
考虑最基础的正态总体均值估计问题: X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是来自 d d d维正态总体 N ( μ , σ 2 I d ) , σ 2 < ∞ N(\mu,\sigma^2I_d),\sigma^2<\infty N(μ,σ2Id),σ2<∞的简单随机样本,我们想要得到 μ \mu μ的估计量。在经典统计理论中,最优的估计量是样本均值 X ˉ = ∑ i = 1 n X i / n \bar X=\sum_{i=1}^n X_i/n Xˉ=∑i=1nXi/n。如果 d < n d<n d<n且 d d d为固定的常数,那么基于弱大数定律, X ˉ → p μ \bar X \overset{p}{\to}\mu Xˉ→pμ,即样本均值是一个一致估计。根据中心极限定理还可以得到 n ( X ˉ − μ ) / σ → d N ( 0 , I d ) \sqrt n (\bar X-\mu)/\sigma \overset{d}{\to} N(0,I_d) n(Xˉ−μ)/σ→dN(0,Id),即样本均值具有渐近正态性。
我们可以用一个简单的模拟实验验证上述观点。考虑 μ \mu μ是一个 d d d维的所有元素均为0的向量, σ 2 = 1 \sigma^2=1 σ2=1,则总体各个维度独立同分布于标准正态分布。我们从这样的总体中采样,设样本量为seq(50,1000,50)
,计算其样本均值,考虑 m m m次重复实验,并计算所有重复实验的平均结果 ∑ i = 1 m ( X ˉ ( i ) ) 2 / m \sum_{i=1}^m (\bar X^{(i)})^2/m ∑i=1m(Xˉ(i))2/m,以此衡量估计量相对总体均值0的偏离程度,根据弱大数定律,当 n → ∞ n \to \infty n→∞时, ∑ i = 1 m ( X ˉ ( i ) ) 2 / m → p 0 \sum_{i=1}^m (\bar X^{(i)})^2/m \overset{p}{\to}0 ∑i=1m(Xˉ(i))2/m→p0。
首先考虑 d = 20 d=20 d=20,即维度固定并小于样本量,可以发现随着样本量上升,样本均值相对总体均值的偏离程度逐渐下降,这符合弱大数定律的预测。
n = seq(50,1000,50) # simple size
L = length(n)
d = 20 # dimension, fixed and less than sample size
m = 50 # number of replcates
bias0 = rep(0,L) # record the bias under different sample size
for (i in 1:L) {
for (j in 1:m) {
## sampling from N(0,I_d)
X = matrix(rnorm((d*n[i]),0,1),d,n[i])
bias0[i] = bias0[i] + sqrt(sum((rowMeans(X))^2))/m
}
}
plot(bias0~n)
接下来考虑 d = 1000 d=1000 d=1000,即维度固定但大于样本量,可以发现虽然总的来说偏离程度更大了,但是随着样本量上升,样本均值相对总体均值的偏离程度依然在逐渐下降,这依然符合弱大数定律的预测,也就是说只要维度是固定的,经典统计理论依然适用。
n = seq(50,1000,50) # simple size
L = length(n)
d = 1000 # dimension, fixed and greater than sample size
m = 50 # number of replcates
bias0 = rep(0,L) # record the bias under different sample size
for (i in 1:L) {
for (j in 1:m) {
## sampling from N(0,I_d)
X = matrix(rnorm((d*n[i]),0,1),d,n[i])
bias0[i] = bias0[i] + sqrt(sum((rowMeans(X))^2))/m
}
}
plot(bias0~n)
最后我们讨论一种特殊情况,假设 d = n d=\sqrt n d=n,也就是维度不再固定了,但是 d / n → 0 d/n\to0 d/n→0依然成立,在这种情况下,随着样本量上升,样本均值相对总体均值的偏离程度同样在逐渐下降,也就是说,经典统计适用的场景可以概括为 d / n → 0 d/n \to 0 d/n→0。
n = seq(50,1000,50) # simple size
L = length(n)
d = floor(sqrt(n)) # dimension, nonlinear on sample size
m = 50 # number of replcates
bias0 = rep(0,L) # record the bias under different sample size
for (i in 1:L) {
for (j in 1:m) {
## sampling from N(0,I_d)
X = matrix(rnorm((d[i]*n[i]),0,1),d[i],n[i])
bias0[i] = bias0[i] + sqrt(sum((rowMeans(X))^2))/m
}
}
plot(bias0~n)
高维统计
既然我们发现传统统计理论的适用范围是 d / n → 0 d/n \to 0 d/n→0,那么与之相对的,满足 d / n → α > 0 d/n \to \alpha>0 d/n→α>0的统计一般被称为现代统计或者高维统计。在经典统计理论中,考虑对样本均值与总体均值之间的欧式距离的平方求期望(这是上文模拟实验中使用的衡量偏离程度的指标)
E [ ∥ X ˉ − μ ∥ 2 ] = E [ ∑ i = 1 d ( X ˉ i − μ ) 2 ] = d E [ ( X ˉ 1 − μ ) 2 ] = d V a r ( X ˉ 1 ) = d σ 2 n → 0 \begin{aligned}E[\left\| \bar X-\mu \right\|^2] & = E \left[ \sum_{i=1}^d (\bar X_i-\mu)^2\right] \\ & = d E[(\bar X_1-\mu)^2] \\ & = d Var(\bar X_1)=\frac{d\sigma^2}{n}\to 0\end{aligned} E[∥∥Xˉ−μ∥∥2]=E[