高维统计学 第一章读书笔记 高维数据与大数定律和中心极限定理

这篇博客探讨了经典统计理论在高维数据问题中的应用,揭示了在d<n时,弱大数定律和中心极限定理依然适用。然而,当d接近或超过n时,这些定律失效。文章通过模拟实验展示了高维统计中,如硬阈值近似,如何提供新的解决方案,并指出高维数据环境下,经典统计理论需要被现代统计方法替代。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

高维统计学 第一章读书笔记 高维数据与大数定律和中心极限定理

这一篇以简单的正态均值估计为例浅谈一下传统统计理论中最为重要的大数定律与中心极限定理在高维数据问题中可能遇到的问题。

经典统计

考虑最基础的正态总体均值估计问题: X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn是来自 d d d维正态总体 N ( μ , σ 2 I d ) , σ 2 < ∞ N(\mu,\sigma^2I_d),\sigma^2<\infty N(μ,σ2Id),σ2<的简单随机样本,我们想要得到 μ \mu μ的估计量。在经典统计理论中,最优的估计量是样本均值 X ˉ = ∑ i = 1 n X i / n \bar X=\sum_{i=1}^n X_i/n Xˉ=i=1nXi/n。如果 d < n d<n d<n d d d为固定的常数,那么基于弱大数定律, X ˉ → p μ \bar X \overset{p}{\to}\mu Xˉpμ,即样本均值是一个一致估计。根据中心极限定理还可以得到 n ( X ˉ − μ ) / σ → d N ( 0 , I d ) \sqrt n (\bar X-\mu)/\sigma \overset{d}{\to} N(0,I_d) n (Xˉμ)/σdN(0,Id),即样本均值具有渐近正态性。


我们可以用一个简单的模拟实验验证上述观点。考虑 μ \mu μ是一个 d d d维的所有元素均为0的向量, σ 2 = 1 \sigma^2=1 σ2=1,则总体各个维度独立同分布于标准正态分布。我们从这样的总体中采样,设样本量为seq(50,1000,50),计算其样本均值,考虑 m m m次重复实验,并计算所有重复实验的平均结果 ∑ i = 1 m ( X ˉ ( i ) ) 2 / m \sum_{i=1}^m (\bar X^{(i)})^2/m i=1m(Xˉ(i))2/m,以此衡量估计量相对总体均值0的偏离程度,根据弱大数定律,当 n → ∞ n \to \infty n时, ∑ i = 1 m ( X ˉ ( i ) ) 2 / m → p 0 \sum_{i=1}^m (\bar X^{(i)})^2/m \overset{p}{\to}0 i=1m(Xˉ(i))2/mp0

首先考虑 d = 20 d=20 d=20,即维度固定并小于样本量,可以发现随着样本量上升,样本均值相对总体均值的偏离程度逐渐下降,这符合弱大数定律的预测。

n = seq(50,1000,50) # simple size
L = length(n)
d = 20 # dimension, fixed and less than sample size
m = 50 # number of replcates

bias0 = rep(0,L) # record the bias under different sample size
for (i in 1:L) {
  for (j in 1:m) {
    ## sampling from N(0,I_d)
    X = matrix(rnorm((d*n[i]),0,1),d,n[i])
    bias0[i] = bias0[i] + sqrt(sum((rowMeans(X))^2))/m
  }
}
plot(bias0~n)

在这里插入图片描述


接下来考虑 d = 1000 d=1000 d=1000,即维度固定但大于样本量,可以发现虽然总的来说偏离程度更大了,但是随着样本量上升,样本均值相对总体均值的偏离程度依然在逐渐下降,这依然符合弱大数定律的预测,也就是说只要维度是固定的,经典统计理论依然适用。

n = seq(50,1000,50) # simple size
L = length(n)
d = 1000 # dimension, fixed and greater than sample size
m = 50 # number of replcates

bias0 = rep(0,L) # record the bias under different sample size
for (i in 1:L) {
  for (j in 1:m) {
    ## sampling from N(0,I_d)
    X = matrix(rnorm((d*n[i]),0,1),d,n[i])
    bias0[i] = bias0[i] + sqrt(sum((rowMeans(X))^2))/m
  }
}
plot(bias0~n)

在这里插入图片描述


最后我们讨论一种特殊情况,假设 d = n d=\sqrt n d=n ,也就是维度不再固定了,但是 d / n → 0 d/n\to0 d/n0依然成立,在这种情况下,随着样本量上升,样本均值相对总体均值的偏离程度同样在逐渐下降,也就是说,经典统计适用的场景可以概括为 d / n → 0 d/n \to 0 d/n0

n = seq(50,1000,50) # simple size
L = length(n)
d = floor(sqrt(n)) # dimension, nonlinear on sample size
m = 50 # number of replcates

bias0 = rep(0,L) # record the bias under different sample size
for (i in 1:L) {
  for (j in 1:m) {
    ## sampling from N(0,I_d)
    X = matrix(rnorm((d[i]*n[i]),0,1),d[i],n[i])
    bias0[i] = bias0[i] + sqrt(sum((rowMeans(X))^2))/m
  }
}
plot(bias0~n)

在这里插入图片描述


高维统计

既然我们发现传统统计理论的适用范围是 d / n → 0 d/n \to 0 d/n0,那么与之相对的,满足 d / n → α > 0 d/n \to \alpha>0 d/nα>0的统计一般被称为现代统计或者高维统计。在经典统计理论中,考虑对样本均值与总体均值之间的欧式距离的平方求期望(这是上文模拟实验中使用的衡量偏离程度的指标)
E [ ∥ X ˉ − μ ∥ 2 ] = E [ ∑ i = 1 d ( X ˉ i − μ ) 2 ] = d E [ ( X ˉ 1 − μ ) 2 ] = d V a r ( X ˉ 1 ) = d σ 2 n → 0 \begin{aligned}E[\left\| \bar X-\mu \right\|^2] & = E \left[ \sum_{i=1}^d (\bar X_i-\mu)^2\right] \\ & = d E[(\bar X_1-\mu)^2] \\ & = d Var(\bar X_1)=\frac{d\sigma^2}{n}\to 0\end{aligned} E[Xˉμ2]=E[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值