大数定律与中心极限定理

最新推荐文章于 2024-10-10 22:59:29 发布

泥壶映雪

最新推荐文章于 2024-10-10 22:59:29 发布

阅读量1.3k

点赞数

分类专栏： R 统计学文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/weixin_46649908/article/details/130596247

版权

R 同时被 2 个专栏收录

37 篇文章 3 订阅

订阅专栏

统计学

15 篇文章 1 订阅

订阅专栏

本文详细介绍了概率论中的大数定律与中心极限定理，包括切比雪夫不等式在正态分布和任意分布情形下的应用，以及大数定律的几种形式，如依概率收敛、频率与概率的关系、切比雪夫大数定律和辛钦大数定律。此外，还探讨了伯努利大数定律，并通过实例解释了中心极限定理，展示了非正态分布随机变量序列在大样本下的正态分布逼近特性。

摘要由CSDN通过智能技术生成

大数定律与中心极限定理

文章目录

大数定律与中心极限定理
@[toc]
1 切比雪夫不等式
1.1 正态分布情形
1.2 任意分布情形

2 大数定律
2.1 依概率收敛
2.2 频率与概率
2.2 切比雪夫大数定律
2.3 辛钦大数定律
2.4 伯努利大数定律

3 中心极限定理
3.1 列维-林德伯格(Levy-lindberg)中心极限定理
3.2 德莫弗 -拉普拉斯(De Moivre-Laplace)中心极限定理

1 切比雪夫不等式

1.1 正态分布情形

假设 $X\sim N(\mu,\sigma^2)$ , $\mu=EX$ 表示随机变量 $X$ 的期望，则随机变量 $X$ 偏离其期望的概率为
$P(|X-\mu|< k \sigma)$
🌲当 $k = 1$ ,随机变量 $X$ 偏离 $\mu$ 的距离不超过一单位标准差的概率为

$P(|X-\mu|< \sigma)=2 \Phi(1)-1 =0.683$
🌳当 $k = 2$ ,随机变量 $X$ 偏离 $\mu$ 的距离不超过两单位标准差的概率为
$P(|X-\mu|< 2\sigma)=2 \Phi(2)-1 =0.955$
🎄当 $k = 3$ ,随机变量 $X$ 偏离 $\mu$ 的距离不超过三单位标准差的概率为
$P(|X-\mu|< 3\sigma)=2 \Phi(3)-1 =0.977$
对于正态随机变量，其对期望的偏离不超过3倍标准差的概率达到97.7%，可以认为绝大部分随机变量的值域 $\Omega_X$ 落在区间 $[-3\sigma,3\sigma]$ ，这一结论称为 $3\sigma$ 准则。对于正态分布可以精确计算出随机变量偏离期望的概率，那么任意分布的随机变量与期望的偏离概率如何计算呢？

1.2 任意分布情形

设任意分布的随机变量 $X$ , $EX=\mu$ , $DX=\sigma^2$ ,对于 $\forall \varepsilon>0$ ，均有不等式
$P(|X-\mu| \geqslant \varepsilon) \leqslant \frac{\sigma^2}{\varepsilon^2} .$
恒成立。根据对立事件性质得
$P(|X-\mu|<\varepsilon) \geqslant 1-\frac{\sigma^2}{\varepsilon^2} .$
切比雪夫不等式表明任意随机变量 $X$ 与期望的偏离小于任意的 $\varepsilon>0$ 的概率不小于 $1-\sigma^2/\varepsilon^2$ 。这一公式在理论研究有用，但实际计算中，概率范围的估计粗糙。例如取 $\varepsilon=\sigma$ ,则
$P(|X-\mu|<\sigma) \geqslant 0$
根据概率公理化定义，这是显然的事实，难以精确计算出随机变量与期望偏离小于单位 $\sigma$ 的概率。

2 大数定律

2.1 依概率收敛

设 $X_1、X_2\dots$ 为随机变量序列，存在常数 $c$ ，对于 $\forall \varepsilon>0$ ,总有
$\lim _{n \rightarrow \infty} P\left(\left|X_n-c\right|<\varepsilon\right)=1$
则随机变量序列 $X_1、X_2\dots$ 依概率收敛于 $c$ ，记作 $X_n \stackrel{P}{\longrightarrow} c$ 。与数列极限不同，这里随着 $n$ 次试验的重复而不同。根据对立事件公式
$\lim _{n \rightarrow \infty} P\left(\left|X_n-c\right| \geqslant \varepsilon\right)=0$

2.2 频率与概率

在 $n$ 重伯努利试验中，事件 $A$ 发生 $N_A$ 次，其中 $N_A\sim B(n,p)$ , $p = P (A)$ ,频率 $f_n = N_A/n$ 。有时我们会用频率作为事件发生的概率(在大量重复试验下)，考虑 $\forall \varepsilon>0$ ，根据切比雪夫不等式有
$P\left(\left|f_n-p\right| \geqslant \varepsilon\right) \leqslant \frac{1}{\varepsilon^2} D(f_n)=\frac{p(1-p)}{n \varepsilon^2} \longrightarrow 0 .$
其中 $E(f_n) = \dfrac{1}{n}E(N_A)=p$ ， $D(f_n)=\dfrac{1}{n^2}D(N_A)=p(1-p)$ 。因此在大量重复试验下 $n\to \infty$ 时，事件A的频率依概率收敛对应的概率 $\dfrac{N_A}{n} \stackrel{P}{\longrightarrow} p$ 。

2.2 切比雪夫大数定律

设 $X_1,X_2\dots$ 是两两独立的随机序列， $DX_i(i=1,2\dots )$ 有界，则
$\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right) =\frac{\sum_{i=1}^n [X_i-E\left(X_i\right)]}{n} \stackrel{P}{\longrightarrow} 0 .$
若 $EX_i=\mu$ ，即所有随机序列的期望均相等，则有
$\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\longrightarrow} \mu .$
事实上，方差不存在依然成立。

N <- 100000
n <- 20000
df <- 2
set.seed(2)
Z <- rchisq(N, df)
x <- numeric()
for (i in 1:n) {
  set.seed(i)
  x[i] <- sample(Z, 1)
  mean_X <- mean(x)
  # 总体期望mu = df 
  cat("n=", i, "依概率收敛：", "mean_X-df--->", mean_X - df, "\n")
}

2.3 辛钦大数定律

$X_1,X_2\dots$ 服从独立同分布 $ii d$ 的随机变量序列，且 $EX_i=\mu$ , $D(X_i)=\sigma^2$ ,则
$\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\longrightarrow} \mu .$
$X_1,X_2\dots$ 为 $ii d$ ， $EX_i=\mu$ ， $D(X_i)=\sigma^2$ ，
$\frac{1}{n} \sum_{i=1}^n X_i^2 \stackrel{P}{\longrightarrow} \frac{1}{n} \sum_{i=1}^n E\left(X_i^2\right)=\sigma^2+\mu^2$
其中 $E(X_i^2) = D(X_i)+(EX_i)^2=\sigma^2+\mu^2$

rm(list=ls())
N <- 100000
n <- 100000
df <- 8
Z <- rt(N,df)
x <- numeric()

for (i in 1:n) {
  set.seed(i)
  x[i] <- sample(Z, 1)^2
  mean_X2 <- mean(x)
  cat("n=", i, "mean_X2-(mu^2+sigma^2)依概率收敛", "--->", mean_X2-df/(df-2), "\n")
}

2.4 伯努利大数定律

$X_1,X_2\dots$ 是iid随机序列，且 $X_i\sim B(1,p)$ ,则
$\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\longrightarrow} p .$
基于辛钦大数定律，这里随机变量期望 $EX_i=p$ 。

N <- 100000
n <- 100000
df <- 8
set.seed(100)
p <- 0.5
Z <- rbinom(N, 1, p)
x <- numeric()

for (i in 1:n) {
  set.seed(i)
  x[i] <- sample(Z, 1)
  mean_X <- mean(x)
  cat("n=", i, "mean_X-p 依概率收敛", "--->", mean_X - p, "\n")
}

3 中心极限定理

后续均假设随机变量序列 $X_1,X_2\dots\sim iid$ ， $EX_i=\mu_i$ , $DX_i=\sigma^2$ ， $i=1,2\dots n$ 。

👉当随机变量序列 $X_i\sim N(\mu_i,\sigma^2)$ ，则根据正态分布的可加性得 $\sum_i^nX_i\sim N(n\mu,n\sigma^2)$ ，对于任意 $\forall \varepsilon>0$ ,则随机变量 $\sum_i^nX_i$ 偏离其均值的距离小于 $\varepsilon$ 的概率为
$\begin{aligned} P(|\sum_i^nX_i-n\mu| \le \varepsilon)&=P\left(\left| \dfrac{\sum_i^nX_i-n\mu}{\sqrt{n}\sigma}\right | \le \dfrac{\varepsilon}{\sqrt{n}\sigma} \right) \\ &=\Phi(\dfrac{\varepsilon}{\sqrt{n}\sigma})-\Phi(-\dfrac{\varepsilon}{\sqrt{n}\sigma})\\ &=1-2\Phi(\dfrac{\varepsilon}{\sqrt{n}\sigma}) \end{aligned}$
👉当随机变量序列 $X_i$ 不服从正态分布时，只要 $n$ 足够大，则 $\sum_i^nX_i$ 也近似服从正态分布，关于这一结论称为中心极限定理。

3.1 列维-林德伯格(Levy-lindberg)中心极限定理

随机变量序列 $X_1,X_2\dots\sim iid$ ，且
$E\left(X_i\right)=\mu, \quad D\left(X_i\right)=\sigma^2>0, \quad i=1,2, \cdots,$
对于任意 $x\in R$ ，有
$\lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma} \leqslant x\right)=\Phi(x),$
其中 $\Phi(x)$ 为 $N (0, 1)$ 的分布函数。这一定理意味着无论 $X_1,X_2\dots\sim iid$ 属于什么分布，只要 $n\to \infty$ ，
$\frac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma}\sim N(0,1);\sum_{i=1}^n X_i\sim N(n \mu,n\sigma^2)$
或者
$\begin{aligned} \dfrac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma}&=\dfrac{n(\dfrac{1}{n}\sum_{i=1}^n X_i-\mu)}{\sqrt{n} \sigma}\\ \\ &=\sqrt{n}\dfrac{(\bar{X}-\mu)}{\sigma}\\ \\ &=\dfrac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}\sim N(0,1) \end{aligned}$
因此，当 $n\to \infty$ 时， $\bar{X}=\frac{\sum_i^nX}{n}\sim N(\mu,\sigma^2/n)$ 。

3.2 德莫弗 -拉普拉斯(De Moivre-Laplace)中心极限定理

该定理是Levy-lindberg中心极限定理特列,假设随机变量服从伯努利分布，并应用Levy-lindberg中心极限定理。

随机变量序列 $X_1,X_2\dots\sim iid$ ，且 $X_i\sim B(1,p)$ ，则 $x\in R$ 有
$\lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^n X_i-n p}{\sqrt{n p(1-p)}} \leqslant x\right)=\Phi(x) .$
当 $n\to \infty$ 时， $\bar{X}=\frac{\sum_i^nX}{n}\sim N(p,p(1-p)/n)$ 。事实上，二项分布具有可加性 $\sum_{i=1}^n X_i \sim B(n, p)$ ，期望为 $n p$ ，方差 $n p (1 - p)$ 。