大数定律与中心极限定理
1 切比雪夫不等式
1.1 正态分布情形
假设
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2),
μ
=
E
X
\mu=EX
μ=EX表示随机变量
X
X
X的期望,则随机变量
X
X
X偏离其期望的概率为
P
(
∣
X
−
μ
∣
<
k
σ
)
P(|X-\mu|< k \sigma)
P(∣X−μ∣<kσ)
🌲当
k
=
1
k=1
k=1,随机变量
X
X
X偏离
μ
\mu
μ的距离不超过一单位标准差的概率为
P
(
∣
X
−
μ
∣
<
σ
)
=
2
Φ
(
1
)
−
1
=
0.683
P(|X-\mu|< \sigma)=2 \Phi(1)-1 =0.683
P(∣X−μ∣<σ)=2Φ(1)−1=0.683
🌳当
k
=
2
k=2
k=2,随机变量
X
X
X偏离
μ
\mu
μ的距离不超过两单位标准差的概率为
P
(
∣
X
−
μ
∣
<
2
σ
)
=
2
Φ
(
2
)
−
1
=
0.955
P(|X-\mu|< 2\sigma)=2 \Phi(2)-1 =0.955
P(∣X−μ∣<2σ)=2Φ(2)−1=0.955
🎄当
k
=
3
k=3
k=3,随机变量
X
X
X偏离
μ
\mu
μ的距离不超过三单位标准差的概率为
P
(
∣
X
−
μ
∣
<
3
σ
)
=
2
Φ
(
3
)
−
1
=
0.977
P(|X-\mu|< 3\sigma)=2 \Phi(3)-1 =0.977
P(∣X−μ∣<3σ)=2Φ(3)−1=0.977
对于正态随机变量,其对期望的偏离不超过3倍标准差的概率达到97.7%,可以认为绝大部分随机变量的值域
Ω
X
\Omega_X
ΩX落在区间
[
−
3
σ
,
3
σ
]
[-3\sigma,3\sigma]
[−3σ,3σ],这一结论称为
3
σ
3\sigma
3σ准则。对于正态分布可以精确计算出随机变量偏离期望的概率,那么任意分布的随机变量与期望的偏离概率如何计算呢?
1.2 任意分布情形
设任意分布的随机变量
X
X
X,
E
X
=
μ
EX=\mu
EX=μ,
D
X
=
σ
2
DX=\sigma^2
DX=σ2,对于
∀
ε
>
0
\forall \varepsilon>0
∀ε>0,均有不等式
P
(
∣
X
−
μ
∣
⩾
ε
)
⩽
σ
2
ε
2
.
P(|X-\mu| \geqslant \varepsilon) \leqslant \frac{\sigma^2}{\varepsilon^2} .
P(∣X−μ∣⩾ε)⩽ε2σ2.
恒成立。根据对立事件性质得
P
(
∣
X
−
μ
∣
<
ε
)
⩾
1
−
σ
2
ε
2
.
P(|X-\mu|<\varepsilon) \geqslant 1-\frac{\sigma^2}{\varepsilon^2} .
P(∣X−μ∣<ε)⩾1−ε2σ2.
切比雪夫不等式表明任意随机变量
X
X
X与期望的偏离小于任意的
ε
>
0
\varepsilon>0
ε>0的概率不小于
1
−
σ
2
/
ε
2
1-\sigma^2/\varepsilon^2
1−σ2/ε2。这一公式在理论研究有用,但实际计算中,概率范围的估计粗糙。例如取
ε
=
σ
\varepsilon=\sigma
ε=σ,则
P
(
∣
X
−
μ
∣
<
σ
)
⩾
0
P(|X-\mu|<\sigma) \geqslant 0
P(∣X−μ∣<σ)⩾0
根据概率公理化定义,这是显然的事实,难以精确计算出随机变量与期望偏离小于单位
σ
\sigma
σ的概率。
2 大数定律
2.1 依概率收敛
设
X
1
、
X
2
…
X_1、X_2\dots
X1、X2…为随机变量序列,存在常数
c
c
c,对于
∀
ε
>
0
\forall \varepsilon>0
∀ε>0,总有
lim
n
→
∞
P
(
∣
X
n
−
c
∣
<
ε
)
=
1
\lim _{n \rightarrow \infty} P\left(\left|X_n-c\right|<\varepsilon\right)=1
n→∞limP(∣Xn−c∣<ε)=1
则随机变量序列
X
1
、
X
2
…
X_1、X_2\dots
X1、X2…依概率收敛于
c
c
c,记作
X
n
⟶
P
c
X_n \stackrel{P}{\longrightarrow} c
Xn⟶Pc。与数列极限不同,这里随着
n
n
n次试验的重复而不同。根据对立事件公式
lim
n
→
∞
P
(
∣
X
n
−
c
∣
⩾
ε
)
=
0
\lim _{n \rightarrow \infty} P\left(\left|X_n-c\right| \geqslant \varepsilon\right)=0
n→∞limP(∣Xn−c∣⩾ε)=0
2.2 频率与概率
在
n
n
n重伯努利试验中,事件
A
A
A发生
N
A
N_A
NA次,其中
N
A
∼
B
(
n
,
p
)
N_A\sim B(n,p)
NA∼B(n,p),
p
=
P
(
A
)
p=P(A)
p=P(A),频率
f
n
=
N
A
/
n
f_n = N_A/n
fn=NA/n。有时我们会用频率作为事件发生的概率(在大量重复试验下),考虑
∀
ε
>
0
\forall \varepsilon>0
∀ε>0,根据切比雪夫不等式有
P
(
∣
f
n
−
p
∣
⩾
ε
)
⩽
1
ε
2
D
(
f
n
)
=
p
(
1
−
p
)
n
ε
2
⟶
0.
P\left(\left|f_n-p\right| \geqslant \varepsilon\right) \leqslant \frac{1}{\varepsilon^2} D(f_n)=\frac{p(1-p)}{n \varepsilon^2} \longrightarrow 0 .
P(∣fn−p∣⩾ε)⩽ε21D(fn)=nε2p(1−p)⟶0.
其中
E
(
f
n
)
=
1
n
E
(
N
A
)
=
p
E(f_n) = \dfrac{1}{n}E(N_A)=p
E(fn)=n1E(NA)=p,
D
(
f
n
)
=
1
n
2
D
(
N
A
)
=
p
(
1
−
p
)
D(f_n)=\dfrac{1}{n^2}D(N_A)=p(1-p)
D(fn)=n21D(NA)=p(1−p)。因此在大量重复试验下
n
→
∞
n\to \infty
n→∞时,事件A的频率依概率收敛对应的概率
N
A
n
⟶
P
p
\dfrac{N_A}{n} \stackrel{P}{\longrightarrow} p
nNA⟶Pp。
2.2 切比雪夫大数定律
设
X
1
,
X
2
…
X_1,X_2\dots
X1,X2…是两两独立的随机序列,
D
X
i
(
i
=
1
,
2
…
)
DX_i(i=1,2\dots )
DXi(i=1,2…)有界,则
1
n
∑
i
=
1
n
X
i
−
1
n
∑
i
=
1
n
E
(
X
i
)
=
∑
i
=
1
n
[
X
i
−
E
(
X
i
)
]
n
⟶
P
0.
\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right) =\frac{\sum_{i=1}^n [X_i-E\left(X_i\right)]}{n} \stackrel{P}{\longrightarrow} 0 .
n1i=1∑nXi−n1i=1∑nE(Xi)=n∑i=1n[Xi−E(Xi)]⟶P0.
若
E
X
i
=
μ
EX_i=\mu
EXi=μ,即所有随机序列的期望均相等,则有
X
ˉ
=
1
n
∑
i
=
1
n
X
i
⟶
P
μ
.
\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\longrightarrow} \mu .
Xˉ=n1i=1∑nXi⟶Pμ.
事实上,方差不存在依然成立。
N <- 100000
n <- 20000
df <- 2
set.seed(2)
Z <- rchisq(N, df)
x <- numeric()
for (i in 1:n) {
set.seed(i)
x[i] <- sample(Z, 1)
mean_X <- mean(x)
# 总体期望mu = df
cat("n=", i, "依概率收敛:", "mean_X-df--->", mean_X - df, "\n")
}
2.3 辛钦大数定律
X
1
,
X
2
…
X_1,X_2\dots
X1,X2…服从独立同分布
i
i
d
iid
iid的随机变量序列,且
E
X
i
=
μ
EX_i=\mu
EXi=μ,
D
(
X
i
)
=
σ
2
D(X_i)=\sigma^2
D(Xi)=σ2,则
X
ˉ
=
1
n
∑
i
=
1
n
X
i
⟶
P
μ
.
\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\longrightarrow} \mu .
Xˉ=n1i=1∑nXi⟶Pμ.
X
1
,
X
2
…
X_1,X_2\dots
X1,X2…为
i
i
d
iid
iid,
E
X
i
=
μ
EX_i=\mu
EXi=μ,
D
(
X
i
)
=
σ
2
D(X_i)=\sigma^2
D(Xi)=σ2,
1
n
∑
i
=
1
n
X
i
2
⟶
P
1
n
∑
i
=
1
n
E
(
X
i
2
)
=
σ
2
+
μ
2
\frac{1}{n} \sum_{i=1}^n X_i^2 \stackrel{P}{\longrightarrow} \frac{1}{n} \sum_{i=1}^n E\left(X_i^2\right)=\sigma^2+\mu^2
n1i=1∑nXi2⟶Pn1i=1∑nE(Xi2)=σ2+μ2
其中
E
(
X
i
2
)
=
D
(
X
i
)
+
(
E
X
i
)
2
=
σ
2
+
μ
2
E(X_i^2) = D(X_i)+(EX_i)^2=\sigma^2+\mu^2
E(Xi2)=D(Xi)+(EXi)2=σ2+μ2
rm(list=ls())
N <- 100000
n <- 100000
df <- 8
Z <- rt(N,df)
x <- numeric()
for (i in 1:n) {
set.seed(i)
x[i] <- sample(Z, 1)^2
mean_X2 <- mean(x)
cat("n=", i, "mean_X2-(mu^2+sigma^2)依概率收敛", "--->", mean_X2-df/(df-2), "\n")
}
2.4 伯努利大数定律
X
1
,
X
2
…
X_1,X_2\dots
X1,X2…是iid随机序列,且
X
i
∼
B
(
1
,
p
)
X_i\sim B(1,p)
Xi∼B(1,p),则
X
ˉ
=
1
n
∑
i
=
1
n
X
i
⟶
P
p
.
\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\longrightarrow} p .
Xˉ=n1i=1∑nXi⟶Pp.
基于辛钦大数定律,这里随机变量期望
E
X
i
=
p
EX_i=p
EXi=p。
N <- 100000
n <- 100000
df <- 8
set.seed(100)
p <- 0.5
Z <- rbinom(N, 1, p)
x <- numeric()
for (i in 1:n) {
set.seed(i)
x[i] <- sample(Z, 1)
mean_X <- mean(x)
cat("n=", i, "mean_X-p 依概率收敛", "--->", mean_X - p, "\n")
}
3 中心极限定理
后续均假设随机变量序列 X 1 , X 2 ⋯ ∼ i i d X_1,X_2\dots\sim iid X1,X2⋯∼iid, E X i = μ i EX_i=\mu_i EXi=μi, D X i = σ 2 DX_i=\sigma^2 DXi=σ2, i = 1 , 2 … n i=1,2\dots n i=1,2…n。
👉当随机变量序列
X
i
∼
N
(
μ
i
,
σ
2
)
X_i\sim N(\mu_i,\sigma^2)
Xi∼N(μi,σ2),则根据正态分布的可加性得
∑
i
n
X
i
∼
N
(
n
μ
,
n
σ
2
)
\sum_i^nX_i\sim N(n\mu,n\sigma^2)
∑inXi∼N(nμ,nσ2),对于任意
∀
ε
>
0
\forall \varepsilon>0
∀ε>0,则随机变量
∑
i
n
X
i
\sum_i^nX_i
∑inXi偏离其均值的距离小于
ε
\varepsilon
ε的概率为
P
(
∣
∑
i
n
X
i
−
n
μ
∣
≤
ε
)
=
P
(
∣
∑
i
n
X
i
−
n
μ
n
σ
∣
≤
ε
n
σ
)
=
Φ
(
ε
n
σ
)
−
Φ
(
−
ε
n
σ
)
=
1
−
2
Φ
(
ε
n
σ
)
\begin{aligned} P(|\sum_i^nX_i-n\mu| \le \varepsilon)&=P\left(\left| \dfrac{\sum_i^nX_i-n\mu}{\sqrt{n}\sigma}\right | \le \dfrac{\varepsilon}{\sqrt{n}\sigma} \right) \\ &=\Phi(\dfrac{\varepsilon}{\sqrt{n}\sigma})-\Phi(-\dfrac{\varepsilon}{\sqrt{n}\sigma})\\ &=1-2\Phi(\dfrac{\varepsilon}{\sqrt{n}\sigma}) \end{aligned}
P(∣i∑nXi−nμ∣≤ε)=P(
nσ∑inXi−nμ
≤nσε)=Φ(nσε)−Φ(−nσε)=1−2Φ(nσε)
👉当随机变量序列
X
i
X_i
Xi不服从正态分布时,只要
n
n
n足够大,则
∑
i
n
X
i
\sum_i^nX_i
∑inXi也近似服从正态分布,关于这一结论称为中心极限定理。
3.1 列维-林德伯格(Levy-lindberg)中心极限定理
随机变量序列
X
1
,
X
2
⋯
∼
i
i
d
X_1,X_2\dots\sim iid
X1,X2⋯∼iid,且
E
(
X
i
)
=
μ
,
D
(
X
i
)
=
σ
2
>
0
,
i
=
1
,
2
,
⋯
,
E\left(X_i\right)=\mu, \quad D\left(X_i\right)=\sigma^2>0, \quad i=1,2, \cdots,
E(Xi)=μ,D(Xi)=σ2>0,i=1,2,⋯,
对于任意
x
∈
R
x\in R
x∈R,有
lim
n
→
∞
P
(
∑
i
=
1
n
X
i
−
n
μ
n
σ
⩽
x
)
=
Φ
(
x
)
,
\lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma} \leqslant x\right)=\Phi(x),
n→∞limP(nσ∑i=1nXi−nμ⩽x)=Φ(x),
其中
Φ
(
x
)
\Phi(x)
Φ(x)为
N
(
0
,
1
)
N(0,1)
N(0,1)的分布函数。这一定理意味着无论
X
1
,
X
2
⋯
∼
i
i
d
X_1,X_2\dots\sim iid
X1,X2⋯∼iid属于什么分布,只要
n
→
∞
n\to \infty
n→∞,
∑
i
=
1
n
X
i
−
n
μ
n
σ
∼
N
(
0
,
1
)
;
∑
i
=
1
n
X
i
∼
N
(
n
μ
,
n
σ
2
)
\frac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma}\sim N(0,1);\sum_{i=1}^n X_i\sim N(n \mu,n\sigma^2)
nσ∑i=1nXi−nμ∼N(0,1);i=1∑nXi∼N(nμ,nσ2)
或者
∑
i
=
1
n
X
i
−
n
μ
n
σ
=
n
(
1
n
∑
i
=
1
n
X
i
−
μ
)
n
σ
=
n
(
X
ˉ
−
μ
)
σ
=
(
X
ˉ
−
μ
)
σ
/
n
∼
N
(
0
,
1
)
\begin{aligned} \dfrac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma}&=\dfrac{n(\dfrac{1}{n}\sum_{i=1}^n X_i-\mu)}{\sqrt{n} \sigma}\\ \\ &=\sqrt{n}\dfrac{(\bar{X}-\mu)}{\sigma}\\ \\ &=\dfrac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}\sim N(0,1) \end{aligned}
nσ∑i=1nXi−nμ=nσn(n1∑i=1nXi−μ)=nσ(Xˉ−μ)=σ/n(Xˉ−μ)∼N(0,1)
因此,当
n
→
∞
n\to \infty
n→∞时,
X
ˉ
=
∑
i
n
X
n
∼
N
(
μ
,
σ
2
/
n
)
\bar{X}=\frac{\sum_i^nX}{n}\sim N(\mu,\sigma^2/n)
Xˉ=n∑inX∼N(μ,σ2/n)。
3.2 德莫弗 -拉普拉斯(De Moivre-Laplace)中心极限定理
该定理是Levy-lindberg中心极限定理特列,假设随机变量服从伯努利分布,并应用Levy-lindberg中心极限定理。
随机变量序列
X
1
,
X
2
⋯
∼
i
i
d
X_1,X_2\dots\sim iid
X1,X2⋯∼iid,且
X
i
∼
B
(
1
,
p
)
X_i\sim B(1,p)
Xi∼B(1,p),则
x
∈
R
x\in R
x∈R有
lim
n
→
∞
P
(
∑
i
=
1
n
X
i
−
n
p
n
p
(
1
−
p
)
⩽
x
)
=
Φ
(
x
)
.
\lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^n X_i-n p}{\sqrt{n p(1-p)}} \leqslant x\right)=\Phi(x) .
n→∞limP(np(1−p)∑i=1nXi−np⩽x)=Φ(x).
当
n
→
∞
n\to \infty
n→∞时,
X
ˉ
=
∑
i
n
X
n
∼
N
(
p
,
p
(
1
−
p
)
/
n
)
\bar{X}=\frac{\sum_i^nX}{n}\sim N(p,p(1-p)/n)
Xˉ=n∑inX∼N(p,p(1−p)/n)。事实上,二项分布具有可加性
∑
i
=
1
n
X
i
∼
B
(
n
,
p
)
\sum_{i=1}^n X_i \sim B(n, p)
∑i=1nXi∼B(n,p),期望为
n
p
np
np,方差
n
p
(
1
−
p
)
np(1-p)
np(1−p)。
参考书籍:《概率论与数理统计》,上海:同济大学出版社,2015