文章目录
一、大数定律
1.1 切比雪夫不等式
切比雪夫不等式—大数定律的引理
设 X X X 为一个随机变量, E ( X ) , D ( X ) E(X),D(X) E(X),D(X) 存在,则对 ∀ a > 0 \forall{a}>0 ∀a>0,有
P ( ∣ X − E ( X ) ∣ ≥ a ) ≤ D ( X ) a 2 P(|X-E(X)| \geq a) \leq \frac{D(X)}{a^2} P(∣X−E(X)∣≥a)≤a2D(X)
或
P ( ∣ X − E ( X ) ∣ ≤ a ) ≥ 1 − D ( X ) a 2 P(\left| X-E(X) \right | \leq a) \geq 1-\frac{D(X)}{a^2} P(∣X−E(X)∣≤a)≥1−a2D(X)
D ( X ) D(X) D(X) 是方差
应用:
(1)在只知道随机变量 X X X均值与方差的条件下,可用切比雪夫不等式粗略地估计事件概率;
(2)当 D ( X ) = 0 D(X)=0 D(X)=0 时,可以认为随机变量 X X X 是一个常数。
注意:
当没有特殊要求时,不要使用切比雪夫不等式计算概率,因为结果是一个范围,结果不精确!
1.2 贝努力大数定律(伯努利)
设 n A n_A nA 为 n n n 重独立重复试验中事件 A A A 的发生次数,则对任意正数 ε > 0 \varepsilon>0 ε>0 ,有
lim n → ∞ P ( ∣ n A n − p ∣ ≥ ε ) = 0 \lim_{n \to \infty}P(\left|\frac{n_A}{n}-p\right | \geq \varepsilon)=0 n→∞limP(∣∣∣nnA−p∣∣∣≥ε)=0
或
lim n → ∞ P ( ∣ n A n − p ∣ < ε ) = 1 或 { n A n } n = 1 ∞ \lim_{n \to \infty}P(\left|\frac{n_A}{n}-p\right | <\varepsilon)=1 或 \left \{ \frac{n_A}{n} \right \}_{n=1}^{\infty} n→∞limP(∣∣∣nnA−p∣∣∣<ε)=1或{nnA}n=1∞
依概率收敛到 p p p。
例:假设每次独立重复的去做一个试验(比如掷骰子)当试验次数足够大的时候,每一个子事件发生的频率都会无限的接近它的概率(比如扔了100000次骰子,那么你扔出1的次数估计在16666次左右)。大数定律证明了这种现象的客观真实性。
定义:设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn
为一个随机变量序列, C C C 为一个常数。如果对任意正常数 ε \varepsilon ε ,都有 lim n → ∞ P ( ∣ X n − C ∣ ≥ ε ) = 0 \lim_{n \to \infty}P(\left|X_n-C\right | \geq\varepsilon)=0 limn→∞P(∣Xn−C∣≥ε)=0,则称依概率收敛到 C C C,记为
X n → P C X_{n}\overset{P}{\rightarrow}C Xn→PC
结论:当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
注意:
1、这里要求 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn服从0,1分布。
2、 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn相互独立且服从同一分布的随机变量序列
1.2.1 弱大数定律和强大数定律
大数定律又分为弱大数定律和强大数定律。
弱大数定律:样本均值 依概率收敛于期望
lim n → ∞ P ( ∣ X n ˉ − μ ∣ > ε ) = 0 \lim_{n \to \infty}P(\left | \bar{X_n} - \mu \right | > \varepsilon)=0 n→∞limP(∣∣Xnˉ−μ∣∣>ε)=0
注意:弱大数定律,收敛的对象是概率
p
→
0
p \rightarrow 0
p→0。
强大数定律:样本均值 几乎处处收敛于期望
P ( lim n → ∞ ∣ X n ˉ − μ ∣ > ε ) = 0 ⇔ P ( lim n → ∞ X n ˉ = μ ) = 1 P(\lim_{n \to \infty} \left | \bar{X_n} - \mu \right | > \varepsilon)=0 \Leftrightarrow P(\lim_{n \to \infty} \bar{X_n} = \mu )=1 P(n→∞lim∣∣Xnˉ−μ∣∣>ε)=0⇔P(n→∞limXnˉ=μ)=1
注意:强大数定律:收敛的对象是 X ˉ → μ \bar{X} \rightarrow \mu Xˉ→μ。
从形式上看,上面两个公式似乎只是吧极限和概率交换了一下位置,但是这个交换就导致了本质区别。
弱大数定律:样本均值依概率收敛于期望。
强大数定律:样本均值以概率 1 收敛于期望值。
1.3 切比雪夫大数定律
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn 为一列相互独立的随机变量,如果存在常数 M > 0 M>0 M>0 ,使得 D ( X ) ≤ M ( i = 1 , 2 , ⋯ ) D(X)\leq M (i=1,2,\cdots) D(X)≤M(i=1,2,⋯),则对任意 ε > 0 \varepsilon>0 ε>0,有
lim n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ ≥ ε ) = 0 \lim_{n \to \infty}P(\left | \frac{1}{n}\sum_{i=1}^{n}X_i - \frac{1}{n}\sum_{i=1}^{n}E(X_i) \right | \geq \varepsilon)=0 n→∞limP(∣∣∣∣∣n1i=1∑nXi−n1i=1∑nE(Xi)∣∣∣∣∣≥ε)=0
1.4 辛钦大数定律
辛钦大数定律是切比雪夫大数定律的特殊形式。
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn 为一列独立同分布的随机变量,且 E ( X i ) = μ ( i = 1 , 2 , ⋯ ) E(X_i)=\mu (i=1,2,\cdots) E(Xi)=μ(i=1,2,⋯),则对任意 ε > 0 \varepsilon>0 ε>0,有
lim n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − μ ) ∣ ≥ ε ) = 0 \lim_{n \to \infty}P(\left | \frac{1}{n}\sum_{i=1}^{n}X_i - \mu) \right | \geq \varepsilon)=0 n→∞limP(∣∣∣∣∣n1i=1∑nXi−μ)∣∣∣∣∣≥ε)=0
1.5 大数定律之间的关系
伯努利大数定律:是指在n次伯努利实验中,事件A发生的频率在n趋向于无穷时,也向事件A发生的概率靠近,最后n充分大时,两者偏差很小。即事件A发生的频率接近概率。
切比雪夫大数定律:在数学期望存在,方差一致有界时,n个随机变量的算术平均值在n趋向于无穷时靠近他们的数学期望。在参数估计时用到该定理,即用算术平均值估算数学期望。(要求每个变量的期望和方差均存在且有限,并且满足方差的平均值是样本数n的高阶无穷小这一额外条件。)
辛钦大数定律:是切比雪夫大数定律的特殊情况,即在随机变量序列为独立同分布时,只要有有穷数学期望,就能推出用算术平均值估算数学期望了。
【辛钦大数定律是说一列独立同分布的随机变量的均值收敛到一个常数】,条件是分布的绝对期望存在且有限就够了。
1.6 结论
1、大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。
2、概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。
二、中心极限定理
2.1 独立同分布的中心极限定理
独立同分布的中心极限定理
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots ,X_n X1,X2,⋯,Xn 为一列独立同分布的随机变量序列,且 E ( X i ) = μ E(X_i)=\mu E(Xi)=μ, D ( X i ) = σ 2 < + ∞ ( i = 1 , 2 , ⋯ ) D(X_i)=\sigma^2<+\infty(i=1,2,\cdots) D(Xi)=σ2<+∞(i=1,2,⋯) 则
lim n → ∞ P ( ∑ i = 1 n X i − n μ σ n ) ≤ x ) = ϕ ( x ) \lim_{n \to \infty}P(\frac{\sum_{i=1}^{n}X_{i}-n\mu }{\sigma \sqrt{n}}) \leq x)=\phi (x) n→∞limP(σn∑i=1nXi−nμ)≤x)=ϕ(x)
ϕ ( x ) \phi (x) ϕ(x) 是标准正态分布
结论:无论 X i X_i Xi服从何种分布,当 n n n 充分大时,随机变量 ∑ i = 1 n X i \sum_{i=1}^{n}X_{i} ∑i=1nXi 近似服从正态分布 N ( n μ , n σ 2 ) N(n\mu,n\sigma^2) N(nμ,nσ2)
当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。
如上图,这个正态分布的 μ \mu μ 会越来越逼近总体均值,并且其方差满足 σ 2 n \frac{\sigma^2}{n} nσ2, σ \sigma σ 为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。
这个定理是想告诉我们:大量的相互独立的随机因素的综合影响形成的结果往往近似的服从正态分布。
2.2 二项分布的正态近似:棣莫弗—拉普拉斯中心极限定理
二项分布的正态近似:棣莫弗 — 拉普拉斯中心极限定理
拉普拉斯中心极限定理 是 独立同分布的中心极限定理 的特殊形式。
当 X i ∼ B ( 1 , p ) X_i \sim B(1,p) Xi∼B(1,p),令 X = ∑ i = 1 n X i X=\sum_{i=1}^{n}X_{i} X=∑i=1nXi,则 X ∼ B ( n , p ) X \sim B(n,p) X∼B(n,p),则 X X X 近似服从 N ( n p , n p ( 1 − p ) ) N(np,np(1-p)) N(np,np(1−p))。即
lim n → ∞ P ( ∑ i = 1 n X i − n p n p ( 1 − p ) ) ≤ x ) = ϕ ( x ) \lim_{n \to \infty}P(\frac{\sum_{i=1}^{n}X_{i}-np }{\sqrt{np(1-p)}}) \leq x)=\phi (x) n→∞limP(np(1−p)∑i=1nXi−np)≤x)=ϕ(x)
三、中心极限定理和大数定律的区别
(1)大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值 μ \mu μ,但是样本均值的分布是怎样的我们不知道。
(2)中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以 μ \mu μ 为均值, σ 2 / n \sigma^2/n σ2/n 为方差。
(3)综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,它越来越趋近于正态分布,并且这个正态分布的方差越来越小。
直观上来讲,想到大数定律的时候,脑海里浮现的应该是一个样本;
想到中心极限定理的时候脑海里应该浮现出很多个样本。
参考
大数定律与中心极限定理 课程讲解
5.1大数定律 视频
大数定律
中心极限定理与大数定律的区别
切比雪夫大数定律、伯努利大数定律、辛钦大数定律三者的关系是什么?