《概率论与数理统计教程》中的一些知识点

  1. 概率的定义
  • 随机现象的所有可能结果构成样本空间 Ω = { ω } \Omega = \{ \omega \} Ω={ω},其中 ω \omega ω称为样本点,认识随机现象需要首先列出样本空间。
  • F \mathcal{F} F Ω \Omega Ω的某些子集构成的集合类,且满足: ( 1 ) Ω ∈ F ( 2 ) 若 A ∈ F , 则 A ˉ ∈ F ( 3 ) 若 A n ∈ F , 则 可 列 并 ⋃ n = 1 ∞ A n ∈ F (1)\Omega \in \mathcal{F}\\ (2)若A\in\mathcal{F},则\bar{A}\in\mathcal{F}\\ (3)若A_n\in\mathcal{F},则可列并\bigcup_{n=1}^{\infty}A_n \in \mathcal{F} (1)ΩF(2)AFAˉF(3)AnFn=1AnF则称 F \mathcal{F} F为一个事件域,或 σ \sigma σ代数。将 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)称为可测空间,可测空间中的每个集合都是有概率而言的事件。
  • Ω \Omega Ω为样本空间, F \mathcal{F} F为事件域,对任意事件 A ∈ F A\in \mathcal{F} AF,若定义在 F \mathcal{F} F上的实值函数 P ( A ) P(A) P(A)满足: ( 1 ) 非 负 性 公 理 : P ( A ) > 0 ( 2 ) 正 则 性 公 理 : P ( Ω ) = 1 ( 3 ) 可 列 可 加 性 定 理 : 若 A 1 , A 2 , ⋯   , A n 互 不 相 容 , 则 P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) (1)非负性公理:P(A) > 0\\ (2)正则性公理:P(\Omega) = 1 \\ (3)可列可加性定理:若A_1,A_2,\cdots,A_n互不相容,则P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty} P(A_i) 1P(A)>02P(Ω)=13A1,A2,,AnP(i=1Ai)=i=1P(Ai),则称 P ( A ) P(A) P(A) A A A的概率,将 ( Ω , F , P ) (\Omega,\mathcal{F},P) (Ω,F,P)称为概率空间。

由此则得到了概率的公理化定义:概率是建立在样本空间的某些特定子集上的、满足特定条件的实值函数。
2. 确定概率的古典方法

古典方法是建立在经验事实基础上,对被考察事件的可能性进行逻辑分析后得出的该事件的结论。
古典方法定义的概率需要满足:
(1)所涉及的随机现象只有有限种结果。
(2)每个样本点发生的可能性相等。
(3)若事件A中包含k个样本点,则事件A的概率为: P ( A ) = k n P(A)=\frac{k}{n} P(A)=nk

其中尤其需要注意定义(2),当样本点发生的可能性不等时,是不能直接计算概率的。例如二孩悖论中讨论的:若取基本事件为 Ω = { 两 个 男 孩 , 两 个 女 孩 , 一 男 一 女 } \Omega = \{两个男孩,两个女孩,一男一女\} Ω={},则其不符合定义,因为”两个女孩“发生的概率为 1 / 2 1/2 1/2

  1. 为什么要研究概率分布

概率分布是全面地、动态地描述随机变量取值的概率规律,从中可以提取有关随机变量的信息,研究更深层次的问题。

  1. 随机变量的定义
  • 将定义在样本空间 Ω \Omega Ω上的实值函数 X = X ( ω ) X=X(\omega) X=X(ω)称为随机变量
  • 用随机变量代表事件:若 B B B为实数组成的集合,则 { X ∈ B } \{X\in B\} {XB}表示随机事件: { ω : X ( ω ) ∈ B } ⊆ Ω \{ \omega:X(\omega) \in B\} \subseteq \Omega {ω:X(ω)B}Ω
  • X X X为随机变量, x x x为任意实数,称 F ( x ) = P ( X ≤ x ) F(x) = P(X \le x) F(x)=P(Xx)为随机变量 X X X的分布函数

总结一下,我们有以下映射关系:
P : F → R X : Ω → R F : R → R P: \mathcal{F} \to R \\ X : \Omega \to R \\ F : R \to R P:FRX:ΩRF:RR

  1. 分布函数的定义
    主要是需要记忆的内容,包括三个方面:
    (1)单调性
    (2)有界性
    (3)右连续性

  2. 连续随机变量的概率密度函数
    连续型随机变量概率密度函数的来源比较有趣:
    首先想象对来自某连续总体的样本进行频数统计,横轴表示单位长度,纵轴表示落到单位长度内的样本频数。通过这个频数统计图可以粗略了解总体分布情况。
    然后将纵轴由频数换成频率,以保证图形的稳定性,并且不断缩小横轴上的单位长度,当单位长度趋于0时且样本数量足够多时,频率统计图会变得平滑,此时纵轴可以表示单位长度上的概率。
    将这样一条曲线称为概率密度曲线。注意概率密度曲线的纵轴不表示该点取值的概率大小,只有乘上微元后用面积表示才为概率: p ( x ) d x = P ( x < X < x + d x ) p(x)dx = P(x < X < x + dx) p(x)dx=P(x<X<x+dx)
    这直接导致连续型随机变量在任一点上的概率为0: P ( X = a ) = ∫ a a p ( x ) d x = 0 P(X=a) = \int_a^a p(x) dx = 0 P(X=a)=aap(x)dx=0所以说概率为0的事件不一定是不可能事件。
    而这又引出另一个有趣的事情:在若干点上改变概率密度函数的取值,不会影响分布函数的值。假设有这样两个密度函数: p 1 ( x ) = { 1 / a , 0 ≤ x ≤ a 0 , o t h e r w i s e       p 2 ( x ) = { 1 / a , 0 < x < a 0 , o t h e r w i s e p_1(x) = \begin{cases} 1/a , 0 \le x \le a \\ 0, otherwise\end{cases}\ \ \ \ \ p_2(x)=\begin{cases} 1/a , 0 < x < a \\ 0, otherwise\end{cases} p1(x)={1/a,0xa0,otherwise     p2(x)={1/a,0<x<a0,otherwise,虽然这两个密度函数并不相同,即 p 1 ( x ) ≠ p 2 ( x ) p_1(x) \ne p_2(x) p1(x)=p2(x),但是 P ( p 1 ( x ) ≠ p 2 ( x ) ) = P ( X = 0 ) + P ( X = a ) = 0 P(p_1(x) \ne p_2(x) ) =P(X=0) + P(X=a) = 0 P(p1(x)=p2(x))=P(X=0)+P(X=a)=0。因此在概率意义上,这两个密度函数不存在差别,称 p 1 ( x ) , p 2 ( x ) p_1(x),p_2(x) p1(x),p2(x)几乎处处相等
    这告诉我们,在概率论中可以将取值为0的点剔除后讨论两个函数之间的随机问题。

  3. 切比雪夫不等式

切比雪夫不等式:随机变量 X X X的数学期望 E ( X ) E(X) E(X)和方差 D ( X ) D(X) D(X)都存在,则对任意常数 ε > 0 \varepsilon > 0 ε>0,都有: P ( ∣ X − E ( X ) ∣ ≥ ε ) ≤ D ( X ) ε 2 P(|X-E(X)| \ge \varepsilon) \le \frac{D(X)}{\varepsilon^2} P(XE(X)ε)ε2D(X)

切比雪夫不等式说明了这样一个事实:随机变量的取值偏离其期望值的偏差存在一个概率上界,这个上界与方差有关,方差越小,上界越小。
进一步,可以得到下面这个定理:

若随机变量 X X X的方差 D ( X ) = 0 D(X) = 0 D(X)=0,则 D ( X ) = 0 D(X) = 0 D(X)=0的充要条件是 X X X几乎处处为某个常数,即 P ( X = a ) = 1 P(X=a) = 1 P(X=a)=1

另外需要知道,用随机变量偏离均值的程度描述随机变量的离散程度是合适的,因为 ∀ c ≠ E ( X ) , E ( X − E ( X ) ) 2 < E ( X − c ) 2 \forall c\ne E(X), E(X-E(X))^2 < E(X-c)^2 c=E(X),E(XE(X))2<E(Xc)2

  1. 常见分布
  • 二项分布:描述一系列相互独立的伯努利实验的结果。
  • 泊松分布:描述单位时间内的计数过程。可以用泊松分布近似二项分布:若当 n → ∞ n\to\infty n时,有 n p n → λ np_n\to\lambda npnλ,则有 lim ⁡ n → ∞ C n k p n k ( 1 − p n ) ( n − k ) = λ k k ! e − λ \lim_{n\to \infty} C_n^kp_n^k (1-p_n)^{(n-k)} = \frac{\lambda ^k}{k!} e^{-\lambda} limnCnkpnk(1pn)(nk)=k!λkeλ
  • 超几何分布:常用于抽样中。当抽取样本数 n n n远小于总数 N N N时,可以用二项分布近似超几何分布。
  • 正态分布:由于中心极限定理的存在(若一个随机变量是由大量微小、独立的随机因素的叠加结果,则这个变量可以认为服从正态分布),很多随机变量都可以用正态分布近似描述。
    正态分布的检验方法也有很多,除了统计检验法之外,还有一些描述统计方法: Q − Q Q-Q QQ图,偏度/峰度检验法,以及 3 σ 3\sigma 3σ原则法:若随机变量取值满足 3 σ 3\sigma 3σ原则,则可以认为该随机变量近似服从正态分布;若随机变量的 3 σ 3\sigma 3σ准则偏差较大,则认为不服从正态分布。
    以上一元总体的正态分布检验法也可以拓展到多元总体,这里即用 χ 2 \chi^2 χ2图法。
  • 指数分布:一种常见偏态分布,常用于描述各种”寿命“分布,如通话时间、排队时间等。
    指数分布与泊松分布之间存在这样的联系:若某事件在长为 t t t的时间内发生次数 N ( t ) N(t) N(t)服从参数为 λ t \lambda t λt泊松分布,则相邻两次发生的时间间隔 T T T服从参数为 λ \lambda λ的指数分布。
  1. 重要定理:

若随机变量 X X X的分布函数 F X ( x ) F_X(x) FX(x)为严格递增的连续函数,其反函数存在,则 Y = F X ( x ) Y=F_X(x) Y=FX(x)服从 ( 0 , 1 ) (0,1) (0,1)上的均匀分布。

这个定理用于统计计算中产生满足各种分布的随机数的算法。
例如,一般计算机中只能产生(伪)均匀分布的随机数 u i u_i ui,若要产生服从指数分布 E x p ( λ ) Exp(\lambda) Exp(λ)的随机数,则可以通过其分布函数与均匀分布相关联:
指数分布的分布函数为 F ( x ) = 1 − e − λ x F(x) = 1- e^{-\lambda x} F(x)=1eλx,随机变量 U = F ( X ) U= F(X) U=F(X)服从均匀分布,于是若产生均匀分布后,利用变换: X = 1 λ l n 1 1 − U X= \frac 1 {\lambda} \mathrm{ln} \frac1 {1-U} X=λ1ln1U1,即可得到满足指数分布的随机数。

  1. 偏度和峰度
    X X X k k k阶原点矩: μ k = E ( X k ) \mu_k = E(X^k) μk=E(Xk)
    X X X k k k阶中心矩: ν k = E ( X − E ( X ) ) k \nu_k = E(X-E(X))^k νk=E(XE(X))k
  • 偏度系数: β s = ν 3 ν 2 3 / 2 \beta_s = \frac{\nu_3}{\nu_2^{3/2}} βs=ν23/2ν3,描述随机变量的分布偏离对称性的程度。
  • 峰度系数: β k = ν 4 ν 2 2 − 3 \beta_k = \frac{\nu_4}{\nu_2^2} - 3 βk=ν22ν43,用于描述分布尖峭程度和尾部粗细。
    (1)峰度系数不是指密度函数的峰值高低。比如正态分布的峰度为0,与其峰值无关。
    (2)将峰度系数进行改写: β k = E ( X ∗ 4 ) − E ( Z 4 ) \beta_k = E(X^{*4})-E(Z^4) βk=E(X4)E(Z4),其中 Z Z Z为标准正态变量。因此峰度系数表示 X X X的标准化变量与标准正态变量的四阶原点矩之差。若 β k > 0 \beta_k >0 βk>0,表明标准化后的变量分布比标准化正态分布更为尖峭、尾部更粗。
  1. 联合分布
    为什么要研究多元随机变量的联合分布?
    因为联合分布中包含了以下三个方面的信息:
  • 每个分量的(边际)分布
  • 两个分量之间的关联程度(协方差、相关系数)
  • 给定一个分量时,其余分量的(条件)分布
    因此联合分布比边际分布要包含了更多的信息。
  1. 一些公式
    联合分布函数: F ( x , y ) = P ( X ≤ x , Y ≤ y ) F(x,y) = P(X \le x,Y \le y) F(x,y)=P(Xx,Yy)
    边际分布函数:$F_X(x) = \lim_{y\to \infty} F(x,y) $
    边际密度函数: p X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y p_X(x) = \int_{-\infty}^{\infty} p(x,y)dy pX(x)=p(x,y)dy,(固定 x x x,把 y y y积掉)
  2. 求多维随机变量函数的分布
    这里常常会用到“卷积公式”,但我个人不太喜欢套公式,毕竟这也只是变量变换法的一种特殊情形,不过其中的难点在于进行变量变换后积分区域该如何确定。用一道例题来说明:

已知随机变量 X , Y X,Y X,Y独立同分布于 U ( 0 , 1 ) U(0,1) U(0,1),求随机变量 Z = X + Y Z = X+ Y Z=X+Y的密度函数 p Z ( z ) p_Z(z) pZ(z)

分析: X , Y X,Y X,Y的联合概率密度函数为: p ( x , y ) = { 1 , 0 < x < 1 且 0 < y < 1 0 , o t h e r w i s e p(x,y) = \begin{cases} 1, 0<x<1且0<y<1 \\ 0, otherwise\end{cases} p(x,y)={1,0<x<10<y<10,otherwise
利用变量变换法:令 { Z = X + Y W = Y , ( ∗ ) \begin{cases} Z = X+ Y \\ W = Y \end{cases}, (*) {Z=X+YW=Y,() { X = Z − W Y = W \begin{cases} X = Z - W \\ Y = W \end{cases} {X=ZWY=W
于是 Z , W Z,W Z,W的联合密度函数为:
p ( z , w ) = { 1 , ( z , w ) ∈ D 0 ,    o t h e r w i s e p(z,w) = \begin{cases} 1, (z,w) \in D \\ 0, \ \ otherwise\end{cases} p(z,w)={1,(z,w)D0,  otherwise
难点便在于如何求解 D D D:由(*)式可得: Z = X + W Z = X + W Z=X+W绘制 Z − W Z-W ZW坐标系,将 X X X视为常数,即可确定 D D D
首先由于 W = Y ∈ ( 0 , 1 ) W = Y \in (0,1) W=Y(0,1),因此可以确定 W W W的取值范围,然后将 X X X视为常数,得到$ W<Z = X + W < 1 + W 。 于 是 可 知 。于是可知 D$为如下阴影部分:由此求边际函数即可。

  1. 重期望
    先分别介绍条件密度函数、全概率公式、贝叶斯公式
  • 条件密度函数:给定 X = x X = x X=x条件下的 Y Y Y的条件密度函数为: p ( y ∣ x ) = p ( x , y ) p X ( x ) p(y|x) = \frac{p(x,y)}{p_X(x)} p(yx)=pX(x)p(x,y)注意条件密度函数是条件 X = x X= x X=x的函数,
  • 全概率公式: p ( x , y ) = p X ( x ) p ( y ∣ x ) p(x,y) = p_X(x) p(y|x) p(x,y)=pX(x)p(yx)
  • 贝叶斯公式: p ( x ∣ y ) = p X ( x ) p ( y ∣ x ) ∫ − ∞ ∞ p X ( x ) p ( y ∣ x ) d x p(x|y) = \frac{p_X(x) p(y|x)}{\int _{-\infty}^{\infty} p_X(x) p(y|x)dx} p(xy)=pX(x)p(yx)dxpX(x)p(yx)
  • 条件数学期望: E ( X ∣ Y = y ) = ∫ − ∞ ∞ x p ( x ∣ y ) d x E(X|Y=y) = \int_{-\infty}^{\infty} xp(x|y) dx E(XY=y)=xp(xy)dx因此条件数学期望也是 y y y的函数。实际上可以将 E ( X ∣ Y = y ) E(X|Y=y) E(XY=y)视为随机变量 Y = y Y=y Y=y E ( X ∣ Y ) E(X|Y) E(XY)的取值,因此 E ( X ∣ Y ) E(X|Y) E(XY)也是随机变量,且是随机变量 Y Y Y的函数。既然是随机变量,就有对应的概率分布,并且能够求得数学期望。于是有以下较为深刻的结果:
  • 重期望: E ( X ) = E ( E ( X ∣ Y ) ) E(X) = E(E(X|Y)) E(X)=E(E(XY))

证明: E ( E ( X ∣ Y ) ) = ∫ E ( X ∣ Y = y ) p Y ( y ) d y = ∫ ( ∫ x p ( x ∣ y ) d x ) p Y ( y ) d y = ∫ ∫ x p ( x , y ) d x d y = E ( X ) E(E(X|Y)) = \int E(X|Y=y)p_Y(y)dy \\ = \int (\int xp(x|y)dx) p_Y(y) dy \\ = \int \int xp(x,y) dx dy\\ = E(X) E(E(XY))=E(XY=y)pY(y)dy=(xp(xy)dx)pY(y)dy=xp(x,y)dxdy=E(X)

  1. 大数定律
    大数定律主要讨论在何种条件下,随机变量序列的算数平均依概率收敛到均值的算数平均。
  • 伯努利大数定律

S n S_n Sn为n重伯努利试验中事件 A A A发生的次数, p p p为每次试验中 A A A发生的概率,则对任意 ε > 0 \varepsilon>0 ε>0,有 lim ⁡ n → ∞ P ( ∣ S n n − p ∣ < ε ) = 1 \lim_{n \to \infty} P(|\frac{S_n}n - p| < \varepsilon) = 1 nlimP(nSnp<ε)=1

伯努利大数定律揭示了频率确定概率的理论依据。
利用伯努利大数定律可以计算定积分的近似值:
如对于某函数 f ( x ) : 0 ≤ f ( x ) ≤ 1 f(x):0 \le f(x) \le 1 f(x):0f(x)1,求其在 [ 0 , 1 ] [0,1] [0,1]区间上的积分: ∫ 0 1 f ( x ) d x \int_0^1 f(x) dx 01f(x)dx。设二维随机变量 ( X , Y ) (X,Y) (X,Y)服从 [ 0 , 1 ] × [ 0 , 1 ] [0,1]\times [0,1] [0,1]×[0,1]上的均匀分布,事件 A = { Y ≤ f ( X ) } A=\{ Y \le f(X)\} A={Yf(X)},计算 A A A的概率: p = P ( Y ≤ f ( X ) ) = ∫ 0 1 ∫ 0 f ( x ) d y d x = ∫ 0 1 f ( x ) d x p = P(Y\le f(X)) = \int _0^1 \int_0 ^{f(x)} dy dx = \int _0^1 f(x)dx p=P(Yf(X))=010f(x)dydx=01f(x)dx
因此可以通过蒙特卡洛模拟的方法,以事件 A A A发生的频率作为积分值的估计。

  • 切比雪夫大数定律

X 1 , X 2 , ⋯   , X n , ⋯ X_1,X_2,\cdots,X_n,\cdots X1,X2,,Xn,互不相关, D ( X i ) D(X_i) D(Xi)均存在,且有共同方差上界,则随机变量序列 { X n } \{X_n\} {Xn}满足大数定律: lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ε ) = 1 \lim_{n\to\infty}P(|\frac 1 n\sum_{i=1}^n X_i - \frac 1 n \sum_{i=1}^nE(X_i) | < \varepsilon) = 1 nlimP(n1i=1nXin1i=1nE(Xi)<ε)=1

根据大数定律,不仅可以得出独立同分布的样本均值趋近于总体均值,还可以得出离差平方的均值趋于总体方差:

{ X n } \{X_n\} {Xn}是独立同分布随机变量序列,且四阶中心矩存在, v a r ( X n ) = σ 2 \mathrm{var}(X_n) = \sigma^2 var(Xn)=σ2,则有对于 ∀ ε , lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n ( X i − μ ) 2 − σ 2 ∣ ≥ ε ) = 0 \forall \varepsilon, \lim_{n\to\infty} P(|\frac1 n \sum_{i=1}^n (X_i - \mu)^2 - \sigma^2| \ge \varepsilon) = 0 ε,limnP(n1i=1n(Xiμ)2σ2ε)=0

  • 马尔科夫大数定律

对于随机变量序列 { X n } \{X_n\} {Xn},若 1 n 2 V a r ( ∑ i = 1 n X i ) → 0 , n → ∞ \frac{1}{n^2}\mathrm{Var}(\sum_{i=1}^n X_i) \to 0, n\to \infty n21Var(i=1nXi)0,n,则 { X n } \{X_n\} {Xn}满足大数定律: lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ε ) = 1 \lim_{n\to\infty}P(|\frac 1 n\sum_{i=1}^n X_i - \frac 1 n \sum_{i=1}^nE(X_i) | < \varepsilon) = 1 nlimP(n1i=1nXin1i=1nE(Xi)<ε)=1

马尔科夫大数定律的特点在于更进一步放松了对 { X n } \{X_n\} {Xn}的要求,即不要求同分布也不要求不相关。

  • 辛钦大数定律

$ {X_n} 是 独 立 同 分 布 随 机 变 量 序 列 , 若 是独立同分布随机变量序列,若 E(X_i) 存 在 , 则 存在,则 {X_n} 服 从 大 数 定 律 。 服从大数定律。 lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i − E ( X i ) ∣ < ε ) = 1 \lim_{n\to\infty}P(|\frac 1 n\sum_{i=1}^n X_i - E(X_i) | < \varepsilon) = 1 limnP(n1i=1nXiE(Xi)<ε)=1$

根据辛钦大数定律,可以用观察值的平均近似随机变量的均值。
利用辛钦大数定律,可以得出另一种求定积分的近似结果的方法:
若要计算定积分 J = ∫ 0 1 f ( x ) d x J = \int_0^1 f(x)dx J=01f(x)dx,可以先产生在 [ 0 , 1 ] [0,1] [0,1]上均匀分布的随机变量 X X X,则 Y = f ( X ) Y=f(X) Y=f(X)的数学期望: E ( Y ) = ∫ 0 1 f ( x ) d x = J E(Y) = \int_0^1 f(x)dx = J E(Y)=01f(x)dx=J,从而可以通过计算 f ( X ) f(X) f(X)的均值得到定积分的估计值。
16. 中心极限定理
中心极限定理主要讨论在什么条件下,独立随机变量和的分布函数收敛于正态分布。

  • 林德伯格-莱维中心极限定理

{ X n } \{X_n\} {Xn}是独立同分布的随机变量序列,且 E ( X i ) = μ , D ( X i ) = σ 2 E(X_i)=\mu, D(X_i) = \sigma^2 E(Xi)=μ,D(Xi)=σ2,记随机变量和的标准化变量为 Y n ∗ = X 1 + X 2 + ⋯ + X n − n μ σ n Y_n^* = \frac{X_1+X_2+\cdots + X_n - n\mu}{\sigma \sqrt{n}} Yn=σn X1+X2++Xnnμ
则对任意实数 y y y,有 lim ⁡ n → ∞ P ( Y n ∗ ≤ y ) = Φ ( y ) \lim_{n \to \infty} P(Y_n^* \le y) = \Phi(y) nlimP(Yny)=Φ(y)

林德伯格-莱维中心极限定理表明,无论独立同分布随机变量原来的分布如何,只要 n n n足够大,就能用正态分布逼近随机变量和的分布。这也表明可以用正态分布近似拟合误差分布(因为误差是由很多微小因素累加而成)

  • 棣莫弗-拉普拉斯中心极限定理

n n n重伯努利实验中,事件 A A A在每次试验中出现的概率为 p p p,记 S n S_n Sn n n n次试验中事件 A A A出现的次数,记标准化变量为 Y n ∗ = S n − n p n p q Y_n^* = \frac{S_n - np}{\sqrt{npq}} Yn=npq Snnp则对任意 y y y,有 lim ⁡ n → ∞ P ( Y n ∗ ≤ y ) = Φ ( y ) \lim_{n\to \infty} P(Y_n^* \le y ) = \Phi(y) nlimP(Yny)=Φ(y)

棣莫弗-拉普拉斯中心极限定理又称为二项分布的正态近似。由于二项分布是离散分布,正态分布是连续分布,因此在近似时还常进行一些修正: P ( k 1 < S n < k 2 ) = P ( k 1 − 0.5 < S n < k 2 + 0.5 ) P(k_1 < S_n < k_2) = P(k_1 - 0.5 < S_n < k_2 +0.5) P(k1<Sn<k2)=P(k10.5<Sn<k2+0.5)

  • 林德伯格中心极限定理

林德伯格条件:设独立随机变量序列 { X n } \{X_n\} {Xn},随机变量和 Y n = X 1 + ⋯ + X n Y_n = X_1 + \cdots + X_n Yn=X1++Xn,则 E ( Y n ) = μ 1 + ⋯ + μ n , σ ( Y n ) = σ 1 2 + ⋯ + σ n 2 ≜ B n E(Y_n) = \mu_1 +\cdots + \mu_n, \sigma(Y_n) = \sqrt{\sigma_1^2 + \cdots + \sigma_n^2} \triangleq B_n E(Yn)=μ1++μn,σ(Yn)=σ12++σn2 Bn若对任意 τ > 0 \tau >0 τ>0,都有 lim ⁡ n → ∞ 1 τ 2 B n 2 ∑ i = 1 n ∫ ∣ x − μ i ∣ > τ B n ( x − μ i ) 2 p i ( x ) d x = 0 \lim_{n\to \infty} \frac{1}{\tau^2B_n^2} \sum_{i=1}^n \int _{|x-\mu_i|>\tau B_n}(x-\mu_i)^2p_i(x)dx = 0 nlimτ2Bn21i=1nxμi>τBn(xμi)2pi(x)dx=0,则称 { X n } \{X_n\} {Xn}满足林德伯格条件,此时随机变量和中的每一项都“均匀地小”,没有突出作用的项。

设独立随机变量序列 { X n } \{X_n\} {Xn}满足林德伯格条件,则对任意 x x x,有 lim ⁡ n → ∞ P ( ∑ i = 1 n X i − ∑ i = 1 n μ i σ 1 2 + ⋯ + σ n 2 ≤ x ) = Φ ( x ) \lim_{n\to \infty}P(\frac{\sum_{i=1}^n X_i - \sum_{i=1}^n \mu_i}{\sqrt{\sigma_1^2+\cdots + \sigma_n^2}} \le x) = \Phi(x) nlimP(σ12++σn2 i=1nXii=1nμix)=Φ(x)

  • 李雅普诺夫中心极限定理

设独立随机变量序列 { X n } \{X_n\} {Xn},若存在 δ > 0 \delta>0 δ>0,满足 lim ⁡ n → ∞ 1 B n 2 + δ ∑ i = 1 n E ( ∣ X i − μ i ∣ 2 + δ ) = 0 \lim_{n \to \infty} \frac{1}{B_n^{2+\delta}}\sum_{i=1}^n E(|X_i-\mu_i|^{2+\delta}) = 0 nlimBn2+δ1i=1nE(Xiμi2+δ)=0则该随机变量序列满足中心极限定理。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值