概率论与数理统计核心概念和理论

求取随机变量的函数的分布

例 已知连续型随机变量 X X X的概率密度分布如下
f ( x ) = { x 8 0 < x < 4 0 o t h e r f(x) = \begin{cases}\Large{\frac x 8}\quad & \text 0<x<4 \\ 0 \quad & \text other\end{cases} f(x)={8x00<x<4other
Y = 2 X + 8 Y=2X+8 Y=2X+8的概率密度分布。

  此题是浙江大学概率论与数理统计例题原题。编者上来就让求 X   Y X\, Y XY的概率,完全没给任何原因。所以一个问题如果看书看不懂,并不一定是自己没有认真读,而是编者漏了一些重要内容(或者说直接一点,编者不行)。
  对于这个问题,我们可以先考虑离散型随机变量的函数是怎么求的。离散型随机变量的函数的分布是直接根据 X X X Y Y Y,然后直接进行简单合并就行了。例如
X X X的概率密度分布如下:

X-1012
p0.10.20.30.4

则容易求得 Y = ( X − 1 ) 2 Y=(X-1)^2 Y=(X1)2概率密度

Y014
p0.30.60.1

其中因为 X ∈ { 0 , 2 } X \in\{{0,2}\} X{0,2}时, Y Y Y都为1,所以1这种情况进行了合并。
  借鉴离散型变量的求解方案,我们可以求解连续型随机变量函数的分布。假设 f ( x ) f(x) f(x) g ( y ) g(y) g(y)分别是 x x x y y y的概率密度函数,我们先考虑 y = h ( x ) y=h(x) y=h(x)的反函数 x = h − 1 ( y ) x=h^{-1}(y) x=h1(y)的导数为正的情况:对任意 x x x,都存在任意小的 Δ x \Delta x Δx,使得
∫ x x + Δ x f ( x ) d x = ∫ y y + Δ y g ( y ) d y (1-1) \tag{1-1}\int_x^{x+\Delta x}f(x)dx=\int_y^{y+\Delta y}g(y)dy xx+Δxf(x)dx=yy+Δyg(y)dy(1-1)
这就好比把一个连续性随机变量的分布切成了无穷多个离散型随机变量的分布。两边对 x x x求导得到(因为已经假设了 Δ x \Delta x Δx为无穷小,所以求导之后就是积分公式里面的函数)
f ( x ) = g ( y ) ∣ d y d x ∣ = g ( y ) y ′ ( x ) f(x)=g(y)\left|\frac {dy} {dx}\right| =g(y)y'(x) f(x)=g(y) dxdy =g(y)y(x)
对于 h ( x ) h(x) h(x) h − 1 ( y ) h^{-1}(y) h1(y)的导数为负的情况, 1 − 1 1-1 11式应该改写为
∫ x x + Δ x f ( x ) d x = ∫ y + Δ y y g ( y ) d y = − ∫ y y + Δ y g ( y ) d y (1-2) \begin{aligned} \tag{1-2}\int_x^{x+\Delta x}f(x)dx&=\int^y_{y+\Delta y}g(y)dy \\ &=-\int_y^{y+\Delta y}g(y)dy \end{aligned} xx+Δxf(x)dx=y+Δyyg(y)dy=yy+Δyg(y)dy(1-2)
有这个差异的原因是当 h ( x ) h(x) h(x)导数为负时,如果 Δ x > 0 \Delta x>0 Δx>0,则 Δ y < 0 \Delta y<0 Δy<0,需要交换积分上下限最终才是一个正的概率,也即小矩形的面积。
综上可以得到
g ( y ) = f ( x ) h ′ ( x ) = f ( h − 1 ( y ) ) ∣ h ′ ( h − 1 ( y ) ) ∣ g(y)=\frac {f(x)} {h'(x)}=\frac {f(h^{-1}(y))} {\left|h'(h^{-1}(y)) \right|} g(y)=h(x)f(x)=h(h1(y))f(h1(y))

期望和方差

我们先来看统计中的均值和方差。这里有必要说下概率和统计的区别。概率是已知一个模型或者说事件的数学表达,推导事件出现的概率。统计则是已知事件出现的频率,推导出模型或者说事件的数学表达。两者正好是相反的过程。统计中的均值和方差,对应的是概率中的期望和方差。
已知一组样本 x 1 , x 2 . . . x n x_1,x_2...x_n x1,x2...xn(已知事件),求均值和方差。显而易见
E ( X ) = 1 n ∑ i = 1 i = n x i D ( X ) = 1 n ∑ i = 1 i = n ( x i − x ˉ ) 2 E(X)=\frac 1 n\sum\limits_{i=1}^{i=n}x_i \\ D(X)=\frac 1 n\sum_{i=1}^{i=n}(x_i-\bar x)^2 E(X)=n1i=1i=nxiD(X)=n1i=1i=n(xixˉ)2
为了让统计学中的均值和方差表达式和概率中的期望和方差更加一致,我们更换一个描述。
已知一组样本 x i x_i xi和其出现的频次 n i n_i ni,求均值和方差。仍然显而易见
E ( X ) = 1 ∑ i = 1 i = n n i ∑ i = 1 i = n x i n i = 1 N ∑ i = 1 i = n x i n i (2-1) \tag{2-1}E(X)=\frac 1 {\sum\limits_{i=1}^{i=n} n_i}\sum\limits_{i=1}^{i=n}x_in_i=\frac 1 N\sum\limits_{i=1}^{i=n}x_in_i E(X)=i=1i=nni1i=1i=nxini=N1i=1i=nxini(2-1) D ( X ) = 1 ∑ i = 1 i = n n i ∑ i = 1 i = n ( x i − x ˉ ) 2 n i = 1 N ∑ i = 1 i = n ( x i − x ˉ ) 2 ∗ n i (2-2) \tag{2-2}D(X)=\frac 1 {\sum\limits_{i=1}^{i=n} n_i}\sum_{i=1}^{i=n}(x_i-\bar x)^2n_i\\ =\frac 1 N\sum_{i=1}^{i=n}(x_i-\bar x)^2*n_i D(X)=i=1i=nni1i=1i=n(xixˉ)2ni=N1i=1i=n(xixˉ)2ni(2-2)
如果改成用频次来描述。已知一组样本 x i x_i xi和其出现的频次 f i f_i fi,求其均值和方差,只需要对2-1和2-2做简单变换即可得到
E ( X ) = ∑ i = 1 i = n x i f i D ( X ) = ∑ i = 1 i = n ( x i − x ˉ ) 2 f i E(X)=\sum\limits_{i=1}^{i=n}x_if_i\\ D(X)=\sum_{i=1}^{i=n}(x_i-\bar x)^2f_i E(X)=i=1i=nxifiD(X)=i=1i=n(xixˉ)2fi
好的,回到主题,概率论里的期望和方差,容易得到类似描述。先看离散型。
已知事件 X = x i X=x_i X=xi和其发生的概率 p i p_i pi,求期望和方差。
E ( X ) = ∑ i = 1 i = n x i p i D ( X ) = ∑ i = 1 i = n ( x i − x ˉ ) 2 p i \begin{aligned} E(X)&=\sum\limits_{i=1}^{i=n}x_ip_i\\ D(X)&=\sum_{i=1}^{i=n}(x_i-\bar x)^2p_i \end{aligned} E(X)D(X)=i=1i=nxipi=i=1i=n(xixˉ)2pi
几乎是直接搬过来的。
方差和期望有个著名的公式,我们推导一下
D ( X ) = ∑ i = 1 i = n ( x i − x ˉ ) 2 p i = ∑ i = 1 i = n x i 2 p i − 2 x ˉ ∑ i = 1 i = n x i p i + x ˉ 2 ∑ i = 1 i = n p i = ∑ i = 1 i = n x i 2 p i − 2 x ˉ ∗ x ˉ + x ˉ 2 ∗ 1 = E ( x i 2 ) − E ( x i ) 2 \begin{aligned} D(X)&=\sum_{i=1}^{i=n}(x_i-\bar x)^2p_i\\ &=\sum_{i=1}^{i=n} x_i^2p_i-2\bar x\sum_{i=1}^{i=n} x_ip_i+\bar x^2\sum_{i=1}^{i=n} p_i\\ &=\sum_{i=1}^{i=n} x_i^2p_i-2\bar x*\bar x+\bar x^2*1\\ &= E(x_i^2)-E(x_i)^2 \end{aligned} D(X)=i=1i=n(xixˉ)2pi=i=1i=nxi2pi2xˉi=1i=nxipi+xˉ2i=1i=npi=i=1i=nxi2pi2xˉxˉ+xˉ21=E(xi2)E(xi)2
连续型随机变量有类似的公式和推导,这里只给出结果。
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x D ( X ) = ∫ − ∞ + ∞ ( x − E ( x ) ) 2 f ( x ) d x = E ( x 2 ) − E ( x ) 2 \begin{aligned} E(X)&=\int_{-\infin}^{+\infty}xf(x)dx\\ D(X)&=\int_{-\infty}^{+\infin}(x-E(x))^2f(x)dx\\ &=E(x^2)-E(x)^2\end{aligned} E(X)D(X)=+xf(x)dx=+(xE(x))2f(x)dx=E(x2)E(x)2

大数定理和中心极限定理

弱大数定理(辛钦大数定理)

X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn是相互独立的服从同分布的变量序列,具有数学期望 E ( X k ) = μ ( k = 1 , 2 , . . . ) E(X_k)=\mu(k=1,2,...) E(Xk)=μ(k=1,2,...),求前 n n n个变量的算术平均值 1 n ∑ k = 1 n X k \displaystyle\frac 1 n\sum_{k=1}^nX_k n1k=1nXk,对于任意小的 ϵ > 0 \epsilon>0 ϵ>0,都有
lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 \lim_{n\to\infin}P\{\left|\frac 1 n\sum_{k=1}^nX_k-\mu\right|<\epsilon\}=1 nlimP{ n1k=1nXkμ <ϵ}=1

翻译成通俗易懂的人话就是:我们的样本只要足够大,样本的均值就能无限接近总体的数学期望。

伯努利大数定理

f A f_A fA n n n次独立重复试验中事件A发生的次数, p p p是事件A在每次试验中发生的概率,对于任意小的 ϵ > 0 \epsilon>0 ϵ>0,都有
lim ⁡ n → ∞ P { ∣ f A n − p ∣ < ϵ } = 1 \lim_{n\rarr\infty}P\{\left|\frac {f_A} n-p\right|<\epsilon\}=1 nlimP{ nfAp <ϵ}=1

同样翻译成通俗易懂的人话就是:对于一个事件 A A A,试验的次数只要足够多,则事件 A A A在样本中出现的频率就能无限接近事件 A A A发生的概率

中心极限定理(独立同分布的中心极限定理)

X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn是相互独立的服从同分布的变量,具有数学期望和方差: E ( X k ) = μ , D ( X k ) = σ 2 > 0 ( k = 1 , 2 , . . . ) E(X_k)=\mu,D(X_k)=\sigma^2>0(k=1,2,...) E(Xk)=μD(Xk)=σ2>0(k=1,2,...),则随机变量之和 ∑ k = 1 n X k \sum\limits_{k=1}^n X_k k=1nXk的标准化变量
Y n = ∑ k = 1 n X k − E ( ∑ k = 1 n X k ) D ( ∑ k = 1 n X k ) = ∑ k = 1 n X k − n μ n σ \def\dsum{\displaystyle \sum_{k=1}^n}\\ \gdef\dd#1{\dsum{#1}} \begin{aligned} Y_n=\frac {\dsum X_k-E(\dd X_k)} {\sqrt {D(\dd X_k)}} = \frac {\dsum X_k-n\mu} {\sqrt n\sigma} \end{aligned} Yn=D(k=1nXk) k=1nXkE(k=1nXk)=n σk=1nXknμ
的分布函数 F n ( x ) F_n(x) Fn(x)对于任意 x x x满足
lim ⁡ n → ∞ F n ( x ) = lim ⁡ n → ∞ P { ∑ k = 1 n X k − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x ) \def\dsum{\displaystyle\sum_{k=1}^n} \def\limn{\lim_{n\to\infty}} \begin{aligned} \limn F_n(x)&=\limn P\left\{\frac {\dsum X_k-n\mu} {\sqrt n\sigma}\le x\right\}\\ &=\int_{-\infin}^x \frac 1 {\sqrt{2\pi}}e^{-t^2/2}dt\\ &=\Phi(x) \end{aligned} nlimFn(x)=nlimP n σk=1nXknμx =x2π 1et2/2dt=Φ(x)

翻译成通俗易懂的人话:均值为 μ \mu μ,方差为 σ 2 > 0 \sigma^2>0 σ2>0的独立同分布随机变量 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn之和 ∑ k = 1 n X k \sum\limits_{k=1}^n X_k k=1nXk的标准化随机变量,当 n n n充分大的时候满足 μ = 0 , σ 2 = 1 \mu=0,\sigma^2=1 μ=0,σ2=1的正态分布。
∑ k = 1 n X k − n μ n σ a p p r o x i m a t e ∼ N ( 0 , 1 ) \def\dsum{\displaystyle\sum_{k=1}^n} \frac {\dsum X_k-n\mu} {\sqrt n\sigma}\quad \underset {\sim} {\small approximate}\quad N(0,1) n σk=1nXknμapproximateN(0,1)
可以再做个简单变换,得到 n → ∞ n\to\infin n
X ˉ − μ σ / n ∼ N ( 0 , 1 ) ,或 X ˉ ∼ N ( μ , σ 2 / n ) \frac{\bar X-\mu}{\sigma /\sqrt n}\sim N(0,1) ,或 \bar X\sim N(\mu,\sigma^2/n) σ/n XˉμN(0,1),或XˉN(μ,σ2/n)

李雅普诺夫(Lyapunov)定理

X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn是相互独立的随机变量,具有数学期望和方差: E ( X k ) = μ k , D ( X k ) = σ k 2 > 0 ( k = 1 , 2 , . . . ) E(X_k)=\mu_k,D(X_k)=\sigma^2_k>0(k=1,2,...) E(Xk)=μkD(Xk)=σk2>0(k=1,2,...),记 B n 2 = ∑ k = 1 n σ k 2 B_n^2=\sum_{k=1}^n \sigma_k^2 Bn2=k=1nσk2,若存在正数 δ \delta δ,使得当 n → ∞ n\rarr\infty n时,
1 B n 2 + δ ∑ k = 1 n E ∣ X k − μ k ∣ 2 + δ → 0 \frac 1 {B_n^{2+\delta}}\sum_{k=1}^n E{|X_k-\mu_k|^{2+\delta}}\to0 Bn2+δ1k=1nEXkμk2+δ0
则随机变量之和 ∑ k = 1 n X k \sum\limits_{k=1}^n X_k k=1nXk的标准化变量
Z n = ∑ k = 1 n X k − E ( ∑ k = 1 n X k ) D ( ∑ k = 1 n X k ) = ∑ k = 1 n X k − ∑ k = 1 n μ k B n \def\dsum{\displaystyle\sum_{k=1}^n} Z_n=\frac {\dsum X_k-E(\dsum X_k)} {\sqrt{D(\dsum X_k)}}=\frac{\dsum X_k-\dsum\mu_k}{B_n} Zn=D(k=1nXk) k=1nXkE(k=1nXk)=Bnk=1nXkk=1nμk
的分布函数 F n ( x ) F_n(x) Fn(x)对于任意 x x x满足
lim ⁡ n → ∞ F n ( x ) = lim ⁡ n → ∞ P { ∑ k = 1 n X k − ∑ k = 1 n μ k B n ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x ) \def\dsum{\displaystyle\sum_{k=1}^n} \def\limn{\lim_{n\to\infty}} \begin{aligned} \limn F_n(x)&=\limn P\left\{\frac {\dsum X_k-\dsum\mu_k} {B_n}\le x\right\}\\ &=\int_{-\infin}^x \frac 1 {\sqrt{2\pi}}e^{-t^2/2}dt\\ &=\Phi(x) \end{aligned} nlimFn(x)=nlimP Bnk=1nXkk=1nμkx =x2π 1et2/2dt=Φ(x)

李雅普诺夫定理和独立同分布的中心极限定理的区别就是去掉了同分布的限制,引入了一个辅助函数 B n B_n Bn。即当 n n n很大时, Z n Z_n Zn近似服从N(0,1)

棣莫佛-拉普拉斯(De Moivre-Laplace)定理

设随机变量 η n ( n = 1 , 2 , . . . ) \eta_n(n=1,2,...) ηn(n=1,2,...)服从参数为 n , p ( 0 < p < 1 ) n,p(0<p<1) n,p(0<p<1)的二项分布,对于任意 x x x,有
lim ⁡ n → ∞ { η n − n p n p ( 1 − p ) ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t = Φ ( x ) (3-1) \tag{3-1}\lim_{n\to\infty}\left\{\frac {\eta_n-np}{\sqrt{np(1-p)}}\le x\right\}\\=\int_{-\infin}^x\frac 1{\sqrt{2\pi}}e^{-t^2/2}dt=\Phi(x) nlim{np(1p) ηnnpx}=x2π 1et2/2dt=Φ(x)(3-1)

实际上这个定理是独立同分布中心极限定理的特例,好像没啥用?正态分布是二项分布的极限分布,当n充分大的时候,可以使用公式3-1来计算二项分布的概率。当只计算某个事件出现概率的时候,这个公式用处不大,但是计算某个范围的时候,就很有用。举个例子,一个盒子里有3个红球和7个白球,有放回的取10000次,请问取出红球的次数为200-1000次之间的概率是多少?当然我们可以有一个精确地结果
P { 200 ≤ X ≤ 1000 } = ∑ i = 200 1000 ( i 10000 0. 3 i 0. 7 10000 − i ) P\{200\le X\le 1000\}=\sum_{i=200}^{1000}\left(\underset {10000}i0.3^i0.7^{10000-i}\right) P{200X1000}=i=2001000(10000i0.3i0.710000i)
但是实际上可以根据 Φ ( x ) \Phi(x) Φ(x)函数来求解,就容易的多了。

小结

这里总结下大数定理和中心极限定理描述的问题的差异。
大数定理关注的是在试验序列中,单个事件的概率问题;中心极限定理关注的是本次试验的统计特征。如果转换成假设检验会更容易理解一点:大数定理关心的是单个样本(单个样本可能包含多次试验结果)中,随着样本的增大,样本中某个事件的频次会更加接近事件发生的概率本身;中心极限定理关心的是多个样本(每个样本都包含多个试验结果)的均值、方差和总体的期望、方差之间的关系。

样本估计

X X X是具有分布函数 F F F的随机变量,若 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn是具有同样分布函数 F F F的、相互独立的随机变量,则称 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn为分布函数 F F F(或总体 F F F,或总体 X X X)得到的容量为 n n n简单随机样本,简称样本,他们的观察值 x 1 , x 2 , . . . x n x_1,x_2,...x_n x1,x2,...xn称为样本值,又称为 X X X n n n个独立观察值。因为 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn相互独立,且分布函数都是 F F F,所以 ( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)的分布函数为
F ( x 1 , x 2 , . . . x n ) = ∏ i = 1 n F ( x i ) F(x_1,x_2,...x_n)=\prod_{i=1}^nF(x_i) F(x1,x2,...xn)=i=1nF(xi)
( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)的概率密度函数为
f ( x 1 , x 2 , . . . x n ) = ∏ i = 1 n f ( x i ) f(x_1,x_2,...x_n)=\prod_{i=1}^nf(x_i) f(x1,x2,...xn)=i=1nf(xi)

概率分布函数的表达式实际上也是最大似然估计的理论基础。

X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn是来自总体 X X X的一个样本, g ( X 1 , X 2 , . . . X n ) g(X_1,X_2,...X_n) g(X1,X2,...Xn) X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn的函数,若 g g g中不含未知参数,则成 g ( X 1 , X 2 , . . . X n ) g(X_1,X_2,...X_n) g(X1,X2,...Xn)是一个统计量。

χ 2 \chi^2 χ2分布, t t t分布 F F F分布被称为统计学三大分布,但是一个都没弄懂,怎么办?

附录

切比雪夫不等式

设随机变量 X X X具有数学期望 E ( X ) = μ E(X)=\mu E(X)=μ和方差 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2,则对于任意正数 ϵ \epsilon ϵ,不等式成立
P { ∣ X − μ ∣ ≥ ϵ } ≤ σ 2 ϵ 2 P\{|X-\mu|\ge\epsilon\}\le\frac{\sigma^2}{\epsilon^2} P{Xμϵ}ϵ2σ2
以连续型随机变量为例
P { ∣ x − μ ∣ ≥ ϵ } = ∫ ∣ x − μ ∣ ≥ ϵ f ( x ) d x ≤ ∫ ∣ x − μ ∣ ≥ ϵ ∣ x − μ ∣ 2 ϵ 2 f ( x ) d x ( 因为 ∣ x − μ ∣ ≥ ϵ ) = 1 ϵ 2 ∫ ∣ x − μ ∣ ≥ ϵ ( x − μ ) 2 f ( x ) d x ≤ 1 ϵ 2 ∫ − ∞ + ∞ f ( x ) d x ( 扩展积分上下限后,右式恰为方差 ) = σ 2 ϵ 2 \def\irange{{|x-\mu|\ge\epsilon}} \begin{aligned} P\{\irange\}&=\int_{\irange}f(x)dx\\ &\le\int_{\irange}\frac{|x-\mu|^2}{\epsilon^2}f(x)dx \quad\quad (因为|x-\mu|\ge\epsilon)\\ &=\frac1{\epsilon^2}\int_\irange(x-\mu)^2f(x)dx\quad\quad \\ &\le \frac1{\epsilon^2}\int_{-\infty}^{+\infin}f(x)dx\quad\quad (扩展积分上下限后,右式恰为方差)\\ &=\frac{\sigma^2}{\epsilon^2} \end{aligned} P{xμϵ}=xμϵf(x)dxxμϵϵ2xμ2f(x)dx(因为xμϵ)=ϵ21xμϵ(xμ)2f(x)dxϵ21+f(x)dx(扩展积分上下限后,右式恰为方差)=ϵ2σ2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值