文章目录
离散型随机变量(Discrete Random Variable)的概率分布
- 二项分布(Binomial Distribution)
X
∼
B
i
n
(
n
,
p
)
X\sim Bin(n,p)
X∼Bin(n,p)
比如扔n次硬币,每一次扔硬币都是互相独立的,结果只包含正面和反面两种结果,出现正面的概率为 p p p, 出现反面的概率是 q q q, p + q = 1 p+q=1 p+q=1。设出现正面的次数是 X X X, 那么
p ( X = x ) = C n x p x q n − x p(X=x)=C^x_np^xq^{n-x} p(X=x)=Cnxpxqn−x, E ( X ) = n p , V a r ( X ) = n p q E(X)=np, Var(X)=npq E(X)=np,Var(X)=npq - 泊松分布(Poisson Distribution)
X
∼
P
o
i
s
(
λ
)
X\sim Pois(\lambda)
X∼Pois(λ)
一段时间内,事件发生的次数的概率。比如,一个小时内,5位顾客来店里的概率是多少?设顾客数为 X X X,一个小时内的顾客数平均是 λ \lambda λ, 来店里的顾客数就服从Poisson Distribution。
p ( X = x ) = λ e − λ x ! p(X=x)=\frac{\lambda e^{-\lambda}}{x!} p(X=x)=x!λe−λ , E ( X ) = λ , V a r ( X ) = λ E(X)=\lambda, Var(X)=\lambda E(X)=λ,Var(X)=λ
【当p趋近于0且n足够大时,Binomial Distribution近似等于Poisson Distribution。】
连续型随机变量(Continuous Random Variable)的概率分布
Probability Density Function or PDF:
f
(
x
)
f(x)
f(x)
Probability Mass Function or PMF:
F
(
x
)
F(x)
F(x)
F
(
x
)
=
p
(
X
≤
x
)
=
∫
−
∞
x
f
(
t
)
d
t
F(x)=p(X\leq x)=\int^x_{- \infty}f(t)dt
F(x)=p(X≤x)=∫−∞xf(t)dt,
f
(
x
)
=
F
′
(
x
)
f(x)=F^{'}(x)
f(x)=F′(x)
p
(
a
<
X
<
b
)
=
∫
a
b
f
(
x
)
d
x
=
F
(
a
)
−
F
(
b
)
p(a<X<b)=\int^b_af(x)dx=F(a)-F(b)
p(a<X<b)=∫abf(x)dx=F(a)−F(b),相当于density曲线下面在a和b之间的面积
期望与方差:
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
=
μ
E(X)=\int^{+\infty}_{-\infty}xf(x)=\mu
E(X)=∫−∞+∞xf(x)=μ
V
a
r
(
X
)
=
∫
−
∞
+
∞
[
x
−
E
(
x
)
]
2
f
(
x
)
=
σ
2
Var(X)=\int^{+\infty}_{-\infty}[x-E(x)]^2f(x)=\sigma^2
Var(X)=∫−∞+∞[x−E(x)]2f(x)=σ2
-
正态分布(Normal Distribution) X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)
f ( x ) = 1 σ 2 π e − 1 2 σ 2 ( x − μ ) 2 f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2} f(x)=σ2π1e−2σ21(x−μ)2, μ \mu μ决定图像中心位置,当 x = μ x=\mu x=μ时, f ( x ) f(x) f(x)达到最大值, f ( μ ) = 1 2 π σ f(\mu)=\frac{1}{2\pi\sigma} f(μ)=2πσ1。 σ \sigma σ越大,曲线越平缓。
-
标准正态分布(Standard Normal Distribution) Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) Z=σX−μ∼N(0,1)
P D F : φ ( x ) = 1 2 π e − x 2 2 PDF: \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} PDF:φ(x)=2π1e−2x2
P M F : ϕ ( x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t PMF:\phi(x)=\int^x_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt PMF:ϕ(x)=∫−∞x2π1e−2t2dt
正态分布概率问题中,将一般正态分布转化为标准正态分布后就可以查表,以及: ϕ ( − x ) = 1 − ϕ ( x ) \phi(-x)=1-\phi(x) ϕ(−x)=1−ϕ(x)
基于正态分布的几个分布
统计量(Statistics):
X
1
,
X
2
,
.
.
.
X
n
X_1,X_2,...X_n
X1,X2,...Xn是一个样本,那么由这些样本构造的函数:
T
(
X
1
,
X
2
,
.
.
.
X
n
)
T(X_1,X_2,...X_n)
T(X1,X2,...Xn)是样本的统计量。常见的统计量包括样本均值,样本方差等。
抽样分布(Sampling Distribution): 简单来说就是样本统计量的分布。在正态总体的情况下,可以推导出统计三大分布:
χ
2
\chi^2
χ2分布,
t
t
t分布,
F
F
F分布。
如果
X
1
,
X
2
,
.
.
.
X
n
X_1,X_2,...X_n
X1,X2,...Xn 相互独立且服从标准正态分布,那么
Σ
i
=
1
n
X
i
2
\Sigma_{i=1}^nX_i^2
Σi=1nXi2服从自由度(Degree of Freedom, or df)为n的
χ
2
\chi^2
χ2分布:
X
2
∼
χ
(
n
)
X^2\sim \chi(n)
X2∼χ(n)。如果
X
1
2
∼
χ
2
(
n
1
)
X_1^2\sim \chi^2(n_1)
X12∼χ2(n1),
X
2
2
∼
χ
2
(
n
2
)
X_2^2\sim \chi^2(n_2)
X22∼χ2(n2),那么
X
1
2
+
X
2
2
∼
χ
2
(
n
1
+
n
2
)
X_1^2+X_2^2\sim \chi^2(n_1+n_2)
X12+X22∼χ2(n1+n2)。不同的自由度下,卡方分布的
P
D
F
PDF
PDF如下图:
如果
X
X
X服从标准正态分布,
Y
Y
Y服从自由度为
n
n
n的卡方分布,且
X
X
X和
Y
Y
Y相互独立,那么
t
=
X
Y
/
n
t=\frac{X}{\sqrt{Y/n}}
t=Y/nX服从自由度为
n
n
n的
t
t
t分布:
t
∼
t
(
n
)
t\sim t(n)
t∼t(n)。
t
t
t分布的PDF图像和正态分布很像,都是钟型,但
t
t
t分布的尾部更厚一点,说明
t
t
t分布比正态分布更容易观测到极端值。自由度越高,越接近正态分布。一般认为
n
≥
30
n\geq30
n≥30时基本可以看做正态分布。不同自由度下的
t
t
t分布和标准正态分布的
P
D
F
PDF
PDF如下:
如果
V
1
,
V
2
V_1,V_2
V1,V2相互独立且满足自由度分别为
n
1
n_1
n1和
n
2
n_2
n2的卡方分布,那么
X
=
V
1
/
n
1
V
2
/
n
2
X=\frac{V_1/n_1}{V_2/n_2}
X=V2/n2V1/n1满足自由度为
n
1
n_1
n1和
n
2
n_2
n2(两个自由度的位置不能交换)的
F
F
F分布:
X
∼
F
(
n
1
,
n
2
)
X\sim F(n_1,n_2)
X∼F(n1,n2)。以及,如果
X
∼
t
(
n
)
X\sim t(n)
X∼t(n), 那么
X
2
∼
F
(
1
,
n
)
X^2\sim F(1,n)
X2∼F(1,n)。不同自由度下的
F
F
F分布PDF如下图:
中心极限定理(Central Limit Theorem)
样本均值 X ˉ \bar{X} Xˉ是一个常见的统计量,前面说过抽样分布时是样本统计量的分布,而在总体服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的情况下, X ˉ \bar{X} Xˉ的抽样分布也是正态分布: X ˉ ∼ N ( μ , σ 2 n ) \bar{X}\sim N(\mu,\frac{\sigma^2}{n}) Xˉ∼N(μ,nσ2)。而当总体不服从正态分布的情况下,根据中心极限定理,如果 n n n足够大, X ˉ \bar{X} Xˉ的分布也近似正态分布。设总体均值为 μ \mu μ, 总体方差为 σ 2 \sigma^2 σ2, 抽取样本量为 n n n的样本, n n n足够大时, X ˉ \bar{X} Xˉ近似服从 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) N(μ,nσ2),或 X ˉ − μ σ / n \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} σ/nXˉ−μ近似服从 N ( 0 , 1 ) N(0,1) N(0,1)。
····················未完待续····················