正态分布
用Y表示表示随机变量,若其服从均值为
μ
\mu
μ,方差为
δ
2
\delta^2
δ2的分布规律,则称其为正态分布
Y
∼
N
(
μ
,
δ
2
)
Y\sim N\left(\mu,\delta^2\right)
Y∼N(μ,δ2)
经常用在自然和社会科学来代表一组不明的随机变量,正态分布的数学期望为
μ
\mu
μ,决定了其分布的位置,其方差
δ
2
\delta^2
δ2或标准差
δ
\delta
δ决定了分布的幅度。
正态分布的概率密度函数为
f
(
x
)
=
1
δ
2
π
e
−
(
x
−
μ
)
2
2
δ
2
f(x)=\frac{1}{\delta\sqrt{2\pi}}e^-\frac{\left(x-\mu\right)^2}{2\delta^2}
f(x)=δ2π1e−2δ2(x−μ)2
标准正态分布
标准正态分布是当
μ
=
0
\mu=0
μ=0,
δ
2
=
1
\delta^2=1
δ2=1时的正态分布,即
Y
∼
N
(
0
,
1
)
Y\sim N\left(0,1\right)
Y∼N(0,1)。
正态分布
(
μ
,
δ
2
)
\left(\mu,\delta^2\right)
(μ,δ2)函数曲线下的面积:
68.27%的面积在平均值左右的一个标准差范围内
95.45%的面积在平均值左右两个标准差2σ的范围内
99.73%的面积在平均值左右三个标准差3σ的范围内
99.99%的面积在平均值左右四个标准差4σ的范围内
根据正态分布衍生的三大分布
1. χ 2 \chi^2 χ2 分布
在很久以前,通过看其他资料或者其他形式了解的时候,总是有点半懵的状态,根绝略懂又又些不太懂(可能我比较笨一点),都是因为它们表示得太抽象,难以理解。其实卡方分布可以简单的理解为一句话:n个服从标准正态分布的随机变量的平方和构成一新的随机变量。
设 随机变量Y1,Y2,…Yn相互独立, 都服从标准正态分布N(0,1), 则称随机变量
Y
2
=
Y
1
2
+
Y
2
2
+
.
.
.
.
.
.
+
Y
n
2
Y^2=Y^{2}_{1}+Y^{2}_{2}+......+Y^{2}_{n}
Y2=Y12+Y22+......+Yn2所服从的分布为自由度为 n 的
Y
2
Y^{2}
Y2分布。其中n称为自由度(样本中独立或能自由变化的自变量的个数)当总体
Y
∼
N
(
μ
,
δ
2
)
Y\sim N\left(\mu,\delta^2\right)
Y∼N(μ,δ2),从中抽取容量为
n
n
n的样本时,则
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
δ
2
∼
χ
2
(
n
−
1
)
\frac{\sum\limits_{i=1}^{n}{\left(X_i-\bar{X}\right)^2}}{\delta^2} \sim \chi^2 \left(n-1\right)
δ2i=1∑n(Xi−Xˉ)2∼χ2(n−1)
卡方分布的密度函数为
f
(
x
)
=
{
1
2
n
/
2
Γ
(
n
/
2
)
e
−
x
2
x
n
2
−
1
x>0
0
x
≤
0
f(x)= \begin{cases} \frac{1}{2^{n/2}\Gamma\left(n/2\right)}e^{-\frac{x}{2}}x^{\frac{n}{2}-1} & \text{x>0}\\\\ 0& \text{x$\leq$0} \end{cases}
f(x)=⎩⎪⎨⎪⎧2n/2Γ(n/2)1e−2xx2n−10x>0x≤0
卡方分布有以下特点:
1.分布的变量值始终为正;
2.随着参数 n 的增大,分布趋近于正态分布;
3.期望为,
E
(
χ
2
)
=
n
E(\chi^2)=n
E(χ2)=n,方差为:
D
(
χ
2
)
=
2
n
D(\chi^2)=2n
D(χ2)=2n(
n
n
n为自由度);
4.可加性,若存在
A
∼
χ
2
(
n
1
)
A\sim\chi^2(n_1)
A∼χ2(n1)和
B
∼
χ
2
(
n
2
)
B\sim\chi^2(n_2)
B∼χ2(n2)这样的两个卡方分布,则A+B也服从自由度为
n
1
+
n
2
n_1+n_2
n1+n2的卡方分布。
2. t t t 分布
假设有两组随机变量:
随机变量
X
X
X服从标准正态分布
N
(
0
,
1
)
N(0,1)
N(0,1)
随机变量
Y
Y
Y服从自由度为
n
n
n的卡方分布
χ
2
(
n
)
\chi^2(n)
χ2(n)
X
X
X与
Y
Y
Y独立,则由服从不同分布的两组随机变量衍生成新的随机变量
t
t
t,且满足一下条件
t
=
X
Y
/
N
t=\frac{X}{\sqrt{Y/N}}
t=Y/NX
则称
t
t
t为服从自由度为
n
n
n的
t
t
t分布或学生氏分布。其密度函数为:
f
(
x
)
=
Γ
(
n
+
1
2
)
n
π
Γ
(
n
/
2
)
(
1
+
x
2
n
)
−
n
+
1
2
f(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma(n/2)}\left(1+\frac{x^2}{n}\right)^{-\frac{n+1}{2}}
f(x)=nπΓ(n/2)Γ(2n+1)(1+nx2)−2n+1
![](https://i-blog.csdnimg.cn/blog_migrate/8890d74537c65569deaee8802f1d0c99.png)
也是随着自由度逐渐增大,t分布逐渐接近标准正态分布。
3. F F F 分布
假设有两组随机变量
U
U
U、
V
V
V,且
U
∼
χ
2
(
n
1
)
U\sim\chi^2(n_1)
U∼χ2(n1),
V
∼
χ
2
(
n
2
)
V\sim\chi^2(n_2)
V∼χ2(n2),
U
U
U、
V
V
V相互独立,当
F
=
U
/
n
1
V
/
n
2
F=\frac{U/n_1}{V/n_2}
F=V/n2U/n1
则称
F
F
F为服从自由度为
n
1
n_1
n1,
n
2
n_2
n2的
F
F
F分布,记为
F
∼
F
(
n
1
,
n
2
)
F\sim F(n_1,n_2)
F∼F(n1,n2)
其密度函数为:
f
n
1
,
n
2
(
x
)
=
{
Γ
(
n
1
+
n
2
2
)
Γ
(
n
1
2
)
Γ
(
n
2
2
)
n
1
n
1
2
n
2
n
2
2
x
n
1
2
−
1
(
n
2
+
n
1
x
)
−
n
1
+
n
2
2
x>0
0
x
≤
0
f_{n_1,n_2}(x)= \begin{cases} \frac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}n_1^{\frac{n_1}{2}}n_2\frac{n_2}{2}x^{\frac{n_1}{2}-1}(n_2+n_1x)^{-\frac{n_1+n_2}{2}} & \text{x>0}\\\\ 0& \text{x$\leq$0} \end{cases}
fn1,n2(x)=⎩⎪⎪⎨⎪⎪⎧Γ(2n1)Γ(2n2)Γ(2n1+n2)n12n1n22n2x2n1−1(n2+n1x)−2n1+n20x>0x≤0
图示
以上就是统计学中几种比较常见、重要的分布的简单概述,讲到的都是比较浅层的东西,没人深入的透析,而且语言比较通俗。
下一篇总结一下点估计,区间估计和中心极限定理。