样本及抽样分布——《概率论及其数理统计》第六章学习笔记
文章目录
前言
从第五章开始,就有点看不懂了,问题8大,简单记下,有空再复习。
内容上,显而易见,第三节的抽样分布是重中之重,而第一节是带来样本,总体等名词的概念,第二节则是介绍直方图和箱线图,只有第三节涵盖了该章几乎80%的知识点,且多数是出现在题目的知识点。
MindMap
随机样本
定义
直接看课本的定义
设 X 是具有 分布函数
F 的随机变量,
若
X
1
,
X
2
,
.
.
.
,
X
n
若 X_1, X_2,...,X_n
若X1,X2,...,Xn
是具有 同一分布函数
F 的、相互独立的随机变量,则称
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2,...,X_n
X1,X2,...,Xn
为分布函数 F 得到的 容量为n的简单随机样本, 简称样本,其观测值为(小写的)
x
1
,
x
2
,
.
.
.
,
x
n
x_1, x_2, ...,x_n
x1,x2,...,xn
称为 样本值
, 又称为 X 的 n 个 独立的观察值。
分布函数
从习题的内容来看,考察样本的分布函数要比直接考察定义的概率要大一些。
F ∗ ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n F ( x i ) F^*(x_1, x_2, ..., x_n) = \prod_{i=1}^{n}{F(x_i)} F∗(x1,x2,...,xn)=i=1∏nF(xi)
概率密度的类似,不打了
直方图和箱线图
直方图
(频率直方图) 很好理解,就不在此展开了。
我们重点看箱线图。
分位数
在了解箱线图之前,我们需要知道 样本分位数
。
分位数很好理解,其实就是样本中的 一个分割的数字,将样本分成两个部分,我们设容量为 n 的样本观测值 x1, x2, …, xn 的样本p分位数xp, 有以下性质
- 至少np 个观测值 小于或等于xp。
- 至少n(1-p) 个观察值大于等于 xp。
具体的表达式为
x
p
=
{
x
(
[
n
p
]
+
1
)
,
当
n
p
不
是
整
数
,
1
2
[
x
(
n
p
)
+
x
(
n
p
+
1
)
]
,
当
n
p
整
数
。
x_p = \left\{ \begin{array}{lr} x_{([np]+1)}, \qquad & 当n_p 不是整数, \\ \frac{1}{2}[x_{(np)} + x_{(np+1)}], & 当n_p 整数。 \end{array} \right.
xp={x([np]+1),21[x(np)+x(np+1)],当np不是整数,当np整数。
特别,当 p = 0.5时,其实就是我们熟悉的中位数。
我们将 0.25分位数
称为 第一四分位数,记为 Q1,0.75分位数
称为 第三四分位数, 记为 Q3。由此则可以引出箱线图。
箱线图
该图基于 最小值Min, Q1,中位数M,Q3,最大值Max 5个值。具体做法可以直接参考课本的内容。
箱线图有以下重要性质:
- 中心位置,中位数所在位置就是数据集的中心。
- 散布程度,可以通过箱线图直观看出各区间的数据的集中与分散。
疑似异常值
这里主要是 数据中出现 某一个数据(不合常理的大或者小的数据),就称为 疑似异常值
。
我们记 Q1 和 Q3 的距离为 IQR,称为 四分位数间距
,若数据 小于 Q1-1.5IQR, 或者 大于 Q3+1.5IQR,就是疑似异常值。
经过上述处理的箱线图 就是 修正箱线图
。
抽样分布
重点来了!
统计量
定义
设 X 1 , . . . , X n 是 来 自 总 体 X 的 一 个 样 本 , g ( X 1 , . . . , X n ) 是 X 1 , . . . , X n 的 函 数 , 且 g 不 含 未 知 参 数 , 就 称 为 g ( X 1 , . . . , X n ) 是 一 统 计 量 。 设 X_1,...,X_n 是来自总体X的一个样本,g(X_1,...,X_n) 是X_1,...,X_n 的函数, \\且 g不含未知参数,就称为g(X_1,...,X_n) 是一统计量。 设X1,...,Xn是来自总体X的一个样本,g(X1,...,Xn)是X1,...,Xn的函数,且g不含未知参数,就称为g(X1,...,Xn)是一统计量。
常见统计量
样本均值
X
‾
=
1
n
X
i
\overline{X} = \frac{1}{n}X_i
X=n1Xi
样本方差
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
‾
)
2
=
1
n
−
1
(
∑
i
=
1
n
X
i
−
n
X
‾
2
)
S^2 = \frac{1}{n-1}\sum_{i=1}^{n}{(X_i - \overline{X})^2} = \frac{1}{n-1}(\sum_{i=1}^{n}{X_i - n\overline{X}^2})
S2=n−11i=1∑n(Xi−X)2=n−11(i=1∑nXi−nX2)
样本标准差
S
=
S
2
=
1
n
−
1
(
∑
i
=
1
n
X
i
−
n
X
‾
2
)
S=\sqrt{S^2} = \sqrt{\frac{1}{n-1}(\sum_{i=1}^{n}{X_i - n\overline{X}^2})}
S=S2=n−11(i=1∑nXi−nX2)
样本k阶矩
A
k
=
1
n
∑
i
=
1
n
X
i
k
,
k
=
1
,
2
,
.
.
.
A_k = \frac{1}n \sum_{i=1}^n{X_i^k}, \quad k=1,2,...
Ak=n1i=1∑nXik,k=1,2,...
样本中心矩
B
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
‾
)
k
,
k
=
2
,
3
,
.
.
.
B_k = \frac{1}n \sum_{i=1}^n{(X_i-\overline{X})^k}, \quad k=2,3,...
Bk=n1i=1∑n(Xi−X)k,k=2,3,...
经验分布函数
我觉得只需要知道一个点就可以了:样本观测值中小等于 指定值x所占的比率。
三大分布
X2 分布
χ 2 分 布 \chi^2 分布 χ2分布
我们设 Xi是 来自总体 N(0,1) 的样本,则
χ
2
=
X
1
2
+
X
2
2
+
.
.
.
+
X
n
2
\chi^2 = X_1^2 + X_2^2 + ... +X_n^2
χ2=X12+X22+...+Xn2
服从自由度 为 n 的
χ
2
分
布
,
记
为
χ
2
∼
χ
2
(
n
)
\chi^2 分布, 记为 \chi^2 \sim \chi^2(n)
χ2分布,记为χ2∼χ2(n)
概率密度
为:
f
(
y
)
=
{
1
2
n
2
Γ
(
n
/
2
)
y
n
/
2
−
1
e
−
y
/
2
,
y
>
0
0
,
其
他
f(y) = \left\{ \begin{array}{lr} \frac{1}{2^{\frac{n}{2}}\Gamma(n/2)}{y^{n/2 -1}e^{-y/2}}, \qquad & y > 0 \\ 0, & 其他 \end{array} \right.
f(y)={22nΓ(n/2)1yn/2−1e−y/2,0,y>0其他
该分布满足可加性
。
E
(
χ
2
)
=
n
,
D
(
χ
2
)
=
1
E(\chi^2) = n, D(\chi^2) = 1
E(χ2)=n,D(χ2)=1
t 分布
X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) , 且 X 和 Y 相 互 独 立 , t = X Y / n X\sim N(0,1), Y\sim \chi^2(n), 且 X 和 Y 相互独立,\\ t = \frac{X}{\sqrt{Y/n}} X∼N(0,1),Y∼χ2(n),且X和Y相互独立,t=Y/nX
t 服从 自由度
为n 的 t 分布,记为 t~t(n).
概率密度函数为
h
(
t
)
=
Γ
[
(
n
+
1
)
/
2
]
π
n
Γ
(
n
/
2
)
(
1
+
t
2
n
)
−
(
n
+
1
)
/
2
,
−
∞
<
t
<
∞
h(t) = \frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}{(1+\frac {t^2}n)^{-(n+1)/2}}, -\infty <t<\infty
h(t)=πnΓ(n/2)Γ[(n+1)/2](1+nt2)−(n+1)/2,−∞<t<∞
F 分布
敲累了,直接上图片吧。
这个就是两个满足 第一个分布,然后分式的情况。
补充说明,Γ 就是 伽马函数。
正态总体的样本均值与样本方差的分布
条件:总体存在均值 μ, 方差为 σ^2,
E
(
X
‾
)
=
μ
,
D
(
X
‾
)
=
σ
2
/
n
E
(
S
2
)
=
σ
2
E(\overline{X}) = \mu, \quad D(\overline{X}) = \sigma^2/n \\ E(S^2) = \sigma^2
E(X)=μ,D(X)=σ2/nE(S2)=σ2
Th2
X1,…,Xn 是总体N(μ,σ^2)的样本,
X
‾
∼
N
(
μ
,
σ
2
/
n
)
.
\overline{X} \sim N(\mu, \sigma^2 / n).
X∼N(μ,σ2/n).
Th3
( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) X ‾ 与 S 2 相 互 独 立 \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \\ \overline{X} 与 S^2 相互独立 σ2(n−1)S2∼χ2(n−1)X与S2相互独立
Th4
X ‾ − μ S / n ∼ t ( n − 1 ) \frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1) S/nX−μ∼t(n−1)
Th5
设 Xi,和 Yi 的来自两个正态总体,且两个样本相互独立。
S
1
2
/
S
2
2
σ
1
2
/
σ
2
2
∼
F
(
n
1
−
1
,
n
2
−
1
)
.
当
σ
1
2
=
σ
2
2
=
σ
2
时
\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \sim F(n_1-1, n_2-1). \\ 当\sigma^2_1 = \sigma_2^2 = \sigma^2 时
σ12/σ22S12/S22∼F(n1−1,n2−1).当σ12=σ22=σ2时