数理统计 —— 总体、样本、统计量及其分布

最新推荐文章于 2022-12-06 12:13:51 发布

云端FFF

最新推荐文章于 2022-12-06 12:13:51 发布

阅读量6.5k

点赞数 11

分类专栏： # 概率论与数理统计文章标签：总体样本统计量三大分布数理统计

本文链接：https://blog.csdn.net/wxc971231/article/details/113826788

版权

概率论与数理统计专栏收录该内容

8 篇文章

订阅专栏

本文介绍了统计学的基本概念，包括总体与样本的定义，样本的分布特性，以及统计量的计算和性质。讨论了样本均值、样本方差作为常用统计量的角色，解释了为何在计算方差时使用1/(n-1)的修正系数。此外，文章还概述了X²、t和F分布的重要性，这些都是统计推断中不可或缺的抽样分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 总体与样本

1.1 总体

研究对象的全体称为总体，组成总体的每一个元素称为个体。在对总体进行统计研究时，我们所关心的是表征总体状况的某个（或某几个）数量指标 $X$ （可以是向量）和该指标在总体中的分布情况。
- 例如：总体是一批灯泡， $X$ 是寿命；总体是某市市民， $X$ 是收入
我们把总体与随机变量 $X$ 等同起来，说 "总体 $X$ "。所谓总体的分布就是指随机变量 $X$ 的分布

1.2 样本

1.2.1 定义

n个相互独立且与总体 $X$ 具有相同概率分布的随机变量 $X_1,X_2,…,X_n$ 所组成的整体 $X_1,X_2,…,X_n)$ 称为来自总体 $X$ ，容量为 $n$ 的一个简单随机样本，简称 样本 。
样本中的每个随机变量都独立同分布于总体 $X$ ，即 $X_i\stackrel{i.i.d}{\sim}X$
一次抽样结果的n个具体数值 $x_1,x_2,...,x_n)$ 称为样本 $X_1,X_2,…,X_n$ 的一个 观测值 或 样本值

1.2.2 分布

对于容量为n的样本 $X_1,X_2,…,X_n$ ，假设总体 $X$ 的分布函数为 $F (x)$ ，则 $X_1,X_2,…,X_n)$ 的分布函数为
$F(x_1,x_2,...,x_n) = \prod\limits_{i=1}^n F(x_i)$
- 若 $X$ 为离散型随机变量，概率分布为 $p_i = P(X=x_i)$ ，联合分布为
  $P\{X_1 = x_1,X_2=x_2,...,X_n=x_n\} = \prod\limits_{i=1}^n P\{X_i=x_i\}$
- 若 $X$ 为连续型随机变量，概率密度为 $f (x)$ ，联合概率密度为
  $f(x_1,x_2,...,x_n) = \prod\limits_{i=1}^n f(x_i)$

2. 统计量及其分布

2.1 统计量

2.1.1 定义

设 $X_1,X_2,…,X_n$ 为来自总体 $X$ 的一个样本， $g(x_1,x_2,...,x_n)$ 为n元函数，如果g中不含任何未知参数，则 称 $g(X_1,X_2,...,X_n)$ 为样本 $X_1,X_2,…,X_n$ 的一个统计量。
若 $x_1,x_2,...,x_n)$ 为样本值，则称 $g(x_1,x_2,...,x_n)$ 为 $g(X_1,X_2,...,X_n)$ 的 观测值
说明：
- 直观上，统计量是由统计数据计算得来的量。数学上，统计量是样本 $X_1,X_2,…,X_n$ 的函数，不依赖于任何未知参数
- 作为随机变量的函数，统计量也是随机变量

2.1.2 常用统计量

2.1.2.1 两类常用统计量

数字样本特征：
- 样本均值： $\bar{X} = \frac{1}{n} \sum \limits_{i=1}^n X_i$
- 样本方差： $S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i-\bar{X})^2$
  样本标准差： $\sqrt{\frac{1}{n-1}\sum \limits_{i=1}^n (X_i-\bar{X})^2}$
- 样本k阶（原点）矩： $A_k = \frac{1}{n}\sum\limits_{i=1}^nX_i^k (k=1,2,...)$
- 样本k阶中心矩： $B_k = \frac{1}{n}\sum\limits_{i=1}^n(X_i-\bar{X})^k (k=2,3,...)$
顺序统计量：
- 将样本 $X_1,X_2,…,X_n$ 的n个观测量按其取值从小到大的顺序排列，得
  $X_{(1)} \leq X_{(2)} \leq...\leq X_{(n)}$
  随机变量 $X_{(k)}(k=1,2,...,n)$ 称作第 $k$ 顺序统计量，其中 $X_{(1)}$ 是最小的顺序统计量，而 $X_{(n)}$ 是最大顺序统计量，即
  $X_{(1)} = min\{X_1,X_2,…,X_n\}\\X_{(n)}=max\{X_1,X_2,…,X_n\}$
- 注：
  - 推导1
    $\begin{aligned} F_{X(n)}(x) &= P\{X_{(n)} \leq x\} \\ &= P\{max\{X_1,X_2,…,X_n\} \leq x\} \\ &= P\{X_1 \leq x,...,X_n \leq x\} \\ &= P\{X_1 \leq x\}...P\{X_n \leq x\} \\ &= F_{X_1}(x)...F_{X_n}(x) \\ &= [F(x)]^n\\ f_{X(n)}(x) &= F_{X(n)}^{'}(x) \\ &= n[F(x)]^{n-1} f(x) \\ \end{aligned}$
  - 推导2
    $\begin{aligned} F_{X(1)}(x) &= P\{X_{(1)} \leq x\} \\ &= P\{min\{X_1,X_2,…,X_n\} \leq x\} \\ &= 1 - P\{min\{X_1,X_2,…,X_n\} > x\} \\ &= 1 - P\{X_1 > x,...,X_n > x\} \\ &= 1 - P\{X_1 > x\}...P\{X_n > x\} \\ &= 1 - [1-P\{X_1 \leq x\}]...[1-P\{X_n \leq x\}] \\ &= 1 - [1-F_{X_1}(x)]...[1-F_{X_n}(x)]\\ &= 1 - [1-F(x)]^n\\ f_{X(1)}(x) &= F_{X(1)}^{'}(x) \\ &= n[1-F(x)]^{n-1} f(x) \\ \end{aligned}$
说明：
- 样本均值就是样本的一阶原点矩
- 样本方差不是二阶中心距。和期望不同，虽然算方差时也有n个元素求和，但系数不是 $\frac{1}{n}$ 而是 $\frac{1}{n-1}$ ，这样调整是为了估计的无偏性

2.1.2.2 常用统计量的性质

设总体 $X$ 的期望 $EX=\mu$ ，方差 $\sigma^2$ ， $X_1,X_2,…,X_n$ 是取自总体 $X$ ，容量为 $n$ 的一个样本， $\bar{X},S^2$ 分别为样本均值和方差，则
1. $EX_i =\mu$
2. $DX_i = \sigma^2(i=1,2,...,n)$
3. $E\bar{X} = E(\frac{1}{n} \sum\limits_{i=1}^nX_i)=\frac{1}{n}n\mu = \mu$
4. $D\bar{X} = D(\frac{1}{n} \sum\limits_{i=1}^nX_i)=\frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}$
5. $E(S^2)=DX=\sigma^2$
说明
- 由于 $X_i$ 独立同分布，每个样本的期望和方差都与总体相同，其波动中心一致，因此均值的期望不变；波动程度相当于做了均值滤波减小了，因此方差为原先的 $\frac{1}{n}$
- 样本方差 $S^2$ 系数是 $\frac{1}{n-1}$ 的原因就是为了使 $E(S^2)$ 为无偏估计 $\sigma^2$ ，分析如下
  $\begin{aligned} S^2 &= \frac{1}{n-1} \sum\limits_{i=1}^n (X_i-\bar{X})^2 \\ &= \frac{1}{n-1} \sum\limits_{i=1}^n(X_i^2-2X_i\bar{X}+ \bar{X}^2) \\ &= \frac{1}{n-1} (\sum_{i=1}^nX_i^2-2\bar{X}\sum_{i=1}^nX_i+n\bar{X}^2)\\ &= \frac{1}{n-1} (\sum_{i=1}^nX_i^2-n\bar{X}^2)\\ ES^2 &= \frac{1}{n-1} E(\sum\limits_{i=1}^nX_i^2-n\bar{X}) \\ &= \frac{1}{n-1} (\sum_{i=1}^nEX_i^2 - nE\bar{X}^2) \\ &= \frac{1}{n-1} [n((EX_i)^2+DX_i - (E\bar{X})^2-D\bar{X})]\\ &= \frac{1}{n-1} [n(\mu^2+\sigma^2-\mu^2-\frac{\sigma^2}{n})]\\ &= \sigma^2 \end{aligned}$

2.2 三大分布

$\mathcal{X}^2$ 分布、 $t$ 分布、 $F$ 分布是统计推断中最常用的抽样分布。
不必记忆三种分布的概率密度，只需了解相应变量的典型模式，以及它们的分布曲线的示意图和分位数，会查相应分位数的数值表即可
分布名下标表示 “上分位点”

2.2.1 $\mathcal{X}^2$ 分布

典型模式
- 若随机变量 $X_1,X_2,...,X_n$ 相互独立，且都服从标准正态分布（即 $X_i\stackrel{i.i.d}{\sim} N(0,1)$ ），则随机变量 $\sum\limits_{i=1}^nX_i^2$ 服从 自由度 为 $n$ 的 $\mathcal{X}^2$ 分布，记为 $\sim \mathcal{X}^2(n)$ 。特别地， $X_i^2 \sim \mathcal{X}^2(1)$
- $X$ 的概率密度 $f (x)$ 如下所示
- 对给定的 $\alpha(0<\alpha<1)$ ，称满足
  $P(\mathcal{X^2}>\mathcal{X_{\alpha}^2(n)}) = \int_{X_{\alpha}^2(n)}^{+\infin} f(x)dx = \alpha$
  的 $X_{\alpha}^2(n)$ 为 $X^2(n)$ 分布的上 $\alpha$ 分位点，如下所示
  
  对于不同的 $\alpha$ 和 n， $X^2(n)$ 分布的上 $\alpha$ 分位点可以通过查表求得
- 说明：
  - 自由度是指和式中独立变量个数
  - 上 $\alpha$ 分位点为 $\mu_{\alpha}$ 意指：点 $\mu_{\alpha}$ 右侧，概率密度曲线 $f (x)$ 下方与x轴围成的面积为 $\alpha$
性质
- 分布可加性：若 $X_1 \sim \mathcal{X}^2(n_1)$ ， $X_2 \sim \mathcal{X}^2(n_2)$ ， $X_1$ 与 $X_2$ 相互独立，则 $X_1+X_2 \sim \mathcal{X}^2(n_1+n_2)$ 。一般地，若 $X_i \sim \mathcal{X}^2(n_i)(i=1,2,...,m)$ ， $X_1,X_2,...,X_m$ 相互独立，则 $\sum\limits_{i=1}^mX_i \sim \mathcal{X}^2(\sum\limits_{i=1}^mn_i)$
- $\sim \mathcal{X}^2(n)$ ，则 $E X = n, D X = 2 n$

2.2.2 $t$ 分布

典型模式
- 设随机变量 $\sim N(0,1), Y\sim \mathcal{X}^2(n)$ ， $X$ 与 $Y$ 相互独立，则随机变量 $t=\frac{X}{\sqrt{\frac{Y}{n}}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $t\sim t(n)$
- $t$ 分布的概率密度 $f (x)$ 的图形关于 $x = 0$ 对称，因此 $E_t=0(n\geq2)$
性质
- 由 $t$ 分布概率密度 $f (x)$ 图像对称性，有 $P\{t>-t_{\alpha}(n)\} = P\{t>t_{1-\alpha}(n)\}$ ，故 $t_{1-\alpha}(n) = -t_{\alpha}(n)$
- $\sim t(n)$ ，则 $E t = 0$

2.2.3 $F$ 分布

典型模式
- 设随机变量 $\sim \mathcal{X}^2(n_1),Y\sim \mathcal{X}^2(n_2)$ ，且 $X$ 与 $Y$ 相互独立，则 $\frac{X/n_1}{Y/n_2}$ 服从自由度为 $n_1,n_2)$ 的 $F$ 分布，记为 $\sim F(n_1,n_2)$ ，其中 $n_1$ 称为第一自由度， $n_2$ 称为第二自由度
- $F$ 分布的概率密度函数 $f (x)$ 如图所示
性质
- 若 $F\sim F(n_1,n_2)$ ，则 $\frac{1}{F} \sim F(n_2,n_1)$
- $F_{1-\alpha}(n_1,n_2) = \frac{1}{F_{\alpha}(n_2,n_1)}$ ，证明如下
  $\begin{aligned} &记 F\sim F(n_2,n_1) \\ &P\{F>F_\alpha(n_2,n_1)\} = \alpha,\\ &P\{F\leq F_\alpha(n_2,n_1)\} = 1-\alpha,\\ &P\{\frac{1}{F} \geq \frac{1}{F_\alpha(n_2,n_1)}\}=1-\alpha\\ &令 T= \frac{1}{F},则T\sim F(n_1,n_2)\\ &有P\{T\geq F_{1-\alpha}(n_1,n_2)\}=1-\alpha\\ &故F_{1-\alpha}(n_1,n_2) = \frac{1}{F_\alpha(n_2,n_1)} \end{aligned}$

2.3 正态总体下常用结论

设 $X_1,X_2,...,X_n$ 是来自正态总体 $N(\mu,\sigma^2)$ 的一个样本， $\bar{X}、S^2$ 分布是样本均值和方差，则
1. $\bar{X} \sim N(\mu,\frac{\sigma^2}{n})$ ，即 $\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1)$
  $\begin{aligned} &联合正态分布性质：若(X,Y) \sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2,;\rho), \\ & 则X和Y的线性组合aX+bY(a \neq 0 或 b\neq0)服从正态分布\\ &这里\bar{X} 即为X_1,X_2,...,X_n的线性组合，因此服从正态分布 \end{aligned}$
2. $\frac{1}{\sigma^2}\sum\limits_{i+1}^n(X_i-\mu)^2\sim\mathcal{X}^2(n)$
  $\begin{aligned} &因为 X_i\stackrel{i.i.d}{\sim} N(\mu,\sigma^2)\\ &标准化有\frac{X_i-\mu}{\sigma} \sim N(0,1) \\ &根据\mathcal{X}^2分布定义,\sum\limits_{i=1}^n(\frac{X_i-\mu}{\sigma})^2\sim\mathcal{X}^2(n) \end{aligned}$
3. $\frac{(n-1)S^2}{\sigma^2}=\sum\limits_{i=1}^n(\frac{X_i-\bar{X}}{\sigma})^2\sim\mathcal{X}^2(n-1)$ ，( $\mu$ 未知时，在(2)中用 $\bar{X}$ 代替 $\mu$ )
  - 欲使用公式 (2) 而期望 $\mu$ 未知时，使用均值 $\bar{X}$ 代替期望 $\mu$
  - 这个证明困难，只要知道结论即可。直观上理解，由于 $\bar{X}$ 中各随机变量 $X_i$ 相互纠缠，分布自由度相比 (2) 中减少1
4. $\bar{X}$ 与 $S^2$ 相互独立， $\frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1)$ ，进一步有 $\frac{n(\bar{X}-\mu)^2}{S^2}\sim F(1,n-1)$
  - 欲使用公式 (1) 而标准差 $\sigma$ 未知时，用样本标准差 $S$ 替代标准差 $\sigma$
  - 证明如下
    $\begin{aligned} &已知\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \\ & 已知\frac{(n-1)S^2}{\sigma^2}\sim\mathcal{X}^2(n-1) \\ & 根据t分布定义，有 \frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}} \sim t(n-1) \\ & 整理得\frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1) \end{aligned}$
这些结论在进行 参数区间估计 和 假设检验 时非常有用，结论1/4常用于估计 $\mu$ ，结论2/3常用于估计 $\sigma$ ，具体见下一篇文章