第七章数理统计的基础知识（数理统计）

xxatz

已于 2022-02-17 16:30:26 修改

阅读量695

点赞数 1

分类专栏：高数菜鸡之概率统计文章标签：概率论

于 2021-12-06 23:48:48 首次发布

本文链接：https://blog.csdn.net/xxayt/article/details/121759032

版权

高数菜鸡之概率统计专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了数理统计的基本概念，包括总体、样本及其性质，强调了简单随机抽样的重要性。重点讲解了卡方分布、学生氏分布（t分布）和F分布的定义、性质及应用。同时，提到了统计量的概念，如样本均值和样本方差，并阐述了正态总体下抽样分布定理，包括样本均值和样本方差的抽样分布。这些理论是统计推断和假设检验的基础。

摘要由CSDN通过智能技术生成

文章目录

第七章数理统计的基础知识

第七章数理统计的基础知识

特殊：部分(样本)推断全体(总体)

7.1 总体与样本

概念：
- 总体 population $X$ ：被研究对象的全体，是一个随机变量。
- 个体：总体中的成员
目的：研究总体 $X$ 的分布或数字特征。
方法：抽样调查——简单随机抽样
- 概念：
  1. 样本 $X_1,X_2,...,X_n$ ：样本容量为 $n$ 的来自总体 $X$ 的简单随机样本
    
    样本是一个 $n$ 维随机变量。
  2. 样本观测值：样本的取值 $x_1,x_2,...,x_n$
- 性质： $i . i . d .$
  1. 代表性：样本 $X_i$ 与考察总体 $X$ 同分布。
  2. 独立性：样本随机变量 $X_i$ 相互独立。
  总体：一锅汤的味道
  
  样本：一勺汤
  
  使样本满足性质的动作：搅拌均匀
  
  考察动作：品尝
总体、样本、样本值的关系：
1. 只能得到样本值(数据)，得不到样本
2. 通过样本值推断总体情况
3. 总体分布决定样本值的概率规律(样本取到样本值的规律)
样本和总体分布的关系：样本视为 $n$ 维随机变量
- 总体 $X$ 为离散型随机变量：若分布律为 $P (X = x) = p (x)$ ，则 $P(X_1=x_1,X_2=x_2,...,X_n=x_n)\xlongequal{i.i.d.}\prod\limits_{i=1}^np(x_i)$
- 总体 $X$ 为连续型随机变量：若密度函数为 $f_X(x)$ ，则 $f(x_1,x_2,...,x_n)\xlongequal{i.i.d.}\prod\limits_{i=1}^nf(x_i)$

7.2 三大分布

7.2.1 卡方分布 Chi-square（ $\chi^2$ 分布）

$n$ 个独立的标准正态分布的平方和

定义：样本 $X_i\sim N(0,1),i=1,2,...,n$ ，称随机变量 $\color{red}\chi^2=\sum\limits_{i=1}^nX_i^2$ 服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $\chi^2\sim\chi^2(n)$ 。
密度函数：有 $\chi^2(n)=\Gamma(\dfrac{n}{2},\dfrac{1}{2})$ ，即密度函数 $\color{red}f(x,n)=\begin{cases}\begin{aligned}&\dfrac{1}{2^{n\over 2}\Gamma(\dfrac{n}{2})}x^{{n\over 2}-1}e^{-{x\over 2}}, &x>0 \\&0,&x\le 0\end{aligned} \end{cases}$

性质：
- 可加性：设 $\chi^2_1\sim \chi^2(n),\chi^2_2\sim \chi^2(m)$ ，且 $\chi^2_1,\chi^2_2$ 相互独立，则 $\color{red}\chi^2_1+\chi^2_2\sim \chi^2(n+m)$
证明：由 $\Gamma$ 分布可加性可知

7.2.2 学生氏分布 Student（ $t$ 分布）

定义：设 $X\sim N(0,1),Y\sim\chi^2(n)$ ，且 $X$ 与 $Y$ 相互独立，称随机变量 $\color{red}t=\dfrac{X}{\sqrt{Y}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $t\sim t(n)$ 。
密度函数： $\color{red}t(x,n)=\dfrac{\Gamma(\dfrac{n+1}{2})}{\sqrt{n\pi}\Gamma(\dfrac{n}{2})}\left(1+\dfrac{x^2}{n}\right)^{-{n+1\over2}},\quad x\in R$

性质：
- 偶函数：对称于纵轴
- 期望： $E(t)=\begin{cases}\begin{aligned}&不存在, &n=1 \\&0,&n\ge2\end{aligned} \end{cases}$
- 渐近正态性：当 $n\longrightarrow \infty$ 时，有 $\lim\limits_{n\rightarrow \infty}t(x,n)=\dfrac{1}{\sqrt{2\pi}}e^{-{x^2\over 2}},\quad x\in R$ . 即当 $n\ge 45$ 时， $\color{red}t(n)\sim N(0,1)$ .

7.2.3 F分布

1924年英国统计学家 R.A.Fisher 提出

定义：设 $X\sim \chi^2(n),Y\sim\chi^2(m)$ ，且 $X$ 与 $Y$ 相互独立，称随机变量 $\color{red}F=\dfrac{X/n}{Y/m}$ 服从自由度为 $(n, m)$ 的 $F$ 分布，记为 $F\sim F(n,m)$ 。其中 $n$ 为第一自由度， $m$ 为第二自由度。
密度函数： $\color{red}F(x,n,m)=\begin{cases}\begin{aligned}&\dfrac{\Gamma\left(\dfrac{n+m}{2}\right)}{\Gamma\left(\dfrac{n}{2}\right)\Gamma\left(\dfrac{m}{2}\right)}\left(\dfrac{n}{m}\right)^{n\over 2}x^{{n\over2}-1}\left(1+\dfrac{n}{m}x \right)^{-{n+m\over 2}} , &x>0 \\&0,&x\le 0\end{aligned} \end{cases}$

性质：
- 若 $F\sim F(n,m)$ ，则 $\dfrac{1}{F}\sim F(m,n)$

7.2.4 分位点 Quantile

定义：若实数 $a_p$ 满足 $\color{red}F(a_p)=P(X\le a_p)=p$ ，称 $a_p$ 为 $X$ 分布的(下侧) $p$ 分位点。
- 中位数 median：当 $p=\dfrac{1}{2}$ 时， $a_{1\over 2}$ 称为中位数
常见 $p$ 分位点：
- 正态分布 $u_p$ ： $u_p=u_{1-p}$
- 卡方分布 $\chi_p^2(n)$ ： $\chi_p^2(n)\approx \dfrac{1}{2}(u_p+\sqrt{2n-1})^2$
- $t$ 分布 $t_p(n)$ ： $t_p(n)\approx u_p$
- $F$ 分布 $F_p(n,m)$ ： $F_p(n,m)=\dfrac{1}{F_{1-p}(n,m)}$
  
  $\color{White}\colorbox{Fuchsia}{例}$ ： $u_{0.975}=1.96,\chi_{0.99}^2(10)=23.209,t_{0.95}(6)=1.9432,F_{0.05}(15,10)=0.394$

7.3 统计量与抽样分布定理

7.3.1 统计量

统计量：样本( $n$ 维随机变量)的某个函数

概念：
1. 样本函数：样本 $X_1,X_2,...,X_n$ 的一个连续随机变量函数 $g(X_1,X_2,...,X_n)$
2. 统计量：不含未知参数的样本函数 $g(X_1,X_2,...,X_n)$
  
  统计量是一个随机变量
3. 统计量的观测值：代入样本观测值后的 $g(x_1,x_2,...,x_n)$
  
  统计量的观测值是实数
常见统计量：
1. 样本均值： $\overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^nX_i=M_1$
2. 样本方差： $S^2=\dfrac{1}{\color{red}n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2\ne C_2$
3. 样本 $k$ 阶原点矩： $M_k=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^k$
4. 样本 $k$ 阶中心矩： $C_k=\dfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k$

7.3.2 抽样分布定理

抽样分布定理：已知总体分布，常用统计量与样本函数的分布结果

一个正态总体下的抽样分布定理：样本 $X_1,X_2,...,X_n$ 来自正态总体 $N(\mu,\sigma^2)$
- 样本均值：
  1. $\overline{X}\sim N(\mu,\dfrac{\sigma^2}{n})$
  2. $\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
  3. 推论(显然)：样本 $X_i$ 来自任何总体，都有 $E(\overline{X})=E(X),D(\overline{X})=\dfrac{D(X)}{n}$
- 自由度为 $(n - 1)$ 的 $\chi^2$ 分布：
  1. $\dfrac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$
  2. $\overline{X}$ 与 $S^2$ 相互独立
  3. 等价表达式(偏差平方和)： $(n-1)S^2=\sum\limits_{i=1}^n(X_i-\overline{X})^2=nB_2$
- 自由度为 $(n - 1)$ 的 $t$ 分布：
  1. $t=\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
    
    证明：
    $\because \overline{X}与S^2独立，从而U=\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)与V=\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) 独立\\ \therefore t=\dfrac{U}{\sqrt{\dfrac{V}{n-1}}}=\dfrac{\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\dfrac{\dfrac{(n-1)S^2}{\sigma^2}}{n-1}}}=\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
  2. 推论：样本 $X_i$ 来自任何总体 $X$ ，都有 $E(X)=\mu,D(X)=\sigma^2>0$ ，当 $n\rightarrow \infty$ 时，
    1. $\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
    2. $\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim N(0,1)$
两个正态总体下的抽样分布定理：两个总体 $X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$
- 均值样本之差：
  1. $\overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma_2^2}{n_2})$
  2. $U=\dfrac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1)$
- $T=\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim t(n_1+n_2-2)$ ，其中 $S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$ .
- $F=\dfrac{S_1^2/\sigma_1^2}{S_2/\sigma_2^2}\sim F(n_1-1,n_2-1)$ .