各种假设检验总结

PD我是你的真爱粉

已于 2022-05-18 13:29:41 修改

阅读量2k

点赞数 1

分类专栏：概率论与数理统计文章标签：概率论

于 2021-11-11 16:17:43 首次发布

本文链接：https://blog.csdn.net/weixin_52185313/article/details/121270216

版权

概率论与数理统计专栏收录该内容

13 篇文章 1 订阅

订阅专栏

本文详细介绍了统计学中常见的假设检验方法，包括Z检验、t检验、卡方检验、F检验和非参数检验如K-S检验。Z检验适用于大样本均值差检验，t检验则用于均值和比率的比较，尤其在标准差未知时。卡方检验关注比率和方差的齐性，F检验用于方差分析，K-S检验则用于检验样本是否来自特定分布。此外，还涵盖了配对样本检验、相关系数检验和游程检验等。这些方法在科研和数据分析中起着关键作用。

摘要由CSDN通过智能技术生成

各种假设检验总结 – 潘登同学的数理统计笔记

假设检验的步骤

原假设("="放在原假设)
确定检验统计量
确定显著性水平( $\alpha$ )
确定拒绝域
计算检验统计量
做出统计判断

Z检验

均值差检验

是一般用于大样本 (即样本容量大于30)平均值差异性检验的方法。

在这里插入图片描述

原假设

$H_0$ : 总体均值为 $\mu_0$ , 即 $\mu = \mu_0$

检验统计量

$\frac{\bar{X}-\mu_0}{\frac{\sigma_0}{\sqrt{n}}}$

其中, $\sigma_0$ 为已知标准差

总体比率的检验

一般用 $\Pi$ 表示总体比率，用 $p$ 表示样本比率，关于总体比率的假设检验就是依据 $p$ 的抽样分布对 $\Pi$ 是否等于某个值所做的判断

单一总体比率的检验

原假设

$H_0$ : 总体比率为 $\Pi_0$ , 即 $\Pi = \Pi_0$

Z检验统计量(当样本容量足够大，即 $n\Pi$ 和 $n(1-\Pi)$ 都大于等于5时，样本比率 $p$ 的抽样分布近似服从均值为 $\Pi$ ，标准差为 $\frac{\sqrt{\Pi_0(1-\Pi_0)}}{\sqrt{n}}$ 的正态分布)

$\frac{p-\Pi_0}{\frac{\sqrt{\Pi_0(1-\Pi_0)}}{\sqrt{n}}}$

两总体比率的检验

原假设

$H_0$ : 总体比率差为 $D_0$ , 即 $\Pi_1 - \Pi_2 = D_0$

Z检验统计量(与上面其实差不多，就涉及了正态分布加减仍是正态分布)

$\frac{(p_1-p_2)-D_0}{\sigma_{p_1-p_2}}$
其中， $\sigma_{p_1-p_2} = \sqrt{\frac{\Pi_1(1-\Pi_1)}{n_1} + \frac{\Pi_2(1-\Pi_2)}{n_2}}$

t检验

主要是比较均值

单总体检验

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

原假设

$H_0$ : 总体均值为 $\mu_0$ , 即 $\mu = \mu_0$

t检验统计量
$\frac{\bar{X}-\mu_0}{\frac{s}{\sqrt{n}}}$

其中， $\bar{X}=\frac{\sum_{i=1}^{n}x_i}{n},s = \sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}}$

然而当样本容量大于30, t分布渐近标准正态，也可以采用Z检验统计量；

双总体检验

双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。

独立样本t检验

各实验处理组之间毫无相关存在，即为独立样本

原假设

$H_0$ : 两个总体均值相等，即 $\mu_1 = \mu_2$

1. 独立大样本，总体标准差已知

独立样本Z检验统计量
$\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$

$\sigma_1^2、 \sigma_2^2$ 为两总体方差， $n_1, n_2$ 为两样本容量

2. 独立大样本，总体标准差未知

独立样本Z检验统计量
$\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}$

$S_1^2、 S_2^2$ 为两样本方差， $n_1, n_2$ 为两样本容量

3. 独立小样本，总体标准差未知

独立样本t检验统计量
$\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}{(\frac{1}{n_1} + \frac{1}{n_2})}}}$

$S_1^2、 S_2^2$ 为两样本方差， $n_1, n_2$ 为两样本容量

配对样本t检验

是对用于检验配对设计实验中成对定量数据是否存在差异性的统计方法

配对设计实验
- 同一对象处理前后的数据，例如判断使用新的教学模式前、后学生成绩是否存在差异性
- 同一对象两个部位的数据，例如判断静脉采血与末梢神经采血化验指标是否存在差异
- 同一样品两种方法检验的结果，例如判断传统化验手段与新型化验手段是否存在差异
- 配对的两个对象分别接受进行两种处理后的数据，例如判断病人使用两种不同降压药对于血压的控制是否存在差异
原假设

$H_0$ : 两个总体均值之差为 $\mu_0$ ，即 $X_1 - X_2 = \mu_0$

配对样本t检验统计量
$\frac{\bar{d} - \mu_0}{\frac{S_d}{\sqrt{n}}}$

其中， $d_i = x_{1i} - x_{2i}; \bar{d} = \frac{\sum_{i=1}^nd_i}{n}; S_d = \sqrt{\frac{\sum_{i=1}^{n}(d_i-\bar{d})^2}{n-1}}$

F检验

方差齐性检验

方差齐性是方差分析和一些均数比较、t检验的重要前提，利用F检验进行方差齐性检验是最原始的，但对数据要求比较高。

样本要求

样本来自两个独立的、服从正态分布的总体。
$X_1 \sim N(\mu_1, \sigma_1^2), X_2 \sim N(\mu_2, \sigma_2^2)$

原假设

$H_0$ : 两个总体方差相等，即 $\sigma_1^2 = \sigma_2^2$

检验统计量
$\frac{S_1^2}{S_2^2}$

其中， $S_1=\frac{1}{n_1-1}\sum_{i=1}^n(X_{1i} - \bar{X1})$

原理详解

F分布的定义: 两个卡方/n 之比 – F分布

$\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}}\sim F(n_1-1, n_2-1)$

当 $\sigma_1 = \sigma_2$ 时，那么 $\frac{S_1^2}{S_2^2}\sim F(n_1-1, n_2-1)$

单因素方差分析

假设我们要研究一个因素对于一个指标的影响，试图比较这个因素内各个取值水平对于这个指标的影响是否相同。

样本要求

每一水平的总体服从正态分布且各总体方差相等(所以要求先做方差齐性检验)

原假设

$H_0$ : 各个总体均值相等，即 $\mu_1 = \mu_2 = \cdots = \mu_n$

检验统计量
$\frac{\frac{SSA}{df_1}}{\frac{SSE}{df_2}}\sim F(df_1, df_2)$

其中，SSA是组间平方和， SSE是组内平方和, (假设总共有m个样本，分为n个组(不一定均匀))
$\sum_{i=1}^{n}m_i(\bar{y_{i\cdot}} - \bar{y})^2\\ SSE = \sum_{i=1}^{n}\sum_{j=1}^{m_i}(y_{ij} - \bar{y_{i\cdot}})^2\\$

而 $df_1 = n-1, df_2 = m-n$ 因为SSE有n个已知参数就是每组的均值，所以自由度是 $m - n$ , SSA里面只有一个已知参数就是样本的均值 $\bar{y}$ , 所以自由度就是 $n - 1$

原理详解

F分布的定义: 两个卡方/n 之比核心关键是 $\frac{SSA}{\sigma^2}、\frac{SSE}{\sigma^2}$ 就是卡方，而前面假设方差相等

$\frac{\frac{SSA}{(n-1)\sigma^2}}{\frac{SSE}{(m-n)\sigma^2}} = \frac{\frac{SSA}{(n-1)}}{\frac{SSE}{( m-n)}}\sim F(n-1, m-n)$

线性回归方程整体的显著性检验

线性回归方程的总变差也可以像方差分析一样分解：

$回归平方和+残差平方和\\ SST = SSR+SSE\\ SST = \sum_{i=1}^{m}(y_i - \bar{y})^2\\ SSR = \sum_{i=1}^{m}(\hat{y_i} - \bar{y})^2\\ SSE = \sum_{i=1}^{m}\hat{u_i} = \sum_{i=1}^{m}(y_i - \hat{y_i})^2\\$

原假设

$H_0$ : 线性模型中的一组自变量(q个)对因变量没有影响即 $\beta_1 = \beta_2 = \cdots = \beta_q$

检验统计量
$\frac{\frac{SSR_r - SSR_{ur}}{q}}{\frac{SSR_{ur}}{m-n-1}} \sim F(q,m-n-1)$

其中， $SSR_r$ 为排除了原假设中的自变量构造的一个新的线性模型的 $S S R$ ,
$SSR_{ur}$ 是原线性模型的 $S S R$ , n是自变量个数

特别地，如果 $q = n$
$\frac{\frac{SSR}{n}}{\frac{SSE}{m-n-1}} \sim F(n,m-n-1)$

卡方检验(参数检验)

原假设

$H_0$ : 方差为 $\sigma_0$ ，即 $\sigma = \sigma_0$

检验统计量
$\chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)$
其中, $s^2$ 为样本方差

卡方检验(非参数检验)

拟合度的卡方检验

统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

原假设

$H_0$ : 总体服从某种分布，理论值为 $f_e$

检验统计量

$\chi^2 = \sum_{i=1}^{n} \frac{(f_i - f_e)^2}{f_e}$

其中， n表示分类变量的个数，卡方分布的自由度为 $n - 1$

卡方独立性检验

用于两个或两个以上因素多项分类的计数资料分析，即研究两类变量之间（以列联表形式呈现）的关联性和依存性，或相关性、独立性、交互作用性。

原假设

$H_0$ : X与Y没有关系，相互独立

独立样本四格表

假设有两个分类变量X和Y，它们的值域分别为{x1, x2}和{y1, y2}，其样本频数列联表为

	$y_1$	$y_2$	总计
$x_1$	a	b	a+b
$x_2$	c	d	c+d
总计	a+c	c+d	a+b+c+d

检验统计量

$\chi^2 = \frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\\ 自由度df=（行数-1）（列数-1）=1$

K-S检验(非参数检验)

单样本K-S

主要是用来检验一组样本是否来自于某个概率分布

原假设

$H_0$ : 样本来自于P(分布)

检验统计量

$D = \max\{|S(x_i) - F(x_i)|\}\\ 修正后， D = \max\{|S(x_{i-1}) - F(x_i)|\}$

其中， $S(x_i)$ 为实际的累计概率， $F(x_i)$ 为理论的累计概率， $\max$ 表示差值样本中的最大绝对差值

在大样本下，原假设成立时， $\sqrt{n}D$ 服从Kolmogorov-Smirnov分布, 分布函数为
$\sum_{j=-\infty}^{\infty}(-1)^j e^{-2j^2x^2}$

两独立样本K-S检验

首先，将两个样本混合并且按照升序排序；然后分别计算两样本秩的累计概率；最后根据两组累计概率差的绝对值，得到累计概率绝对差的序列并得到D统计量

原假设

$H_0$ : 两组样本的总体的分布一样

检验统计量

$D = \max\{|S_1(x_i) - S_2(x_i)|\}\\$

其中, $S_1(x_i)$ 是一组样本秩的累计概率

游程检验

游程检验亦称“连贯检验”，是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。

举个栗子

00110111000100100010 第一组的游程是5，第二组的游程是2，第三组的游程是11。

首先看零在这个序列中出现几次，假如有一个零，也算一次，一百个零连在一起也算一次，这个一次称作一个游程。查一查零共出现六次，所以有六个零的游程。其他以此类推。

随机变量游程检验

检验思想

如果序列为真随机序列，那么游程的总数应该不太多也不太少。如果游程的总数极少，就说明样本缺乏独立性，内部存在一定的趋势或者结构，这可能由于观察值间不独立，或者来自不同的总体。如果样本间存在大量游程，则可能有系统的短周期波动影响观察结果。同样认为序列非随机。

原假设

$H_0$ : 变量值出现是随机的

检验统计量(Z统计量)

$\frac{r-\mu_r}{\sigma_r}$
其中， r为游程数， $\mu_r = \frac{2n_1n_2}{n_1 + n_2};\sigma_r^2 = \frac{2n_1n_2(2n_1n_2 - n_1 - n_2)}{(n_1 + n_2)^2(n_1 + n_2 -1)}$

两独立样本W-W游程检验

原假设

$H_0$ : 两组样本的总体的分布一样

检验思想

首先，将两样本混和并按升序排序。在变量值排序的同时，对应的组标记值也会随之重新排列。然后，对组标记值序列按照前面讨论的计算游程的方式计算游程数，如果两总体的分布存在较大差异，那么基于组标记的游程数会相对比较少；如果胡太医组标记的游程数比较大，则应是两组样本值充分混合的结果，两总体的分布不会存在显著差异.