卡方检验基本理论

最新推荐文章于 2024-04-16 11:20:46 发布

Mobtgzhang

最新推荐文章于 2024-04-16 11:20:46 发布

阅读量4.5k

点赞数 2

分类专栏：深度学习文章标签：数据分析大数据

本文链接：https://blog.csdn.net/zhang_pro/article/details/107102564

版权

深度学习专栏收录该内容

21 篇文章

订阅专栏

卡方检验

简介
$\chi^{2}$ 检验
- 基本的步骤
- 检验方法

简介

卡方检验是用途非常广的一种假设检验的方法，在分类资料统计推断中应用，包括两种形式：

两个率或两个构成比比较的卡方检验
多个率或者多个构成比比较的卡方检验以及分类资料的相关分析等等。

$\chi^{2}$ 检验

卡方检验就是对统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就是决定卡方值的大小。卡方值越大，二者偏差程度就会越大；反之，二者偏差程度越小；若两个值完全相等的时候，卡方值就会为0，表示理论值完全符合。

基本的步骤

提出基本假设:
连续情况：设 $H_{0}$ :总体 $X$ 的分布函数为 $F (x)$
离散情况：假设变为 $H_{0}$ :总体 $X$ 的分布律为 $P\{X=x_{k}\}=p_{k},k=1,2,\dots,N$ .
将总体 $X$ 的取值范围分为 $k$ 个互不相交的小区间 $A_{1},A_{2},\dots,A_{k}$ ,例如可以取
$A_{1}=(a_{0},a_{1}],A_{2}=(a_{1},a_{2}],\dots,A_{k}=(a_{k-1},a_{k}]$
其中 $a_{0}$ 可以取 $-\infty$ , $a_{k}$ 可以取 $+\infty$ ,区间的划分具体情况而定，但是要使得每一个小区间所包含的样本值个数不小于5，而区间个数k不要太大也不要太小。
把落入第 $i$ 个小区间的 $A_{i}$ 所包含的样本值个数记作 $f_{i}$ ,成为组频数，所有的组频数之和 $f_{1}+f_{2}+\dots+f_{k}=n$ , $n$ 为样本容量。
当 $H_{0}$ 为真的时候，根据所假设的总体理论分布，可以计算出总体 $X$ 的值落入第 $i$ 个小区间 $A_{i}$ 的概率 $p_{i}$ ，于是 $np_{i}$ 就是落入第 $i$ 个小区间 $A_{i}$ 的样本值的理论频数(理论值)。
当 $H_{0}$ 假设为真的时候， $n$ 次实验中样本落入第 $i$ 个小区间 $A_{i}$ 的频率 $\frac{f_{i}}{n}$ 与概率 $p_{i}$ 应该是非常接近的，当 $H_{0}$ 不真的时候，则 $\frac{f_{i}}{n}$ 与 $p_{i}$ 相差是很大的。基于这种思想，所以引入一下检验统计量
$\chi^{2}=\sum\limits_{i=1}^{k}\frac{(f_{i}-np_{i})^{2}}{np_{i}}$

在假设 $H_{0}$ 假设成立的情况下服从自由度为 $k - 1$ 的卡方分布。

检验方法

假设有两个分类变量 $X$ 和 $Y$ ，它们的值域分别为 ${x_{1},x_{2}\}$ , ${y_{1},y_{2}\}$ ,其样本频数列联表为

	$y_{1}$	$y_{2}$	总计
$x_{1}$	a	b	a+b
$x_{2}$	c	d	c+d
总计	a+c	b+d	a+b+c+d

若要推断论述为 $H_{1}$ : $X$ 与 $Y$ 有关系，可以利用独立性检验来考察两个变量之间是否有关系，并且能较为精确地给出这种判断的可靠程度。具体做法就是，由表中的数据计算出检验统计量 $\chi^{2}$ 的值。
可以使用概率拟合度公式 $\chi^{2}=\sum\limits_{i=1}^{k}\frac{(f_{i}-np_{i})^{2}}{np_{i}}$ 进行判断，或者是拟合度公式写作
$\chi^{2}=\frac{n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}$
自由度公式
$v=\frac{C-1}{R-1}$
这时候，自由度 $v=\frac{C-1}{R-1}=1$ ,其中 $C, R$ 分别为行数和列数。

对于多个自由度变量的卡方检验公式如下所示
$r$ 行 $c$ 列卡方检验的卡方值为
$\chi^{2}=n\left[\frac{A_{11}}{n_{1}n_{1}}+\frac{A_{12}}{n_{1}n_{2}}+\dots+\frac{A_{rc}}{n_{r}n_{c}}-1\right]$

应用条件：要求每个格子中的理论频数 $T$ 均大于 $5$ 或 $1 < T < 5$ 的格子数不超过总格子数的 $1 / 5$ 。当有 $T < 1$ 或 $1 < T < 5$ 的格子较多时，可采用并行并列、删行删列、增大样本含量的办法使其符合行×列表资料卡方检验的应用条件。而多个率的两两比较可采用行 $X$ 列表分割的办法。