什么是卡方检验？

不易撞的网名

已于 2024-06-06 18:23:43 修改

阅读量802

点赞数 13

分类专栏：机器学习文章标签：卡方检验检验机器学习概率概率论

于 2024-06-06 18:23:23 首次发布

本文链接：https://blog.csdn.net/weixin_50569789/article/details/139506389

版权

机器学习专栏收录该内容

210 篇文章 0 订阅

订阅专栏

文章目录

卡方检验

卡方检验（Chi-squared test，也写作χ² test）是一种统计学中的假设检验方法，主要用于判断观测数据与理论预期之间是否存在显著差异，进而分析两个分类变量之间是否独立或相关。它是非参数检验中的一种，适用于离散数据，尤其是计数数据。

卡方检验可以放到机器学习中进行特征选择看影响力度大的则取

卡方检验的基本原理是通过计算一个称为卡方统计量（χ²）的值，来衡量实际观测频数与根据某种理论模型（如独立性假设下预期的频数分布）计算得到的理论频数之间的偏离程度。
如果这个偏离程度很大，即卡方统计量的值相对于一定的自由度和显著性水平来说很大，那么就有理由拒绝原假设，认为观测数据与理论预期不符，两个分类变量之间可能不存在关联。

卡方检验有多种类型，包括但不限于：

皮尔森卡方检验（Pearson’s chi-squared test），用于检验观察频数与期望频数之间的偏离，常用于检验两个分类变量的独立性。
卡方适合性检验（Goodness-of-fit test），用来判断某个样本的分布是否符合特定的理论分布。
多个率或构成比的比较（如列联表分析），用于分析多个分类变量之间的关系。

进行卡方检验时，需要满足一定的前提条件，比如期望频数不能过小。此外，卡方检验的结果需基于一定的显著性水平（如0.05或0.01）来解释，且自由度的计算也很重要，因为它决定了卡方分布的形状，从而影响到临界值的确定。

卡方检验的分析过程

卡方检验的分析过程可以分为几个步骤，并且根据检验的类型（如独立性检验、适合性检验等）会有所不同，但基本思路相似。
这里以最常见的皮尔森卡方检验（用于检验两个分类变量的独立性）为例，详细说明其分析过程及相关的公式。

1. 确定问题和假设

零假设（H₀）：两个分类变量（例如性别和对某政策的态度）是相互独立的，即一个变量的类别不会影响另一个变量的分布。
备择假设（H₁）：两个分类变量不是完全独立的，存在某种关联。

2. 收集和整理数据

将数据整理成列联表（交叉表），其中行表示一个分类变量的类别，列表示另一个分类变量的类别，单元格内的数值为该行该列类别的观测频数。

3. 计算期望频数

对于列联表中的每个单元格，根据行总和、列总和以及总样本量，计算在零假设成立时（即两变量独立）该单元格应有的期望频数。

$E_{ij} = \frac{(行总和_i \times 列总和_j)}{总样本量}$

4. 计算卡方统计量

卡方统计量（χ²）是通过比较每个单元格的观测频数（O）与期望频数（E）的差异来计算的，公式如下：

$\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$

$其中，r是行数，c 是列数，(O_{ij} - E_{ij})^2 / E_{ij}表示每个单元格的偏差平方除以其期望频数。$

5. 确定自由度和临界值

自由度计算公式为： $\times (列数 - 1)$
根据自由度和选定的显著性水平（如α=0.05），查卡方分布表得到对应的临界值（χ²临界值）。

6. 比较并做出决策

将计算得到的卡方统计量与临界值比较：
- $χ²_{临界值} ，则拒绝零假设，认为观测数据与理论预期（两变量独立）之间存在显著差异，支持备择假设，即两个分类变量之间存在关联。$
- $χ²_{临界值} ，则没有足够的证据拒绝零假设，认为数据支持两变量独立。$

7. 计算P值

实际应用中，除了直接比较χ²值和临界值外，还可以计算出P值。P值是当零假设为真时，获得当前χ²统计量或更极端值的概率。如果P值小于选定的显著性水平（如α=0.05），同样意味着应拒绝零假设。

以上就是进行皮尔森卡方检验的一般过程及其涉及的主要公式。需要注意的是，在实际操作中，还应检查是否满足卡方检验的前提条件，比如确保每个单元格的期望频数不低于5（有的标准放宽到期望频数总和的80%不小于5），以防止χ²分布的近似性失效。

例子

通过一个具体的例子来理解卡方检验的计算过程。假设我们想要研究性别（男、女）与是否喜欢喝咖啡（喜欢、不喜欢）之间是否存在关联。我们随机调查了100人，收集到的数据如下：

	喜欢咖啡	不喜欢咖啡	总计
男性	30	20	50
女性	40	10	50
总计	70	30	100

1. 建立假设

零假设（H₀）：性别与喜欢咖啡之间没有关联。
备择假设（H₁）：性别与喜欢咖啡之间存在关联。

2. 计算期望频数

对于“喜欢咖啡”的情况，总的期望频数为：
$E_{总,喜欢} = \frac{总样本量 \times 总喜欢人数}{总样本量} = \frac{100 \times 70}{100} = 70$

对于男性喜欢咖啡的期望频数为：
$E_{男,喜欢} = \frac{男性总计 \times 总喜欢人数}{总样本量} = \frac{50 \times 70}{100} = 35$

男性不喜欢咖啡的期望频数： $E_{男,不喜欢} = \frac{(男性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15$
女性喜欢咖啡的期望频数： $E_{女,喜欢} = \frac{(女性总计 \times 喜欢咖啡总计)}{总样本量} = \frac{50 \times 70}{100} = 35$
女性不喜欢咖啡的期望频数： $E_{女,不喜欢} = \frac{(女性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15$

3. 计算卡方统计量

$\sum \frac{(O - E)^2}{E}$

代入具体数值：
$\frac{(30-35)^2}{35} + \frac{(20-15)^2}{15} + \frac{(40-35)^2}{35} + \frac{(10-15)^2}{15}$
$\frac{(-5)^2}{35} + \frac{(5)^2}{15} + \frac{(5)^2}{35} + \frac{(-5)^2}{15}$
$\frac{25}{35} + \frac{25}{15} + \frac{25}{35} + \frac{25}{15}$
$\frac{50}{35} + \frac{50}{15}$
$\frac{10}{7} + \frac{10}{3}$
$χ^{2} \approx 1.43 + 3.33 = 4.76$

4. 确定自由度和临界值

自由度为： $\times (列数 - 1) = (2-1) \times (2-1) = 1$

对于α=0.05的显著性水平，查卡方分布表，当自由度为1时，临界值约为3.841。

5. 比较并做出决策

由于计算得到的卡方统计量 ( χ² ≈ 4.76 ) 大于临界值3.841，因此我们拒绝零假设，认为性别与喜欢喝咖啡之间存在显著的关联。

规则：
如果卡方统计量大于临界值，意味着我们观察到的数据与零假设预测的模式（即变量间无关联）之间的差异大到不太可能是由于随机抽样误差造成的。因此，统计量落在了拒绝区域内，我们有足够的证据拒绝零假设，接受备择假设，即性别与喜欢喝咖啡之间存在显著的关联。

结论

通过上述步骤，我们发现在这个样本中，性别与喜欢喝咖啡之间存在统计学上的显著关联。这仅是一个示例，实际研究中还需要考虑样本代表性、误差范围等因素。

彩蛋

卡片检验不依据“左侧、右侧、双侧检验”结果进行决策，而是根据显著性原则进行决策

不易撞的网名

关注

13
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
0
评论
什么是卡方检验？

卡方检验的分析过程可以分为几个步骤，并且根据检验的类型（如独立性检验、适合性检验等）会有所不同，但基本思路相似。，则拒绝零假设，认为观测数据与理论预期（两变量独立）之间存在显著差异，支持备择假设，即两个分类变量之间存在关联。，意味着我们观察到的数据与零假设预测的模式（即变量间无关联）之间的差异大到不太可能是由于随机抽样误差造成的。需要注意的是，在实际操作中，（有的标准放宽到期望频数总和的80%不小于5），以防止χ²分布的近似性失效。的计算也很重要，因为它决定了卡方分布的形状，从而影响到临界值的确定。
复制链接

扫一扫