什么是卡方检验?

卡方检验

卡方检验(Chi-squared test,也写作χ² test)是一种统计学中的假设检验方法,主要用于判断观测数据与理论预期之间是否存在显著差异,进而分析两个分类变量之间是否独立或相关。它是非参数检验中的一种,适用于离散数据,尤其是计数数据。

卡方检验可以放到机器学习中 进行特征选择 看影响力度 大的则取

卡方检验的基本原理是通过计算一个称为卡方统计量(χ²)的值,来衡量实际观测频数与根据某种理论模型(如独立性假设下预期的频数分布)计算得到的理论频数之间的偏离程度
如果这个偏离程度很大,即卡方统计量的值相对于一定的自由度和显著性水平来说很大,那么就有理由拒绝原假设,认为观测数据与理论预期不符,两个分类变量之间可能不存在关联。

卡方检验有多种类型,包括但不限于:

  • 皮尔森卡方检验(Pearson’s chi-squared test),用于检验观察频数与期望频数之间的偏离,常用于检验两个分类变量的独立性
  • 卡方适合性检验(Goodness-of-fit test),用来判断某个样本的分布是否符合特定的理论分布
  • 多个率或构成比的比较(如列联表分析),用于分析多个分类变量之间的关系

进行卡方检验时,需要满足一定的前提条件,比如期望频数不能过小。此外,卡方检验的结果需基于一定的显著性水平(如0.05或0.01)来解释,且自由度的计算也很重要,因为它决定了卡方分布的形状,从而影响到临界值的确定。

卡方检验的分析过程

卡方检验的分析过程可以分为几个步骤,并且根据检验的类型(如独立性检验、适合性检验等)会有所不同,但基本思路相似。
这里以最常见的皮尔森卡方检验(用于检验两个分类变量的独立性)为例,详细说明其分析过程及相关的公式。

1. 确定问题和假设

  • 零假设(H₀):两个分类变量(例如性别和对某政策的态度)是相互独立的,即一个变量的类别不会影响另一个变量的分布。
  • 备择假设(H₁):两个分类变量不是完全独立的,存在某种关联。

2. 收集和整理数据

  • 将数据整理成列联表(交叉表),其中行表示一个分类变量的类别,列表示另一个分类变量的类别,单元格内的数值为该行该列类别的观测频数。

3. 计算期望频数

  • 对于列联表中的每个单元格,根据行总和、列总和以及总样本量,计算在零假设成立时(即两变量独立)该单元格应有的期望频数

E i j = ( 行总 和 i × 列总 和 j ) 总样本量 E_{ij} = \frac{(行总和_i \times 列总和_j)}{总样本量} Eij=总样本量(行总i×列总j)

4. 计算卡方统计量

  • 卡方统计量(χ²)是通过比较每个单元格的观测频数(O)期望频数(E)的差异来计算的,公式如下:

χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i j − E i j ) 2 E i j χ² = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} χ2=i=1rj=1cEij(OijEij)2

其中, r 是行数, c 是列数, ( O i j − E i j ) 2 / E i j 表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c 是列数,(O_{ij} - E_{ij})^2 / E_{ij}表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c是列数,(OijEij)2/Eij表示每个单元格的偏差平方除以其期望频数。

5. 确定自由度和临界值

  • 自由度计算公式为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) df = (行数 - 1) \times (列数 - 1) df=(行数1)×(列数1)
  • 根据自由度和选定的显著性水平(如α=0.05),查卡方分布表得到对应的临界值(χ²临界值)。

6. 比较并做出决策

  • 将计算得到的卡方统计量与临界值比较:
    • 如果 χ 2 > χ 临界值 2 ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果 χ² > χ²_{临界值} ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果χ2>χ临界值2,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。
    • 如果 χ 2 ≤ χ 临界值 2 ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果 χ² ≤ χ²_{临界值} ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果χ2χ临界值2,则没有足够的证据拒绝零假设,认为数据支持两变量独立。

7. 计算P值

  • 实际应用中,除了直接比较χ²值和临界值外,还可以计算出P值。P值是当零假设为真时,获得当前χ²统计量或更极端值的概率。如果P值小于选定的显著性水平(如α=0.05),同样意味着应拒绝零假设。

以上就是进行皮尔森卡方检验的一般过程及其涉及的主要公式。需要注意的是,在实际操作中,还应检查是否满足卡方检验的前提条件,比如确保每个单元格的期望频数不低于5(有的标准放宽到期望频数总和的80%不小于5),以防止χ²分布的近似性失效。

例子

通过一个具体的例子来理解卡方检验的计算过程。假设我们想要研究性别(男、女)与是否喜欢喝咖啡(喜欢、不喜欢)之间是否存在关联。我们随机调查了100人,收集到的数据如下:

喜欢咖啡不喜欢咖啡总计
男性302050
女性401050
总计7030100

1. 建立假设

  • 零假设(H₀):性别与喜欢咖啡之间没有关联。
  • 备择假设(H₁):性别与喜欢咖啡之间存在关联。

2. 计算期望频数

对于“喜欢咖啡”的情况,总的期望频数为:
E 总 , 喜欢 = 总样本量 × 总喜欢人数 总样本量 = 100 × 70 100 = 70 E_{总,喜欢} = \frac{总样本量 \times 总喜欢人数}{总样本量} = \frac{100 \times 70}{100} = 70 E,喜欢=总样本量总样本量×总喜欢人数=100100×70=70

对于男性喜欢咖啡的期望频数为:
E 男 , 喜欢 = 男性总计 × 总喜欢人数 总样本量 = 50 × 70 100 = 35 E_{男,喜欢} = \frac{男性总计 \times 总喜欢人数}{总样本量} = \frac{50 \times 70}{100} = 35 E,喜欢=总样本量男性总计×总喜欢人数=10050×70=35

  • 男性不喜欢咖啡的期望频数: E 男 , 不喜欢 = ( 男性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{男,不喜欢} = \frac{(男性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E,不喜欢=总样本量(男性总计×不喜欢咖啡总计)=10050×30=15
  • 女性喜欢咖啡的期望频数: E 女 , 喜欢 = ( 女性总计 × 喜欢咖啡总计 ) 总样本量 = 50 × 70 100 = 35 E_{女,喜欢} = \frac{(女性总计 \times 喜欢咖啡总计)}{总样本量} = \frac{50 \times 70}{100} = 35 E,喜欢=总样本量(女性总计×喜欢咖啡总计)=10050×70=35
  • 女性不喜欢咖啡的期望频数: E 女 , 不喜欢 = ( 女性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{女,不喜欢} = \frac{(女性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E,不喜欢=总样本量(女性总计×不喜欢咖啡总计)=10050×30=15

3. 计算卡方统计量

χ 2 = ∑ ( O − E ) 2 E χ² = \sum \frac{(O - E)^2}{E} χ2=E(OE)2

代入具体数值:
χ 2 = ( 30 − 35 ) 2 35 + ( 20 − 15 ) 2 15 + ( 40 − 35 ) 2 35 + ( 10 − 15 ) 2 15 χ² = \frac{(30-35)^2}{35} + \frac{(20-15)^2}{15} + \frac{(40-35)^2}{35} + \frac{(10-15)^2}{15} χ2=35(3035)2+15(2015)2+35(4035)2+15(1015)2
χ 2 = ( − 5 ) 2 35 + ( 5 ) 2 15 + ( 5 ) 2 35 + ( − 5 ) 2 15 χ² = \frac{(-5)^2}{35} + \frac{(5)^2}{15} + \frac{(5)^2}{35} + \frac{(-5)^2}{15} χ2=35(5)2+15(5)2+35(5)2+15(5)2
χ 2 = 25 35 + 25 15 + 25 35 + 25 15 χ² = \frac{25}{35} + \frac{25}{15} + \frac{25}{35} + \frac{25}{15} χ2=3525+1525+3525+1525
χ 2 = 50 35 + 50 15 χ² = \frac{50}{35} + \frac{50}{15} χ2=3550+1550
χ 2 = 10 7 + 10 3 χ² = \frac{10}{7} + \frac{10}{3} χ2=710+310
χ 2 ≈ 1.43 + 3.33 = 4.76 χ² ≈ 1.43 + 3.33 = 4.76 χ21.43+3.33=4.76

4. 确定自由度和临界值

自由度为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) = ( 2 − 1 ) × ( 2 − 1 ) = 1 df = (行数 - 1) \times (列数 - 1) = (2-1) \times (2-1) = 1 df=(行数1)×(列数1)=(21)×(21)=1

对于α=0.05的显著性水平,查卡方分布表,当自由度为1时,临界值约为3.841。

5. 比较并做出决策

由于计算得到的卡方统计量 ( χ² ≈ 4.76 ) 大于临界值3.841,因此我们拒绝零假设,认为性别与喜欢喝咖啡之间存在显著的关联

规则:
如果卡方统计量大于临界值,意味着我们观察到的数据与零假设预测的模式(即变量间无关联)之间的差异大到不太可能是由于随机抽样误差造成的。因此,统计量落在了拒绝区域内,我们有足够的证据拒绝零假设,接受备择假设,即性别与喜欢喝咖啡之间存在显著的关联。

结论

通过上述步骤,我们发现在这个样本中,性别与喜欢喝咖啡之间存在统计学上的显著关联。这仅是一个示例,实际研究中还需要考虑样本代表性、误差范围等因素。

彩蛋

卡片检验不依据“左侧、右侧、双侧检验”结果进行决策,而是根据显著性原则进行决策

  • 13
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值