文章目录
卡方检验
卡方检验(Chi-squared test,也写作χ² test)是一种统计学中的假设检验方法,主要用于判断观测数据与理论预期之间是否存在显著差异
,进而分析两个分类变量之间是否独立或相关。它是非参数检验中的一种,适用于离散数据,尤其是计数数据。
卡方检验可以放到机器学习中 进行特征选择 看影响力度 大的则取
卡方检验的基本原理是通过计算一个称为卡方统计量(χ²)的值,来衡量实际观测频数
与根据某种理论模型(如独立性假设下预期的频数分布)计算得到的理论频数
之间的偏离程度
。
如果这个偏离程度很大,即卡方统计量的值相对于一定的自由度和显著性水平来说很大,那么就有理由拒绝
原假设,认为观测数据与理论预期不符,两个分类变量之间可能不存在关联。
卡方检验有多种类型,包括但不限于:
皮尔森卡方检验
(Pearson’s chi-squared test),用于检验观察频数与期望频数之间的偏离,常用于检验两个分类变量的独立性。卡方适合性检验
(Goodness-of-fit test),用来判断某个样本的分布是否符合特定的理论分布。多个率或构成比的比较
(如列联表分析),用于分析多个分类变量之间的关系。
进行卡方检验时,需要满足一定的前提条件,比如期望频数不能过小。此外,卡方检验的结果需基于一定的显著性水平(如0.05或0.01)来解释,且自由度的计算也很重要,因为它决定了卡方分布的形状,从而影响到临界值的确定。
卡方检验的分析过程
卡方检验的分析过程可以分为几个步骤,并且根据检验的类型(如独立性检验、适合性检验等)会有所不同,但基本思路相似。
这里以最常见的皮尔森卡方检验(用于检验两个分类变量的独立性)为例,详细说明其分析过程及相关的公式。
1. 确定问题和假设
- 零假设(H₀):两个分类变量(例如性别和对某政策的态度)是相互
独立
的,即一个变量的类别不会影响另一个变量的分布。 - 备择假设(H₁):两个分类变量
不是完全独立的
,存在某种关联。
2. 收集和整理数据
- 将数据整理成列联表(交叉表),其中行表示一个分类变量的类别,列表示另一个分类变量的类别,单元格内的数值为该行该列类别的
观测频数。
3. 计算期望频数
- 对于列联表中的每个单元格,根据
行总和、列总和以及总样本量
,计算在零假设成立时(即两变量独立)该单元格应有的期望频数
。
E i j = ( 行总 和 i × 列总 和 j ) 总样本量 E_{ij} = \frac{(行总和_i \times 列总和_j)}{总样本量} Eij=总样本量(行总和i×列总和j)
4. 计算卡方统计量
- 卡方统计量(χ²)是通过比较
每个单元格的观测频数(O)
与期望频数(E)
的差异来计算的,公式如下:
χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i j − E i j ) 2 E i j χ² = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} χ2=i=1∑rj=1∑cEij(Oij−Eij)2
其中, r 是行数, c 是列数, ( O i j − E i j ) 2 / E i j 表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c 是列数,(O_{ij} - E_{ij})^2 / E_{ij}表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c是列数,(Oij−Eij)2/Eij表示每个单元格的偏差平方除以其期望频数。
5. 确定自由度和临界值
- 自由度计算公式为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) df = (行数 - 1) \times (列数 - 1) df=(行数−1)×(列数−1)
- 根据
自由度和选定的显著性水平
(如α=0.05),查卡方分布表得到对应的临界值(χ²临界值)。
6. 比较并做出决策
- 将计算得到的
卡方统计量与临界值
比较:- 如果 χ 2 > χ 临界值 2 ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果 χ² > χ²_{临界值} ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果χ2>χ临界值2,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。
- 如果 χ 2 ≤ χ 临界值 2 ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果 χ² ≤ χ²_{临界值} ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果χ2≤χ临界值2,则没有足够的证据拒绝零假设,认为数据支持两变量独立。
7. 计算P值
- 实际应用中,除了直接比较χ²值和临界值外,还可以计算出P值。P值是当零假设为真时,获得当前χ²统计量或更极端值的概率。如果P值小于选定的显著性水平(如α=0.05),同样意味着应拒绝零假设。
以上就是进行皮尔森卡方检验的一般过程及其涉及的主要公式。需要注意的是,在实际操作中,还应检查是否满足卡方检验的前提条件,比如确保每个单元格的期望频数不低于5
(有的标准放宽到期望频数总和的80%不小于5),以防止χ²分布的近似性失效。
例子
通过一个具体的例子来理解卡方检验的计算过程。假设我们想要研究性别(男、女)与是否喜欢喝咖啡(喜欢、不喜欢)之间是否存在关联。我们随机调查了100人,收集到的数据如下:
喜欢咖啡 | 不喜欢咖啡 | 总计 | |
---|---|---|---|
男性 | 30 | 20 | 50 |
女性 | 40 | 10 | 50 |
总计 | 70 | 30 | 100 |
1. 建立假设
- 零假设(H₀):性别与喜欢咖啡之间
没有关联。
- 备择假设(H₁):性别与喜欢咖啡之间
存在关联。
2. 计算期望频数
对于“喜欢咖啡”的情况,总的期望频数为:
E
总
,
喜欢
=
总样本量
×
总喜欢人数
总样本量
=
100
×
70
100
=
70
E_{总,喜欢} = \frac{总样本量 \times 总喜欢人数}{总样本量} = \frac{100 \times 70}{100} = 70
E总,喜欢=总样本量总样本量×总喜欢人数=100100×70=70
对于男性喜欢咖啡的期望频数为:
E
男
,
喜欢
=
男性总计
×
总喜欢人数
总样本量
=
50
×
70
100
=
35
E_{男,喜欢} = \frac{男性总计 \times 总喜欢人数}{总样本量} = \frac{50 \times 70}{100} = 35
E男,喜欢=总样本量男性总计×总喜欢人数=10050×70=35
- 男性不喜欢咖啡的期望频数: E 男 , 不喜欢 = ( 男性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{男,不喜欢} = \frac{(男性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E男,不喜欢=总样本量(男性总计×不喜欢咖啡总计)=10050×30=15
- 女性喜欢咖啡的期望频数: E 女 , 喜欢 = ( 女性总计 × 喜欢咖啡总计 ) 总样本量 = 50 × 70 100 = 35 E_{女,喜欢} = \frac{(女性总计 \times 喜欢咖啡总计)}{总样本量} = \frac{50 \times 70}{100} = 35 E女,喜欢=总样本量(女性总计×喜欢咖啡总计)=10050×70=35
- 女性不喜欢咖啡的期望频数: E 女 , 不喜欢 = ( 女性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{女,不喜欢} = \frac{(女性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E女,不喜欢=总样本量(女性总计×不喜欢咖啡总计)=10050×30=15
3. 计算卡方统计量
χ 2 = ∑ ( O − E ) 2 E χ² = \sum \frac{(O - E)^2}{E} χ2=∑E(O−E)2
代入具体数值:
χ
2
=
(
30
−
35
)
2
35
+
(
20
−
15
)
2
15
+
(
40
−
35
)
2
35
+
(
10
−
15
)
2
15
χ² = \frac{(30-35)^2}{35} + \frac{(20-15)^2}{15} + \frac{(40-35)^2}{35} + \frac{(10-15)^2}{15}
χ2=35(30−35)2+15(20−15)2+35(40−35)2+15(10−15)2
χ
2
=
(
−
5
)
2
35
+
(
5
)
2
15
+
(
5
)
2
35
+
(
−
5
)
2
15
χ² = \frac{(-5)^2}{35} + \frac{(5)^2}{15} + \frac{(5)^2}{35} + \frac{(-5)^2}{15}
χ2=35(−5)2+15(5)2+35(5)2+15(−5)2
χ
2
=
25
35
+
25
15
+
25
35
+
25
15
χ² = \frac{25}{35} + \frac{25}{15} + \frac{25}{35} + \frac{25}{15}
χ2=3525+1525+3525+1525
χ
2
=
50
35
+
50
15
χ² = \frac{50}{35} + \frac{50}{15}
χ2=3550+1550
χ
2
=
10
7
+
10
3
χ² = \frac{10}{7} + \frac{10}{3}
χ2=710+310
χ
2
≈
1.43
+
3.33
=
4.76
χ² ≈ 1.43 + 3.33 = 4.76
χ2≈1.43+3.33=4.76
4. 确定自由度和临界值
自由度为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) = ( 2 − 1 ) × ( 2 − 1 ) = 1 df = (行数 - 1) \times (列数 - 1) = (2-1) \times (2-1) = 1 df=(行数−1)×(列数−1)=(2−1)×(2−1)=1
对于α=0.05的显著性水平,查卡方分布表,当自由度为1时,临界值约为3.841。
5. 比较并做出决策
由于计算得到的卡方统计量 ( χ² ≈ 4.76 ) 大于临界值3.841,因此我们拒绝零假设
,认为性别与喜欢喝咖啡之间存在显著的关联
。
规则:
如果卡方统计量大于临界值
,意味着我们观察到的数据与零假设预测的模式(即变量间无关联)之间的差异大到不太可能是由于随机抽样误差造成的。因此,统计量落在了拒绝区域内,我们有足够的证据拒绝零假设,接受备择假设,即性别与喜欢喝咖啡之间存在显著的关联。
结论
通过上述步骤,我们发现在这个样本中,性别与喜欢喝咖啡之间存在统计学上的显著关联。这仅是一个示例,实际研究中还需要考虑样本代表性、误差范围等因素。
彩蛋
卡片检验不依据“左侧、右侧、双侧检验”结果进行决策,而是根据显著性原则进行决策