1 列联表检验
- 一个实际例子
- 杀人犯的种族是否会影响判处死刑的问题。 对 1976-1977年美国佛罗里达州20个地区杀人案件中的674个被告进行调查, 考虑的种族有白人 和黑人, 用 是 和 否 表示是否判处死刑。调查后把已有数据整理成表格形式
Table 1: 种族死刑数据 白人 黑人 是 53 15 否 430 176 死刑百分比 11.0 7.9 - 试检验判处死刑是否与杀人犯的种族有关
a<-matrix(c(53,430,15,176),ncol=2) chisq.test(a)
Pearson's Chi-squared test with Yates' continuity correction data: a X-squared = 1.1447, df = 1, p-value = 0.2847
- 说明判处死刑与种族没有显著关系
- 死刑判决表的细节
受害人种族 被告人种族 死刑 死刑百分比 白人 白人 53 414 11.3 黑人 11 37 22.9 黑人 白人 0 16 0 黑人 4 139 2.8 小计 白人 53 430 11.0 黑人 15 176 7.9 - 考虑条件列联表 受害人为白人
Table 2: 死刑判决分表之受害人为白人 受害人种族 被告人种族 死刑 白人 白人 53 414 黑人 11 37 a<-matrix(c(53,11,414,37),ncol=2) chisq.test(a)
Pearson's Chi-squared test with Yates' continuity correction data: a X-squared = 4.3416, df = 1, p-value = 0.03719
- 考虑受害人为黑人
Table 3: 死刑判决分表之受害人为黑人 受害人种族 被告人种族 死刑 黑人 白人 0 16 黑人 4 139 a<-matrix(c(0,4,16,139),ncol=2) chisq.test(a)
Pearson's Chi-squared test with Yates' continuity correction data: a X-squared = 0, df = 1, p-value = 1 警告信息: In chisq.test(a) : Chi-squared近似算法有可能不准
- 辛普森悖论
- 边际关联的结果和条件关联的结果方向矛盾的情况称为 辛普森悖论(Simpson's paradox)
- 统计学家经常用它来警告从 X 到 Y 的关联来推论因果关系的危险性
- 例如医学家观察吸烟和肺癌的关系的时候, 诸如 R. A. Fisher 等统计学家则强调, 可能 存在其他变量(如基因因素) 会使其在进行相应控制好的情况下吸烟和肺癌的关联消失
- R. A. Fisher 在这个问题上的立场受到了很多学者的攻击
2 检验两属性变量相互独立的一般情况
- 一般的统计模型
- 设随机变量 X,Y 分别取取值 x1,⋯,xp 和 y1,⋯,yq
- 从实际中抽取的样本经统计列表如下
Table 4: 列联表数据 X/Y y1 …. yj … yq x1 n11 … n1j … n1q n1. … … … … … … xi ni1 … nij … niq ni. … … … … … … xp np1 … npj … npq np. n.1 … n.j … n.q n 其中 n=∑i=1p∑j=1qnij
- 检验统计量及其分布
- 取检验统计统计量
χ2=∑i=1p∑j=1q(nij−ni.n.jn)2ni.n.jn
- 可以证明在原假设:
X,Y
不相关的条件下有
χ2∼χ2((p−1)(q−1))
- 其自由度为 pq−1−(p−1)−(q−1)=pq−p−q+1=(p−1)(q−1)
- 取检验统计统计量