一、卡方检验理论
这部分来自《概率论与数理统计》。先从理论角度介绍卡方检验是什么。
卡方检验起始就是一种假设检验。
假定一个总体可以分成r类,从该总体获得了样本数据集。从该样本数据集出发,判断各类出现的概率是否与假设的概率相符。
设总体X可以分成类,记为
A
1
,
A
2
,
.
.
.
,
A
r
A_1,A_2,...,A_r
A1,A2,...,Ar,要检验的假设:
H
0
:
p
(
A
i
)
=
p
i
,
i
=
1
,
2
,
.
.
.
,
r
.
H_0:p(A_i)=p_i, \ \ \ i=1,2,...,r.
H0:p(Ai)=pi, i=1,2,...,r.
其中
p
i
p_i
pi已知,
p
i
≥
0
,
Σ
i
=
1
r
p
i
=
1
p_i \geq0,\Sigma_{i=1}^r p_i =1
pi≥0,Σi=1rpi=1.
假设检验就是从样本检验H0是否为真。
英国统计学家K-Pearson提出了一个检验统计量:
X
2
=
Σ
i
=
1
r
(
n
i
−
n
p
i
)
2
n
p
i
\mathcal{X}^2=\Sigma_{i=1}^{r}\frac{(n_i-np_i)^2}{np_i}
X2=Σi=1rnpi(ni−npi)2
当样本容量足够大且H0为真时,
X
2
\mathcal{X}^2
X2近似服从自由度为r-1的
X
2
\mathcal{X}^2
X2分布。
当H0为真时,
X
2
\mathcal{X}^2
X2值分子应该很小,所以可以定拒绝域为
W
=
{
X
2
≥
c
}
W=\{\mathcal{X}^2 \geq c \}
W={X2≥c}.
给定显著性水平
α
\alpha
α【犯第一类错误/拒真 概率】,由
X
(
r
−
1
)
2
\mathcal{X}(r-1)^2
X(r−1)2分布可以定出
c
=
X
1
−
α
2
(
r
−
1
)
c=\mathcal{X}^2_{1-\alpha}(r-1)
c=X1−α2(r−1).
二、卡方检验用于相关性分析
部分学习自:https://zhuanlan.zhihu.com/p/432912922
(这里的符号都来自上面文章)
只需要对于第一节的内容稍微变一下,原假设H0变为:特征
f
i
f_i
fi与标签
y
y
y是相互独立的。
上节的已知的
p
i
p_i
pi,也就是假设的分布,在这里就是边际分布的乘积。【因为假设相互独立,联合分布等于边际分布的乘积】。
上节的假设具体到这一节就是:真实的联合分布 等于 边际分布的乘积。
给定具体的数据集,边际概率、联合概率通过频率估算。可以画出两个变量的列联表,边际概率通过求行和、列和等计算…具体见链接🔗。