卡方检验--离散变量相关性分析--机器学习特征选择

最新推荐文章于 2023-07-17 22:18:43 发布

Michael_Flemming

最新推荐文章于 2023-07-17 22:18:43 发布

阅读量2.6k

点赞数 2

本文链接：https://blog.csdn.net/weixin_44360866/article/details/127108754

版权

一、卡方检验理论

这部分来自《概率论与数理统计》。先从理论角度介绍卡方检验是什么。
卡方检验起始就是一种假设检验。
假定一个总体可以分成r类，从该总体获得了样本数据集。从该样本数据集出发，判断各类出现的概率是否与假设的概率相符。

设总体X可以分成类，记为 $A_1,A_2,...,A_r$ ，要检验的假设：
$H_0:p(A_i)=p_i, \ \ \ i=1,2,...,r.$
其中 $p_i$ 已知， $p_i \geq0,\Sigma_{i=1}^r p_i =1$ .

假设检验就是从样本检验H0是否为真。

英国统计学家K-Pearson提出了一个检验统计量：
$\mathcal{X}^2=\Sigma_{i=1}^{r}\frac{(n_i-np_i)^2}{np_i}$
当样本容量足够大且H0为真时， $\mathcal{X}^2$ 近似服从自由度为r-1的 $\mathcal{X}^2$ 分布。

当H0为真时， $\mathcal{X}^2$ 值分子应该很小，所以可以定拒绝域为 $W=\{\mathcal{X}^2 \geq c \}$ .
给定显著性水平 $\alpha$ 【犯第一类错误/拒真概率】，由 $\mathcal{X}(r-1)^2$ 分布可以定出 $c=\mathcal{X}^2_{1-\alpha}(r-1)$ .