卡方检验--离散变量相关性分析--机器学习特征选择

一、卡方检验理论

这部分来自《概率论与数理统计》。先从理论角度介绍卡方检验是什么。
卡方检验起始就是一种假设检验
假定一个总体可以分成r类,从该总体获得了样本数据集。从该样本数据集出发,判断各类出现的概率是否与假设的概率相符。

设总体X可以分成类,记为 A 1 , A 2 , . . . , A r A_1,A_2,...,A_r A1,A2,...,Ar,要检验的假设:
H 0 : p ( A i ) = p i ,     i = 1 , 2 , . . . , r . H_0:p(A_i)=p_i, \ \ \ i=1,2,...,r. H0:p(Ai)=pi,   i=1,2,...,r.
其中 p i p_i pi已知, p i ≥ 0 , Σ i = 1 r p i = 1 p_i \geq0,\Sigma_{i=1}^r p_i =1 pi0,Σi=1rpi=1.

假设检验就是从样本检验H0是否为真。

英国统计学家K-Pearson提出了一个检验统计量:
X 2 = Σ i = 1 r ( n i − n p i ) 2 n p i \mathcal{X}^2=\Sigma_{i=1}^{r}\frac{(n_i-np_i)^2}{np_i} X2=Σi=1rnpi(ninpi)2
当样本容量足够大且H0为真时, X 2 \mathcal{X}^2 X2近似服从自由度为r-1的 X 2 \mathcal{X}^2 X2分布。

当H0为真时, X 2 \mathcal{X}^2 X2值分子应该很小,所以可以定拒绝域为 W = { X 2 ≥ c } W=\{\mathcal{X}^2 \geq c \} W={X2c}.
给定显著性水平 α \alpha α【犯第一类错误/拒真 概率】,由 X ( r − 1 ) 2 \mathcal{X}(r-1)^2 X(r1)2分布可以定出 c = X 1 − α 2 ( r − 1 ) c=\mathcal{X}^2_{1-\alpha}(r-1) c=X1α2(r1).

二、卡方检验用于相关性分析

部分学习自:https://zhuanlan.zhihu.com/p/432912922
(这里的符号都来自上面文章)

只需要对于第一节的内容稍微变一下,原假设H0变为:特征 f i f_i fi与标签 y y y是相互独立的。
上节的已知的 p i p_i pi,也就是假设的分布,在这里就是边际分布的乘积。【因为假设相互独立,联合分布等于边际分布的乘积】。

上节的假设具体到这一节就是:真实的联合分布 等于 边际分布的乘积。

给定具体的数据集,边际概率、联合概率通过频率估算。可以画出两个变量的列联表,边际概率通过求行和、列和等计算…具体见链接🔗。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值