一、卡方分布
定义:k个独立的标准正态随机变量的平方和服从自由度为k的卡方分布
二、卡方检验:
χ
k
2
=
∑
(
A
−
E
)
2
E
,
A
为
实
际
频
数
,
E
为
期
望
频
数
\chi_k^2=\sum\frac{(A-E)^2}{E},A为实际频数,E为期望频数
χk2=∑E(A−E)2,A为实际频数,E为期望频数
-
拟合优度检验
用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的假设检验。计算分类变量中各类别的期望频数与观察频数对比,判断是否有显著差异。
-
独立性检验(列联分析)
分析两个分类变量是否独立
三、卡方分箱
(1)初始化阶段:首先按照属性值大小排序,将每个属性值单独作为一组
(2)合并阶段:
- 对每一对相邻的组,计算卡方值
- 根据计算的卡方值,对其中最小的一对邻组合并为一组
- 不断重复以上两步,直到计算出的卡方值都高于阈值,或分组达到一定数量