卡方检验
卡方检验是检验两个事件是否独立的标准统计方法。应用于特征选择中就是通过卡方检验分析label和feature之间是否独立,如果独立,说明label不依赖该feature则可以把该feature剔除掉。
χ
2
=
(
A
+
B
+
C
+
D
)
(
A
D
−
B
C
)
2
(
A
+
B
)
(
A
+
C
)
(
B
+
D
)
(
C
+
D
)
\chi^{2}=\frac{(A+B+C+D)(AD-BC)^{2}}{(A+B)(A+C)(B+D)(C+D)}
χ2=(A+B)(A+C)(B+D)(C+D)(A+B+C+D)(AD−BC)2
需要注意的是对于多分类问题,每个类别都要计算,只要对其中一个类别有帮助的特征都应该留下来。
信息增益
信息熵是衡量不确定性的指标,变量不确定性越大,熵就越大,即:
[latex]H(Y)=-\sum plog§[/latex]
信息增益则是指当给定变量X的情况下,Y的信息熵的变化,即:
[latex]D(Y,X) = H(Y) - H(Y|X)[/latex]
其中H(Y|X)是条件熵,即:
[latex]H(Y|X) = \sum p_{i}H(Y|X=x_{i})[/latex]
这样信息增益越大,说明特征和label间的关系就越强。这样通过信息增益信息就能实现特征的选择。
卡方检验和信息增益不同之处在于:前者是针对每一个行为单独筛选出一套标签出来,即对于每个类别取值都要单独采用卡方检验计算,而后者是全局统一筛选。
此外还有一些方法,比如使用随机森林,使用L1正则化的方法等进行特征选择。