特征选择

卡方检验

卡方检验是检验两个事件是否独立的标准统计方法。应用于特征选择中就是通过卡方检验分析label和feature之间是否独立,如果独立,说明label不依赖该feature则可以把该feature剔除掉。
卡方检验
χ 2 = ( A + B + C + D ) ( A D − B C ) 2 ( A + B ) ( A + C ) ( B + D ) ( C + D ) \chi^{2}=\frac{(A+B+C+D)(AD-BC)^{2}}{(A+B)(A+C)(B+D)(C+D)} χ2=(A+B)(A+C)(B+D)(C+D)(A+B+C+D)(ADBC)2
需要注意的是对于多分类问题,每个类别都要计算,只要对其中一个类别有帮助的特征都应该留下来。

信息增益

信息熵是衡量不确定性的指标,变量不确定性越大,熵就越大,即:

[latex]H(Y)=-\sum plog§[/latex]

信息增益则是指当给定变量X的情况下,Y的信息熵的变化,即:

[latex]D(Y,X) = H(Y) - H(Y|X)[/latex]

其中H(Y|X)是条件熵,即:

[latex]H(Y|X) = \sum p_{i}H(Y|X=x_{i})[/latex]

这样信息增益越大,说明特征和label间的关系就越强。这样通过信息增益信息就能实现特征的选择。

卡方检验和信息增益不同之处在于:前者是针对每一个行为单独筛选出一套标签出来,即对于每个类别取值都要单独采用卡方检验计算,而后者是全局统一筛选。

此外还有一些方法,比如使用随机森林,使用L1正则化的方法等进行特征选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值