特征选择之信息增益

在文本分类中利用信息增益进行特征提取

信息增益体现了特征的重要性,信息增益越大说明特征越重要

假设数据中有k类:

每类出现的概率是:

各类的信息熵计算公式:

对某个词汇word需要计算word在所有类别中出现的概率:

就是:出现word的文件数 除以总文件数

word不出现的概率:

就是没有出现word的文件数 除以总文件数

条件熵的计算:

这里我们用到了T表示word这个特征

其中

表示:出现word的文件的信息熵

计算方式:

其中:

表示出现word的情况下是Ci类的概率,计算方式:Ci类中出现word的文件数 除以 总的出现word的文件数

表示不出现word的条件熵

计算方式

其中

表示没有出现word的情况下是Ci类的概率,计算方式:Ci类中没有出现word的次数 除以 总类中没有出现word的次数

总的信息增益计算公式

信息熵体现了信息的不确定程度,熵越大表示特征越不稳定,对于此次的分类,越大表示类别之间的数据差别越大

条件熵体现了根据该特征分类后的不确定程度,越小说明分类后越稳定

信息增益=信息熵-条件熵,越大说明熵的变化越大,熵的变化越大越有利于分类

作者:山的那边是什么_
链接:https://www.jianshu.com/p/9bbe71750547
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值