基尼系数、熵、信息增益、信息增益率

熵是事件不确定性的度量,如果事件无不确定性,则熵为0,不确定性越大,熵越大在这里插入图片描述

条件熵

在一个条件下,随机变量的不确定性

信息增益

信息增益 = 熵 - 条件熵
表示在一个条件下,信息不确定性减少的程度
缺点:信息增益偏向取值较多的特征

信息增益率

本质是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
惩罚参数:数据集D以特征A作为随机变量的熵的倒数,即:将特征A取值相同的样本划分到同一个子集中在这里插入图片描述
缺点:信息增益比偏向取值较少的特征
原因: 当特征取值较少时HA(D)的值较小,因此其倒数较大,因而信息增益比较大。因而偏向取值较少的特征

基尼系数

表示在样本集合中一个随机选中的样本被分错的概率,代表了模型的不纯度,衡量不确定性的大小,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的
在这里插入图片描述

为什么用基尼系数不用熵?

因为熵log运算耗时

参考文章
参考文章1

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值