关于信息增益如何计算

首先简单介绍一下DT

DT决策树是用于分类(用于分类的问题,如二分类)和回归(是预测连续的问题,如股票)的

信息熵:熵值越大表示数据越不稳定,熵值越小说明数据越稳定

信息增益:信息增益越大,以当前结点进行划分信息的纯度越高,在计算信息增益之前需要先计算信息熵

总体概括:信息熵越小,信息增益越大,信息纯度越高,用当前结点进行属性划分越合适

用西瓜书上的问题来练习如何计算信息熵以及信息增益

信息熵的计算公式:

信息增益的计算公式:

题目如下:

以纹理为例子进行运算:

不区分纹理的种类,好瓜的数目是8/17,坏瓜的数目是9/17

总体的信息熵的计算Ent(D)=-(\frac{8}{17}log_{2}\frac{8}{17})-(\frac{9}{17}\log_{2}\frac{9}{17}

其次以纹理为根节点可分为3类(清晰,稍糊,模糊),3者分别占比9/17,3/17,5/17

清晰好瓜数目7/9,坏瓜的数目2/9

稍糊好瓜数目1/3,坏瓜数目2/3

模糊好瓜的数目0,坏瓜的数目5/5

分别计算3者的信息熵

清晰---Ent(^{D1})=-(\frac{7}{9}log_{2}\frac{7}{9})-(\frac{2}{9}log_{2}\frac{2}{9})

稍糊---Ent(^{D2})=-(\frac{1}{3}log_{2}\frac{1}{3})-(\frac{2}{3}log_{2}\frac{2}{3})

模糊---Ent(^{D3})=-(0)-(\frac{5}{5}log_{2}\frac{5}{5})

最后计算以纹理进行划分的信息增益

Gain(D,a)=Ent(D)-(9/17*Ent(^{D1})+3/17*Ent(^{D2})+5/17*Ent(^{D3}))

就可以得出最后的结果的,其他的计算方法类似

主要的计算思路,先计算总体的信息熵,再分别计算划分结点的熵,最后信息增益=总的熵-(划分计算的占比*划分计算的熵)

  • 8
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值