决策树之信息增益

对于决策树,根据其划分属性的不同,有决策树之信息增益、决策树之信息增益率、决策树之基尼指数。我们先了解决策树之信息增益。


信息熵:衡量样本集合纯度的一种指标。信息熵越小表明纯度越高,反之则纯度越低。


 
其中,Ent(D)表示样本集合D的信息熵,样本集合D中有k类样本,其所占比例为 ,(k=1,2,…|y|)tips:此间所说的k类样本就是我们分类标签的类别,当分类是0—1变量也就是|y|=2。


介绍完信息熵,但是和我们今天要说的决策树有什么关系呢?
决策树包含一个根节点,若干个内部节点和若干个叶节点,我们一层层的往下分,目的就是使相同的一类归为一个节点处,用信息熵来说,就是使下一层的整体纯度高于上一层的整体纯度,即下一层的信息熵低于上一层的信息熵,所以又引出来一个定义,信息增益。

信息增益 = 划分前的熵 - 划分后的熵


 

其中前一项是划分前的熵,第二项是划分后的熵,第二项前面的系数是划分后熵的加权平均。(此处加权平均不理解没关系)


 

举一个例子我们来实地验证一下公式,k为2,因为分类结果是好瓜—坏瓜,根节点时样本集合有17个样本,好瓜有8个样本,坏瓜有9个样本,我们计算本例子的根节点信息熵,: 


一个数据及有很多属性,本例有6个属性,假设属性a有V个可能的取值,{ },若使用a来对样本集D划分,则就会产生V个分支节点,其中第v个分支节点包含样本集D中的 个样本。对于本例子,属性‘色泽’,有三个可能的取值,{青绿,乌黑,浅白},根节点处有17个样本,按照‘色泽’来分,青绿的样本6个,乌黑的样本6个,浅白的样本5个,对于根节点,我们想找到一个属性使得其纯度增加, 当我们按照‘色泽’为分裂节点时,色泽有三个属性,{青绿,乌黑,浅白},则根节点就会被分成有三个叶子节点,我们计算每个叶节点的熵,青绿的熵,乌黑的熵和浅白的熵:


 

其中青绿中好瓜3/6,坏瓜是3/6,乌黑中好瓜是4/6,坏瓜是2/6,浅白中好瓜是1/5,坏瓜是4/5.因为我们计算的是纯度,纯度是在[0,1]之间的数,我们可以给他想象成百分比,所以要用这一层分裂后的熵的加权熵作为这一层的熵,于是就有信息增益第二项前面的系数(加权平均的熵),计算出根节点到属性‘色泽’的信息增益是,同理也可以计算出根节点到其他属性的信息增益:


 

根据我们决策树的目的是要使分裂后的纯度更大,即熵更小的原则,则信息增益越大越好,故我们选择上述信息增益最大的一个属性作为我们真正分裂的属性。






















对于纹理清晰的这个节点,{1,2,3,4,5,6,8,10,15},有属性{色泽、根蒂、敲声、脐部、触感}可以尝试做为再次分裂的节点,其中纹理不再作为候选集,同理计算:
Gain( ,色泽) = 0.043  Gain( ,根蒂) = 0.458
Gain( ,敲声) = 0.331   Gain( ,脐部) = 0.458    Gain( ,触感)= 0.458
直至叶节点的样本全为一类为止。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值