首先简单介绍一下DT
DT决策树是用于分类(用于分类的问题,如二分类)和回归(是预测连续的问题,如股票)的
信息熵:熵值越大表示数据越不稳定,熵值越小说明数据越稳定
信息增益:信息增益越大,以当前结点进行划分信息的纯度越高,在计算信息增益之前需要先计算信息熵
总体概括:信息熵越小,信息增益越大,信息纯度越高,用当前结点进行属性划分越合适
用西瓜书上的问题来练习如何计算信息熵以及信息增益
信息熵的计算公式:
信息增益的计算公式:
题目如下:
以纹理为例子进行运算:
不区分纹理的种类,好瓜的数目是8/17,坏瓜的数目是9/17
总体的信息熵的计算Ent(D)=-()-()
其次以纹理为根节点可分为3类(清晰,稍糊,模糊),3者分别占比9/17,3/17,5/17
清晰的好瓜数目7/9,坏瓜的数目2/9
稍糊的好瓜数目1/3,坏瓜数目2/3
模糊的好瓜的数目0,坏瓜的数目5/5
分别计算3者的信息熵
清晰---Ent()=-()-()
稍糊---Ent()=-()-()
模糊---Ent()=-(0)-()
最后计算以纹理进行划分的信息增益
Gain(D,a)=Ent(D)-(9/17*Ent()+3/17*Ent()+5/17*Ent())
就可以得出最后的结果的,其他的计算方法类似
主要的计算思路,先计算总体的信息熵,再分别计算划分结点的熵,最后信息增益=总的熵-(划分计算的占比*划分计算的熵)