如果分类的事务可能划分在多个分类中,符号xi的信息量为:L(xi)=-log(2,p(xi)),p(xi)为选择xi类的概率。
熵(entropy):信息量的期望,其公式为:
从熵的公式可以看出:
1)当类数n一定时,p(x1)= p(x2)=...=p(xn)=1/n时,熵最大,最大熵为log(2, n)
2)当类数n增大时,熵H会增大
从而可以得出:熵反映的是数据的不纯度,或者无序度,熵越大,混合的数据越多,这里的混合指两个方面:
1)每个类的概率相当。比如只有两类,某个类出现的概率非常大,而另外一个类出现的概率非常小,那么该数据比较纯,熵很小;反之,如果两个类的概率一样大(如果用频率来表示概率,也就是属于两个类的样本数一样多),则数据越不纯,熵很大
2)类的种数n很大。当向一个数据集中增加一个样本,且该样本属于例外一个类,此时类数为n+1,样本熵也会增加。
信息增益(information gain):熵的减少量,反映数据纯度的增大量或者数据无序度的减少量,公式:
info_gain = old_entropy - new_entropy
运用:
在构造决策树中,按照某一个特征划分的标准是,划分后数据的信息增益最大。