熵、信息增益

如果分类的事务可能划分在多个分类中,符号xi的信息量为:L(xi)=-log(2,p(xi)),p(xi)为选择xi类的概率。

熵(entropy):信息量的期望,其公式为:

从熵的公式可以看出:

1)当类数n一定时,p(x1)= p(x2)=...=p(xn)=1/n时,熵最大,最大熵为log(2, n)

2)当类数n增大时,熵H会增大

从而可以得出:熵反映的是数据的不纯度,或者无序度,熵越大,混合的数据越多,这里的混合指两个方面:

1)每个类的概率相当。比如只有两类,某个类出现的概率非常大,而另外一个类出现的概率非常小,那么该数据比较纯,熵很小;反之,如果两个类的概率一样大(如果用频率来表示概率,也就是属于两个类的样本数一样多),则数据越不纯,熵很大

2)类的种数n很大。当向一个数据集中增加一个样本,且该样本属于例外一个类,此时类数为n+1,样本熵也会增加。

信息增益(information gain):熵的减少量,反映数据纯度的增大量或者数据无序度的减少量,公式:

info_gain = old_entropy - new_entropy

运用:

在构造决策树中,按照某一个特征划分的标准是,划分后数据的信息增益最大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值