熵
熵是事件不确定性的度量,如果事件无不确定性,则熵为0,不确定性越大,熵越大
条件熵
在一个条件下,随机变量的不确定性
信息增益
信息增益 = 熵 - 条件熵
表示在一个条件下,信息不确定性减少的程度
缺点:信息增益偏向取值较多的特征
信息增益率
本质:是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
惩罚参数:数据集D以特征A作为随机变量的熵的倒数,即:将特征A取值相同的样本划分到同一个子集中
缺点:信息增益比偏向取值较少的特征
原因: 当特征取值较少时HA(D)的值较小,因此其倒数较大,因而信息增益比较大。因而偏向取值较少的特征
基尼系数
表示在样本集合中一个随机选中的样本被分错的概率,代表了模型的不纯度,衡量不确定性的大小,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的
为什么用基尼系数不用熵?
因为熵log运算耗时
参考文章
参考文章1