信息熵
表示物体类别的混乱程度,用来选择用于分类的特征属性的指标
一、
信息增益
如果以属性a来分类,表示集合中属性a值为的样本数量
表示该属性某一取值的集合的信息熵,越小表示的样本越纯
而信息增益的定义
即表示如果D按属性a分类,可以降低的信息熵程度,增益值Gain越大表示分类后变得越纯
二、
信息增益率
增益率=增益/IV(a),通常属性a的取值越少,即以a分组的分支越少,增益率越大
三、
基尼值
Pk为第k类样本占的比例,基尼值越小,纯度越高
基尼指数
选择划分后基尼指数Gini最小的属性作为分类属性
以上为三种特征划分方式,一些算法中的使用:
决策树剪枝优化
分为预剪枝和后剪枝
①预剪枝
对比划分前和划分后在验证集上的准确率,如果准确率降低了,那就把该节点分类为占比较多的标签,不再往下细分。
②后剪枝
生成一颗完整的决策树,从底向上对非叶节点进行验证,对比将该节点划分前后在验证集上的准确率