构造决策树之前需要决定使用哪个特征进行划分数据,为了划分出更好的结果,需要找到决定性的特征。
而特征的好坏是根据一些准则来进行衡量的,比如信息增益,信息增益率,基尼指数等等。
代名词及公式的理解
- 信息
- 信息熵(信息的期望值) (熵越高,混合的数据越多------熵越小纯度越高)
- 信息增益 (信息增益越大越好,信息增益偏好取值数目多的属性)
- 信息增益率 (a是属性,IV(a)成为属性a的固有值,对取值数目较少的属性有所偏好) (属性a的取值越多,即V越大,则IV(a)的值通常会越大)
- 基尼值 (反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,基尼值越小,数据集D的纯度越高)
- 基尼指数 (选择基尼指数最小得属性作为最优划分属性)