一、决策树基本概念
(一)组成部分:
1.根节点:第一个被选中的最优划分属性
2.内部节点:属性测试
3.叶节点:决策结果
(二)基本思想:
1.分而治之:
将一个问题分成多个和原问题相似的小问题,递归解决小问题,再将结果合并以解决原来的问题。
2.递归:
调用自身,把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。
二、基本流程
(一)根据属性划分样本(影响决策树尺寸,对泛化性能影响小)
1. 思路
a.选择划分属性的准则
b.选择每个节点的最优划分属性
c.根据每个节点的属性划分样本
2.划分准则
(1)信息增益
信息熵:度量样本集合纯度,也就是相同类别所占比例。信息熵越小,样本集合纯度越高。(log的作用是减小方差)
信息增益:使用这个属性来划分样本,会使得样本纯度提升,信息熵减小。
例子:ID3决策树
适用偏好:由于gain与属性a的第v个取值所占的样本比例相关,所以对取值数目较多的属性有所偏好,可能带来不利影响。
(2)增益率
IV(a):
增益率:
例子:C4.5算法先选择信息增益高于其他的属性,再选择增益率最高。
适用偏好:相当于对gain做标准化。对可取值数目较少的属性有偏好。
(3)基尼系数
基尼系数:度量数据集的纯度。随机抽取两个样本,不一致的概率。gini越小,数据集的纯度越高。
基尼指数:度量了根据属性a划分后的数据集纯度。
例子:CART决策树同时适用于分类和回归。
(二)剪枝处理(对决策树泛化性能影响大)
不剪枝很可能导致过拟合,从而泛化性能很差。因此适当剪枝可以提升泛化性能。
1.目的:
通过主动去掉分支来减少过拟合的风险。(过拟合:训练样本学的太好了,以至于把训练集自身的特点当作所有数据的一般性质,也就是过度学习。)
2.类别:
(1)预剪枝
思想:在决策树生成过程中,对每个结点进行性能评估。(如留出法)
优点:节省时间。
缺点:可能导致欠拟合,也会导致泛化性能欠佳。
(2)后剪枝
思想:先生成完整的树,然后自下而上对所有的内部结点逐一考察。
优点:欠拟合风险很小,泛化性能往往优于预剪枝。
缺点:时间比未剪枝和预剪枝多得多。
三、其他-连续值与缺失值
(一)连续属性离散化
二分法:C4.5
连续属性可以同时作为父节点和子节点
(二)缺失值
四、其他-多变量决策树
传统决策树:分类边界轴平行,不适用于分类边界复杂的情况。
多变量决策树:
内部节点的划分不是根据单一指标,而是多个指标的加权结果。