一、决策树
数学角度:树的分叉。即在面对选择问题时的处理机制。
一棵决策树包含一个根节点、若干个内部结点和若干个叶节点;
叶节点对应于决策结果,其他结点对应于一个属性测试。
决策树学习的目的是:产生一棵泛化能力强的决策树,流程遵循“分而治之”的策略。
决策树的生成是对训练集中的样本进行划分,划分的属性应是最优划分属性。
PS:一般情况下,根节点包含所有样本数据,越往下划分样本越少,纯度越高。
二、划分选择
1、如果结点包含的样本属于同一类别,就无须再划分。
2、当前属性集为空或者所有样本在所有属性上取值相同,无法划分。
3、当前节点包含的样本集合为空,不能划分。
三、信息熵,信息增益,增益率
信息熵:
D为当前样本集合,为第k类样本所占的比例。
信息熵越小,D的纯度越高。
信息增益:
样本数越多的分支节点影响越大。
信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。因此用信息增益来进行决策树的划分属性选择。
由于信息增益准则对于可取值数目较多的属性有偏好,为了减少这种不利影响,引出增益率
增益率:
增益率准则对可取值数目较少的属性有所偏好
四、基尼指数
CART决策树使用“基尼指数”来选择划分属性。
基尼指数:
反映了从数据集D中随机抽样两个样本,其类别标记不一致的概率。因此,Gini(D)越小,数据集D的纯度越高。
五、剪枝处理
由于决策树在划分节点的过程中不断产生分支,分支过多会产生过拟合,所以需要减去分支。
分为两种,一是预剪枝,二是后剪枝。
预剪枝是指在决策树生成过程中,对每个结点在划分前进行评估,再决定需不需要划分。
后剪枝是指先形成一个完全的决策树自底向上的分析判断。判断能否提升泛化能力,再决定是否变成叶节点。
六、连续与缺失值
连续值处理,用二分法对连续属性进行离散化处理。
缺失值的处理:需要解决两个问题,在属性值缺失的情况下怎么进行划分属性选择?给定了划分属性,若样本在该属性上的值缺失,如何对样本划分?
七、多变量决策树
可以实现斜划分,更加复杂划分的决策树。