![](https://img-blog.csdnimg.cn/img_convert/05f8b218fe026e6b6e81653a4cfd5755.png)
本次学习主要来介绍决策树是什么和其基本原理。
![](https://img-blog.csdnimg.cn/img_convert/e856ed86c33719c9ce46695684a5ee5e.png)
正如“西瓜书”中图 4.1 所示的决策过程,决策树就是不断根据某属性进行划分的过程(每次决策时都是在上次决策结果的基础之上进行),即“if……elif……else……”的决策过程,最终得出一套有效的判断逻辑,便是学到的模型。
![](https://img-blog.csdnimg.cn/img_convert/ad9f4e796f74bacd135c06c77d2eed0e.png)
若递归划分过程中某个子集中已经只含有某一类的样本(例如只含好瓜),那么此时划分的目的已经达到了,无需再进行递归划分。
递归划分时每次选择一个属性作为划分依据,并且该属性通常不能重复使用(仅针对离散属性),原因是划分后产生的各个子集在该属性上的取值相同。例如本次根据触感对西瓜样本进行划分,那么后面对划分出的子集(及子集的子集……)再次进行递归划分时不能再使用“触感”。
根据某个属性进行划分时,若该属性多个属性值中的某个属性值不包含任何样本(例如未收集到),例如对当前子集以“纹理”属性来划分,“纹理”共有 3 种取值:清晰、稍糊、模糊,但发现当前子集中并无样本“纹理”属性取值为模糊,此时对于取值为清晰的子集和取值为稍糊的子集继续递归,而对于取值为模糊的分支,因为无样本落入,将其标记为叶结点,其类别标记为训练集 D 中样本最多的类,即把全体样本的分布作为当前结点的先验分布。
关于选择最优化分属性我们有三种划分选择方法,即信息增益、增益率、基尼指数分别对应著名的 ID3、C4.5 和 CART三种决策树算法。
首先介绍这三个概念:
![](https://img-blog.csdnimg.cn/img_convert/a629d48ce0a2a6f7e3e7f32b68bc390e.png)
![](https://img-blog.csdnimg.cn/img_convert/d6803428c4c685e546108c275334a3f4.png)
ID3决策树:以信息增益为准则来选择划分属性的决策树,在信息论中信息增益也称为“互信息”,表示已知一个随机变量的信息后另一个随机变量的不确定性减少的程度。
![](https://img-blog.csdnimg.cn/img_convert/f3f81754cf250635e459aba516a4505d.png)
![](https://img-blog.csdnimg.cn/img_convert/20058e1058bee2d1bf9702bd2d636b2a.png)
![](https://img-blog.csdnimg.cn/img_convert/2325e9f8caa04e98939ae5b33851ba35.png)
基尼值:从样本集合 中随机抽取两个样本,其类别标记不一致的概率。因此,基尼值越小,碰到异类的概率就越小,纯度自然就越高。
![](https://img-blog.csdnimg.cn/img_convert/1443366935d0a9637055e34ec40fc02f.png)
在task01中我们提到过拟合这个概念,在这个决策树主要通过剪枝来减小这种影响,分为预剪枝和后剪枝。剪枝是决策树算法防止过拟合的一种手段,因为在学习过程中,决策树根据训练样本进行拟合,生成了针对于训练数据集精确性极高的模型。
简单来说,预剪枝就是在决策树生成过程中,在每次划分时,考虑是否能够带来决策树性能的提升。
后剪枝是先从训练集生成一颗完整的决策树,然后自底向上的对决策树进行剪枝,与预剪枝最大的不同就是:决策树是否生长完整。
两者各有优缺点,举个例子:预剪枝基于’贪心’本质,也就是能多剪枝就多剪枝,使得预剪枝策略给决策树带来了欠拟合的风险。后剪枝过程是在生成完全决策树后进行的,并且要自下往上地对树中的非叶子节点逐一进行考察计算,因此训练时间的开销比为剪枝和预剪枝决策树都要长得多。
现实任务中常会遇到不完整样本,即属性缺失样本。有些分类器只能使用离散属性,当遇到连续属性时则需要特殊处理,有些分类器不能使用含有缺失值的样本,需要进行预处理。常用的缺失值填充方法是:对于连续属性,采用该属性的均值进行填充;对于离散属性,采用属性值个数最多的样本进行填充。这实际上假设了数据集中的样本是基于独立同分布采样得到的。特别地,一般缺失值仅指样本的属性值有缺失,若类别标记有缺失,一般会直接抛弃该样本。
多决策变量树:
![](https://img-blog.csdnimg.cn/img_convert/5e58e33ff56b3a0e5ea4ef9fcb356b77.png)
需要注意:多决策变量树的最大特点在于,它试图建立一个合适的线性分类器而不是为每个非叶结点寻找最优化分属性。