决策树整理（附提问）

最新推荐文章于 2023-06-27 09:59:44 发布

ykukey_csdn

最新推荐文章于 2023-06-27 09:59:44 发布

阅读量264

点赞数 1

分类专栏：机器学习技术文章标签：机器学习

本文链接：https://blog.csdn.net/ykukey_csdn/article/details/103636299

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

技术

9 篇文章 0 订阅

订阅专栏

决策树整理（附提问）

决策树递归返回条件
决策树的基本逻辑
- 选择最优划分特征衡量指标
- 两种剪枝
决策树的进化
特征含缺失值时决策树的处理

决策树递归返回条件

实现方式：函数递归
问题：当前样本集D，当前特征集Fs，如何建立分支
常规流程：
对当前数据集D，以及特征集Fs，确定最优的划分特征optF，并依据最优特征optF取值获得子集Fsub，并对每一个子集(Dsub，Fs-optF)继续建立分支[ 注意，每一步迭代之后样本集减少（D到Dsub），可用特征数目减1（Fs到Fs-optF）]
逻辑整理：

如果当前数据集无可用特征(特征集Fs为空集)，函数返回，并返回数据集D中占比最多类别的叶节点;
如果当前数据集特征Fs全部取值相同，函数返回，并返回类别为占比较多的类的叶节点;
如果当前数据集类别全部相同且为c，函数返回，并返回叶节点c;
？？如果当前数据集D无样本（D为空集），函数返回，返回叶节点，返回类别应该是什么？？
（在利用训练集构建树时，训练集中可能存在某特征的某取值由于训练集容量有限而该类特征取值上样本子集数目为0，但是实际运用时肯定会遇到该特征取值存在的情形，此时，直接返回叶节点类型为父节点中占比最多的类别）
如果当前数据集含多种类别，且特征取值不同，则选择最优特征optF，针对每一个子集Dsub，以及特征子集（Fs-optF）继续建立分支

代码：

决策树的基本逻辑

选择最优划分特征衡量指标

（1）预备知识：

自信息I(x) ：描述随机变量某个事件带来的信息量
公式：事件发生概率取对数
熵（entropy，ent(Y)）：衡量随机变量不确定性，越小不确定性越小;
公式：加权自信息
条件熵（conditional entropy，ent(y|X)）：给定条件x下，随机变量y的不确定性（按一个新的变量的每个值对原变量进行分类，然后在每一个小类里面，都计算一个小熵，然后每一个小熵乘以各个类别的概率，然后求和。我们用另一个变量对原变量分类后，原变量的不确定性就会减小了，因为新增了X的信息。）;
公式：加权熵

（2）划分特征评估指标

信息增益gain(D，A)

含义：给定特征A的情况下，数据集不确定性减小的程度，信息增益越大越好
信息增益率gain_ratio(D，A)
gini系数

含义：从数据集中随机抽取两个样本，样本不属于同一类的概率，gini指数越小越好

两种剪枝

目的：降低过拟合风险

预剪枝：在建树途中，每次分裂前比较分裂前/分裂后验证集泛化率变化;
特点：（1）自上而下（2）基于“贪心”算法，使得当前树的结构验证集泛化率最高
优点：（1）一定程度降低过拟合风险（2）节省建树开销
缺陷：欠拟合风险大（剪枝使得当前泛化率最高，但是可能如果不剪枝，后续的结构能进一步提高泛化率）
后剪枝：建立起完全的决策树后，自下而上，合并分枝，查看泛化率变化;
特点：（1）自下而上（2）保留分枝数高于预剪枝
优点：相比于预剪枝，欠拟合风险降低，泛化性能较高
缺陷：训练开销较大

决策树的进化

ID3决策树

最优特征选择指标：信息增益（互信息）
优点：简单，学习能力强
缺点：
（1）基于信息增益选择节点最优划分特征时，倾向于选择特征取值数较多的特征，但是这类特征往往包含信息较少
（2）无法处理连续型变量
（3）划分过程中，由于子集规模较少而造成统计特征不充分而停止

C4.5决策树

最优特征选择指标：信息增益比率
优点：
（1）克服信息增益缺陷
（2）可以处理连续变量（问题：如何处理连续变量（排序，取中间值，取最优阈值））
缺点：倾向于选择特征取值较少特征作为划分特征
实际做法：选择信息增益高于平均值的特征，从中选取信息增益率最高的特征作为最优划分特征

Cart决策树（classification and regression tree）

最优特征选择指标：（1）分类：gini指数（2）回归：特征均方差
特点：
（1）既可建立分类树，也可以建立回归树;
（2）只能建立二叉树;

特征含缺失值时决策树的处理

某些样本在特征A存在缺失值，如何计算特征A的信息增益
（1）提取所有在特征A无缺失值的样本集合Dsub，并计算Dsub按照特征A划分的信息增益gain(Dsub,A)
（2）最终信息增益为：gain(D,A)=(Dsub样本数/D样本数) X gain(Dsub,A)
确定最优划分特征后，如何将在最优特征处取值缺失的样本划分到树里
将缺失值样本按照子集样本数在所有样本占比权重划分到所有子集中（即在各个样本子集中，每一个缺失值样本不再视作一个样本，而是低于1）