数据挖掘十大经典算法(十) CART: 分类与回归树

最新推荐文章于 2022-05-09 10:31:34 发布

zhaomaoer

最新推荐文章于 2022-05-09 10:31:34 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/zd836614437/article/details/50947920

版权

本文介绍了CART算法中的回归树和分类回归树，并探讨了为何需要剪枝以防止过拟合。通过预剪枝和后剪枝策略，特别是详细阐述了错误率降低剪枝（REP）和悲观错误剪枝（PEP）的工作原理和应用场景，以优化决策树的性能。

摘要由CSDN通过智能技术生成

在数据挖掘中，决策树主要有两种类型:
分类树的输出是样本的类标。

回归树的输出是一个实数 (例如房子的价格，病人呆在医院的时间等)。

分类回归树是一棵二叉树，且每个非叶子节点都有两个孩子，所以对于第一棵子树其叶子节点数比非叶子节点数多1。

决策树为什么(WHY)要剪枝？原因是避免决策树过拟合(Overfitting)样本。

如何(HOW)在原生的过拟合决策树的基础上，生成简化版的决策树？可以通过剪枝的方法来简化过拟合的决策树。

剪枝可以分为两种：预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)：
PrePrune：预剪枝，及早的停止树增长。
PostPrune：后剪枝，在已生成过拟合决策树上进行剪枝，可以得到简化版的剪枝决策树。
其实剪枝的准则是如何确定决策树的规模，可以参考的剪枝思路有以下几个：
1：使用训练集合(Training Set）和验证集合(Validation Set)，来评估剪枝方法在修剪结点上的效用
2：使用所有的训练集合进行训练，但是用统计测试来估计修剪特定结点是否会改善训练集合外的数据的评估性能，如使用Chi-Square（Quinlan，1986）测试来进一步扩展结点是否能改善整个分类数据的性能，还是仅仅改善了当前训练集合数据上的性能。
3：使用明确的标准来衡量训练样例和决策树的复杂度，当编码长度最小时，停止树增长，如MDL(Minimum Description Length)准则。

1、Reduced-Error Pruning(REP,错误率降低剪枝）
该剪枝方法考虑将书上的每个节点作为修剪的候选对象，决定是否修剪这个结点有如下步骤组成：
1：删除以此结点为根的子树
2：使其成为叶子结点
3：赋予该结点关联的训练数据的最常见分类
4：当修剪后的树对于验证集合的性能不会比原来的树差时，才真正删除该结点
因为训练集合的过拟合，使得验证集合数据能够对其进行修正，反复进行上面的操作，从底向上的处理结点，删除那些能够最大限度的提高验证集合的精度的结点，直到进一步修剪有害为止(有害是指修剪会减低验证集合的精度)
REP是最简单的后剪枝方法之一，不过在数据量比较少的情况下，REP方法趋于过拟合而较少使用。这是因为训练数据集合中的特性在剪枝过程中被忽略，所以在验证数据集合比训练数据集合小的多时，要注意这个问题。
尽管REP有这个缺点，不过REP仍然作为一种基准来评价其它剪枝算法的性能。它对于两阶段决策树学习方法的优点和缺点提供了了一个很好的学习思路。由于验证集合没有参与决策树的创建，所以用REP剪枝后的决策树对于测试样例的偏差要好很多，能够解决一定程度的过拟合问题。

2、Pessimistic Error Pruning(PEP，悲观剪枝）
先计算规则在它应用的训练样例上的精度，然后假定此估计精度为二项式分布，并计算它的标准差。对于给定的置信区间，采用下界估计作为规则性能的度量。这样做的结果，是对于大的数据集合，该剪枝策略能够非常接近观察精度，随着数据集合的减小，离观察精度越来越远。该剪枝方法尽管不是统计有效的，但是在实践中有效。