决策树——剪枝处理

weixin_54881329

于 2022-11-22 22:50:31 发布

阅读量2.4k

点赞数 2

文章标签：决策树剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54881329/article/details/127991084

版权

剪枝处理

1：剪枝处理的原因

“剪枝”是决策树学习算法对付“过拟合”的主要手段，因此，可通过“剪枝”来一定程度避免因决策分支过多，以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合

2：剪枝的基本策略

预剪枝、后剪枝

3：剪枝后效果如何判断

判断决策树泛化性能是否提升的方法采用留出法，即预留一部分数据用作“验证集”以进行性能评估

4：例子

5：预剪枝（通过提前停止树的构建而对树剪枝）

（1）预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。

（2）主要方法：

1.当决策树达到预设的高度时就停止决策树的生长

2.达到某个节点的实例具有相同的特征向量，即使这些实例不属于同一类，也可以停止决策树的生长。

3.定义一个阈值，当达到某个节点的实例个数小于阈值时就可以停止决策树的生长。

4.通过计算每次扩张对系统性能的增益，决定是否停止决策树的生长。

（3）例子：

这个数据集根据信息增益可以构造出一颗未剪枝的决策树：

前面博客讲过用信息增益怎么构造决策树，这边还是用信息增益构造决策树，先来计算出所有特征的信息增益值，通过计算因为色泽和脐部的信息增益值最大，所以从这两个中随机挑选一个，这里选择脐部来对数据集进行划分，这会产生三个分支，如下图所示：

下面来看看是否要用脐部进行划分，划分前：所有样本都在根节点，把该结点标记为叶结点，其类别标记为训练集中样本数量最多的类别，因此标记为好瓜，然后用验证集对其性能评估，可以看出样本{4，5，8}被正确分类，其他被错误分类，因此精度为43.9%。划分后：划分后的的决策树为：

则验证集在这颗决策树上的精度为：5/7 = 71.4% > 42.9%。因此，用脐部进行划分。
接下来，决策树算法对结点 (2) 进行划分，再次使用信息增益挑选出值最大的那个特征，这里我就不算了，计算方法和上面类似，信息增益值最大的那个特征是“色泽”，则使用“色泽”划分后决策树为：

但到底该不该划分这个结点，还是要用验证集进行计算，可以看到划分后，精度为：5/7=0.571<0.714，因此，预剪枝策略将禁止划分结点 (2) 。对于结点 (3) 最优的属性为“根蒂”，划分后验证集精度仍为71.4%，因此这个划分不能提升验证集精度，所以预剪枝将禁止结点 (3) 划分。对于结点 (4) ，其所含训练样本已属于同一类，所以不再进行划分。
所以基于预剪枝策略生成的最终的决策树为：

（4）预剪枝的优缺点

优点：降低过拟合风险，显著减少训练时间和测试时间开销。

缺点：欠拟合风险

最低0.47元/天解锁文章

weixin_54881329

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
决策树——剪枝处理

下面来看看是否要用脐部进行划分，划分前：所有样本都在根节点，把该结点标记为叶结点，其类别标记为训练集中样本数量最多的类别，因此标记为好瓜，然后用验证集对其性能评估，可以看出样本{4，5，8}被正确分类，其他被错误分类，因此精度为43.9%。接着考察结点 5，同样的操作，把以其为根节点的子树替换为叶结点，替换后的叶结点包含编号为{6,7,15}的训练样本，根据“多数原则”把该叶结点标记为“好瓜”，测试的决策树精度认仍为57.1%，所以不进行剪枝。因此，用脐部进行划分。
复制链接

扫一扫

weixin_54881329 CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

163万+: 周排名

91万+: 总排名

1万+: 访问

: 等级

78: 积分

2: 粉丝

7: 获赞

3: 评论

35: 收藏

私信

关注

热门文章

最新评论

机器学习-朴素贝叶斯-垃圾邮件
Lisa_shasha: 博主你好，求数据集1601882140@qq.com，谢谢😊
KNN算法
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。