CART树的剪枝

最新推荐文章于 2022-05-11 10:56:33 发布

MayGod1ike

最新推荐文章于 2022-05-11 10:56:33 发布

阅读量678

点赞数 1

文章标签：机器学习决策树过拟合决策树剪枝 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wstcjf/article/details/77651435

版权

CART树剪枝

预剪枝

控制树的深度
设定基尼系数(残差)的阈值，即若当前划分特征的基尼系数(残差)小于阈值时不再对当前的特征进行划分
设定样本量的阈值，样本量小于阈值不再划分

后剪枝

总体思路：

由完全树T0开始，剪枝部分结点，得到T1，再次剪枝部分结点得到T2。。。知道仅剩树根的树Tk;
通过交叉验证，对以上k个树分别评价，选择损失函数最小的数Tα

具体过程：

损失函数

原来的损失函数，子树的整体损失等于，对于每个叶子节点t，叶子结点t的样本个数再乘以叶子结点t的熵，的加和。

在此基础上，加上正则项，损失函数可转化为：

lTleafl为子树的叶子结点的个数，Cα(T)是参数是α时的子树T的整体损失。参数α权衡训练数据的拟合程度与模型的复杂度。设定了α就相当于给树剪枝了，保证了不会随着叶结点的增多，让模型复杂。

在真实计算过程中，当α = 0时，相当于不加正则项，也就是相当于未剪枝，也就是表示未剪枝的决策树损失最小；当α = 正无穷时，充分剪枝，造成单根结点的决策树损失最小。

剪枝系数

假定当前对以r为根的子树剪枝，可以计算剪枝前和剪枝后的损失函数，令两者相等，可以恰巧求出一个α，让剪枝前剪枝后损失相似，此时的α即为剪枝系数。

表示了剪枝后整体损失函数减少的程度。

剪枝过程

对整体树T0，计算内部各个结点的剪枝系数
查找剪枝系数最小的结点进行剪枝，得到一棵新的决策树
然后对新的决策树再次计算各个结点的剪枝系数，再剪枝，重复以上步骤，知道只剩一个结点。
通过以上步骤生成了T0,T1,…Tk决策树
对这些决策树依次进行交叉验证，选取最优子树Tα

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

MayGod1ike CSDN认证博客专家 CSDN认证企业博客

码龄13年

15: 原创

24万+: 周排名

56万+: 总排名

12万+: 访问

: 等级

661: 积分

59: 粉丝

122: 获赞

55: 评论

452: 收藏

私信

关注

热门文章

分类专栏

最新评论

详解stacking过程
duoyasong5907: 我觉得两个情况都有，可能取子模型，可能取完整训练集下的模型。
详解stacking过程
duoyasong5907: 请问在K-fold过程中，一个基模型会训练k个子模型，那最后取哪个子模型来预测呢？我记得交叉验证的做法里，验证完后，会在完整训练集上训练个最终版模型，它用于预测。
详解stacking过程
wangyaohui8888: 我也觉得有点不好理解，分类不能取平均吧，应就是投票
详解stacking过程
清寒先生: 写的太好啦，感谢感谢，终于明白了
详解stacking过程
chenz1hao: 输出的是概率。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。