随机森林特点

最新推荐文章于 2025-03-13 21:31:01 发布

wutao02

最新推荐文章于 2025-03-13 21:31:01 发布

阅读量4.2k

点赞数 2

分类专栏：算法学习机器学习文章标签：算法随机森林 GBDT 机器学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wutao1530663/article/details/71302358

版权

这篇博客深入探讨随机森林算法的特点，包括包外估计的误差评估、特征重要性的计算方法（基尼系数和包外估计）、样本相似图的概念以及随机森林的过拟合现象。文章指出，随机森林可以通过包外误差来监测模型性能，并能有效计算特征重要性，且不容易过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

我的另一篇博客对随机森林算法有了一个简单的介绍，传送门。本文则从分析和应用的角度，尝试对随机森林算法的一些细节进行探讨，主要还是以学习为主。

随机森林的特点

包外估计
特征重要性
样本相似图(proximity plot)
4. 随机森林的过拟合

包外估计

由于随机森林采用了bootstrap sampling对样本采样，每次采样约有36.8%样本未被采样。因此，利用这部分样本作为验证集得到的包外误差(Out-Of-Bag Error)与N折交叉验证得到的误差基本一致；因此，随机森林可以将交叉验证融入模型的训练中，一旦包外误差趋于稳定，就可以终止训练了。下图显示了在一垃圾邮件分类应用中，包外误差和测试误差的差别。图片来自《The Elements of Statistical Learning》

特征重要性

随机森林可以在构建模型时计算特征的重要性，主要有两种方法:
1. 由基尼系数计算
2. 由包外估计计算

由基尼系数计算

和CART一样，随机森林根据特征分裂节点时，可以计算其分裂前后基尼系数的变化。统计每个变量在所有树中分裂时基尼系数的变化和，也就能刻画每个变量的重要程度了；

由包外估计计算

假设包外样本矩阵为:

⎡ ⎣ ⎢ ⎢ ⎢ x 11 ⋮ x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。