【机器学习系列】基于决策树的集成模型——随机森林方法介绍

最新推荐文章于 2025-03-21 10:32:26 发布

妙趣横生统计学

最新推荐文章于 2025-03-21 10:32:26 发布

阅读量2.1k

点赞数 30

文章标签：机器学习决策树随机森林人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44693403/article/details/144860623

版权

【本文章由高校教师徐博士撰写】

看过我们前面几篇机器学习系列文章后，相信大家现在对机器学习的理论都有了一定的了解。

今天我们继续介绍机器学习最经典也是使用最为广泛的模型——随机森林（Random Forest），该模型自2001年由Leo Breiman提出以来，就成为机器学习领域重要的分析工具。

在今天这篇文章中，我们将简单探讨随机森林的基本原理以及如何用R语言进行实践，大家也可以用文中的代码进行尝试。

什么是随机森林？

开门见山，随机森林这个名称真的非常符合这一模型的特点，我们结合下面的示意图来看随机森林模型的具体运算步骤：

随机森林模型运算过程示意图

从上述示意图中，我们也能得出随机森林模型基本的分析思路：

1.从原始训练数据集中通过自助采样法（bootstrap sampling）有放回地随机抽取一定数量的数据，数量一般和原观测数相等，形成多个不同的子数据集；

2. 对每个子数据集训练一棵决策树，但决策树的每个决策节点不使用所有特征，而是随机选取部分特征，再从这些特征中根据数据“纯度”指标选择特征进行数据划分；

3.按照上述方式得到多棵不尽相同的决策树形成森林，对于测试数据集，综合所有决策树的预测结果得到最终预测结果。

例如对于分类任务，可以取所有决策树预测类别中数量最多的那一类作为个体的最终分类结果；
对于回归任务，可以取所有决策树预测结果的平均值作为个体的预测值。

可以发现随机森林能分成「随机」+「森林」两部分来理解，这个名称和模型特点相当贴切了。

上面3个步骤都不复杂，只要看懂了上一篇决策树的推文——《15分钟带你吃透决策树模型的三大经典算法》，相信很快就能够理解随机森林模型是怎么一回事了。

√除此之外，模型的开发动机、核心参数等问题也是有必要了解的，我们也借此机会解答大家最关心的三个问题：

提问 1

既然已经有了决策树算法，为什么还要开发随机森林算法呢？

回答

核心原因是决策树算法存在容易过拟合、模型结构不稳定的缺点，随机森林能够通过袋装法（Bagging）集成多棵决策树提高模型的泛化能力和稳健性。

通俗的说，就算决策树是诸葛亮，随机森林也至少是多个臭皮匠，多人决策的结果未必是最好的，但是是最

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。