随机森林 – Random forest

地理探险家

已于 2022-11-14 18:52:18 修改

阅读量659

点赞数

分类专栏：深度学习技术与方法文章标签：决策树随机森林 Random forest

于 2022-11-10 13:12:08 首次发布

本文链接：https://blog.csdn.net/weixin_44906759/article/details/127786824

版权

深度学习技术与方法专栏收录该内容

27 篇文章 5 订阅

订阅专栏

随机森林是一种集成学习方法，基于决策树构建。它通过 Bagging 策略组合多个决策树，以提高预测准确性和防止过拟合。构建随机森林包括样本重采样、特征选择和决策树构建等步骤。其优点包括处理高维数据、评估特征重要性、鲁棒性好等，但可能在某些问题上过拟合。随机森林可用于分类、回归、聚类和异常检测等任务。

摘要由CSDN通过智能技术生成

随机森林 – Random forest

随机森林是一种由决策树构成的集成算法，他在很多情况下都能有不错的表现。

本文将介绍随机森林的基本概念、4 个构造步骤、4 种方式的对比评测、10 个优缺点和 4 个应用方向。

什么是随机森林？

随机森林属于集成学习中的 Bagging（Bootstrap AGgregation 的简称）方法。如果用图来表示他们之间的关系如下：

决策树 – Decision Tree

在解释随机森林前，需要先提一下决策树。决策树是一种很简单的算法，他的解释性强，也符合人类的直观思维。这是一种基于if-then-else规则的有监督学习算法，上面的图片可以直观的表达决策树的逻辑。

随机森林 – Random Forest | RF

随机森林是由很多决策树构成的，不同决策树之间没有关联。

当我们进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。

构造随机森林的 4 个步骤

一个样本容量为N的样本，有放回的抽取N次，每次抽取1个，最终形成了N个样本。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。
决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
按照步骤1~3建立大量的决策树，这样就构成了随机森林了。