随机森林RF原理总结

最新推荐文章于 2025-03-04 14:52:10 发布

小朱小朱绝不服输

最新推荐文章于 2025-03-04 14:52:10 发布

阅读量1w

点赞数 12

分类专栏：机器学习文章标签：机器学习决策树 python

本文链接：https://blog.csdn.net/weixin_44052055/article/details/107972276

版权

本文详细介绍了随机森林RF的原理，包括其作为Bagging方法的特性，弱学习器决策树DT的基础知识，以及RF的构建过程。随机森林通过随机抽样和特征选择生成多棵决策树，利用多数投票或平均值决定最终输出。同时，文章还探讨了RF的特征重要性评估方法和调参策略，强调了n_estimators、max_features、max_depth等关键参数的影响，并总结了RF的优势和不足，如并行训练、高泛化能力及对缺失值的容忍度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在集成学习原理中知道，集成学习分为两部分Bagging和Boosting。随机森林RF作为Bagging方法的典型例子，以其并行训练的优点在如今处理数据问题上广受欢迎。随机森林，顾名思义，是有多棵树组成的森林，故RF的弱学习器都是决策树。RF=Bagging+DT。下面介绍一下RF的相关知识。Bagging方法就不再介绍，可以回顾集成学习原理。

1.决策树（DT）

在介绍随机森林前，简单的介绍一下其构成弱学习器决策树DT。决策树是比较经典的机器学习算法，可以用来处理分类问题和回归问题。同时也是集成学习中弱学习器经常选择的机器学习算法。如RF，GBDT。
决策树是一种树型结构，每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树是一种基于if-then-else规则的有监督机器学习算法。
下图为决策树示意图，圆点——内部节点，方框——叶节点
在这里插入图片描述
决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。
决策树算法有3种：
（1） ID3：通过信息增益来选择特征，信息增益最大的优先选择。
（2）C4.5：通过信息增益比选择特征，减少信息增益容易选择特征值多的特征问题。
（3）CART：使用基尼系数Gini代替信息增益比。