随机森林（random forest）

最新推荐文章于 2024-06-15 14:36:00 发布

markrenton94

最新推荐文章于 2024-06-15 14:36:00 发布

阅读量474

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/zyd196504/article/details/88260233

版权

算法专栏收录该内容

9 篇文章 1 订阅

订阅专栏

集成学习方法——Bagging（bootstrap aggregation）
它是一种有放回的抽样方法，主要目的在于提高单个弱分类器的分类能力，同时解决单一分类器容易产生过拟合的问题。策略如下：
1）从样本集合中有重复的选出n个样本（有放回的抽样）；
2）在所有特征（属性）上，对这n个样本建立分类器；
3）重复1）、2）m次，可获得m个分类器；
4）通过这m个分类器对测试数据进行分类，然后根据这m个分类器的结果进行投票，选择投票最多的类作为最后的预测值。
Bagging相关
1、需要注意的是Bagging采用bootstrap采样方式，约有27%的数据不会被选择用于训练，只有约63%的原始用于训练。
2、另外一个需要注意的是，对于回归问题Bagging策略由最后一步的投票，改成求所有预测值的均值。
3、m个分类器没有必要是一样的，可以由多个分类器共同构成。在随机森林中，我们也可以使用SVM、Logistic回归作为基础分类器。习惯上，这些分类器组成的”总分类器“依然叫随机森林。
4、不同的投票方式（一票否决、少数服从多数、阈值表决、贝叶斯投票机制等）都会导致不同结果。
5、可以通过设置权重来表示不同分类器的重要性。
随机森林
随机森林在Bagging的基础上做了一定修改。流程如下：
1）使用Boostrap方式在训练集中选取n个样本；
2）从所有特征（属性）中随机选择k个特征（属性），选择最佳分类特征（属性）作为建立决策树；
3）重复1）、2）步骤m次，即建立了m棵决策树；
4、这m个决策树形成随机森林，通过投票表决结果，决定数据属于哪一类。
可以看出来，随机森林中的”随机“是指：
1）Bootstrap中的随机选择子样本。
2）从特征集中随机选择k个特征，每个结点分类时，从这随机的k个特征选择最优的。

1、https://www.zybuluo.com/frank-shaw/note/103575

markrenton94

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
随机森林（random forest）

集成学习方法——Bagging（bootstrap aggregation）它是一种有放回的抽样方法，主要目的在于提高单个弱分类器的分类能力，同时解决单一分类器容易产生过拟合的问题。策略如下：1）从样本集合中有重复的选出n个样本（有放回的抽样）；2）在所有特征（属性）上，对这n个样本建立分类器；3）重复1）、2）m次，可获得m个分类器；4）通过这m个分类器对测试数据进行分类，然后根据这m...
复制链接

扫一扫

专栏目录