集成算法之随机森林

最新推荐文章于 2022-10-12 09:53:28 发布

静默安然

最新推荐文章于 2022-10-12 09:53:28 发布

阅读量567

点赞数

分类专栏：数据分析 python 机器学习文章标签：随机森林决策树多样性 bootstrap抽样众数表决

本文链接：https://blog.csdn.net/zhao2chen3/article/details/115216590

版权

python 同时被 3 个专栏收录

37 篇文章 4 订阅

订阅专栏

数据分析

31 篇文章 0 订阅

订阅专栏

机器学习

31 篇文章 10 订阅

订阅专栏

集成算法之随机森林（森林就是构建多个树，随机就是取数是随机且有范围的）

集成算法包含(bagging/boosting/stacking）在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由所有决策树输出的类别的众数而定。利用相同的训练数搭建多个独立的分类模型，然后通过投票的方式，以少数服从多数的原则作出最终的分类决策。例如,如果你训练了5个树,其中有4个树的结果是 True ,1个数的结果是 False ,那么最终结果会是 True .
在前面的决策当中我们提到，一个标准的决策树会根据每维特征对预测结果的影响程度进行排序，进而决定不同的特征从上至下构建分裂节点的顺序，如此以来，所有在随机森林中的决策树都会受这一策略影响而构建的完全一致，从而丧失的多样性。所以在随机森林分类器的构建过程中，每一棵决策树都会放弃这一固定的排序算法，转而随机选取特征。（为保证每颗决策树是相互独立的）

学习算法:

1.用来表示训练用例（样本）的个数，M表示特征数目。
2.（随机选取）输入特征数目m ，用于确定决策树上一个节点的决策结果;其中m应远小于。
3.从n个训练用例（样本）中以有放回抽样的方式，取样次，形成一个训练集（即 bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。
4.对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m 个特征，计算其最佳的分裂方式。

理解:

为什么要随机抽样训练集?

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的。

为什么要有放回地抽样?

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是"有偏的"（无法保证每棵树数据的公正性），都是绝对"片面的”(当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树（弱分类器）的投票表决。

静默安然

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成算法之随机森林

集成算法之随机森林（森林就是构建多个树，随机就是取数是随机且有范围的）集成算法包含(bagging/boosting/stacking）在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由所有决策树输出的类别的众数而定。利用相同的训练数搭建多个独立的分类模型，然后通过投票的方式，以少数服从多数的原则作出最终的分类决策。例如,如果你训练了5个树,其中有4个树的结果是 True ,1个数的结果是 False ,那么最终结果会是 True .在前面的决策当中我们提到，一个标准的决策树会根
复制链接

扫一扫