随机森林

最新推荐文章于 2024-09-11 07:26:39 发布

视觉一只白

最新推荐文章于 2024-09-11 07:26:39 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/zhangjunp3/article/details/80895821

版权

随机森林是一种集成学习算法，由多棵决策树组成。每棵树通过随机抽样的训练样本和特征子集生成，用于分类或回归问题。通过投票机制决定最终结果，具有抗过拟合和噪声的能力。在构建过程中，可以通过袋外错误率(oob error)评估其性能，而选择最优的特征子集数量m是关键参数。

摘要由CSDN通过智能技术生成

一、随机森林的定义

作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。如果接触过决策树（Decision Tree）的话，那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义我们会在下边部分讲到。其实从直观角度来解释，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。

二、随机森岭的基础要点

随机森林看起来是很好理解，但是要完全搞明白它的工作原理，需要很多机器学习方面相关的基础知识。在本文中，我们简单谈一下，而不逐一进行赘述，如果有同学不太了解相关的知识，可以参阅其他博友的一些相关博文或者文献。

1）信息、熵以及信息增益的概念

这三个基本概念是决策树的根本，是决策树利用特征来分类时，确定特征选取顺序的依据。理解了它们，决策树你也就了解了大概。

　　引用香农的话来说，信息是用来消除随机不确定性的东西。当然这句话虽然经典，但是还是很难去搞明白这种东西到底是个什么样，可能在不同的地方来说，指的东西又不一样。对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类（x_i）的信息可以定义如下: