随机森林是一种集成学习方法(ensemble learning),用于对数据进行分类
随机森林的分类结果由众多分类器的分类结果表决而得到
随机森林的每个子分类器是决策树(decision tree)
算法的步骤
随机森林一般按以下几个步骤来构造:
第一步,假设我们的高光谱数据包含N个样本,则我们随机地有放回地抽取N次样本,组成一个新的含有N个样本的数据集。
第二步,假设数据包含M个特征,当我们在进行决策树的一个节点的分裂的时候,随机从M个特征中选取m个特征(其中 m≤M ),然后根据某种规则(比如说信息增益)来选出最有利于分类的那个特征来进行节点的分裂。
第三步,决策树的每个节点都要按照第二步进行节点的分裂,直到无法再继续分裂为止。(当选出的那个特征已经存在于它的父节点中时,就无法继续分裂了)
第四步,重复上面的三步,构造出大量的决策树,形成随机森林,分类结果由这些决策树共同决定。
随机森林的特点
随机森林的特点主要在于:
样本的随机选择、特征的属性选择,引入这些随机性之后,可以有效提高泛化能力,减小过拟合现象