随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。
根据下列算法而建造每棵树:
-
用 N来表示训练用例(样本)的个数, M表示特征数目。
-
输入特征数目 m,用于确定 决策树上一个节点的决策结果;其中 m应远小于 M。
-
从 N个训练用例(样本)中以有放回抽样的方式,取样 N次,形成一个 训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
-
对于每一个节点,随机选择 m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
-
每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。
随机森林的优点有:
1)对于很多种资料,它可以产生高准确度的分类器;
2)它可以处理大量的输入变数;
3