Random Forests
参考:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
本文主要简单的介绍随机森林的算法
假设用户知道了单个决策树的结构,随机森林包含了多了这样的决策树。当需要预测一个新的样本的时候,采用"少数服从多数"的策略确定样本的类别。
Steps:
(1) n次随机的可重复采集N个样本,作为构造n棵树的训练样本。
(2) 设定输入变量得个数m<<M, m的值一般为常量。
(3) 对每次抽样的训练集合构造一个决策树,无需剪枝。
(4) 最后用生成的每一棵决策树对样本进行分类,投票选出得票最高的类别作为样本的分类结果。
性能:
随机森林中任意两棵树的相关程度越高,预测结果越差。
森林中每棵独立的树的分类能力越强,随机森林的分类结果越好。