集成方法
决策树模型简单明了,但是单独使用效果并不理想,通过某种方式将多个决策树组合起来,使用它们的"集体智慧"来解决问题。成为集成方法(ensemble method),可以分为两类:平均方法(averaging method)和提升方法(boosting methods),对应的模型是随机森林和GBDT。
随机森林
- 随机森林由n个决策树组成,模型的预测结果等于各决策树结果的某种"加权平均"。
- 分类问题
最终结果等于在决策树预测结果中出现次数最多的类别。可以理解成"投票法",直观上,将多个决策树想象成多个人,而随机森林想象成一场投票,通过少数服从多数得到最终结果。 - 回归问题
最终结果等于决策树预测结果的平均值。
- 分类问题
- 解释一下为什么叫random forest
- 森林:一棵树的犯错概率比较大,但是多个树犯错的概率很小。可以理解三个臭皮匠,顶个诸葛亮,这样就容易理解多了。注意,预测效果的最重要保证是各个树相互独立。
- 随机:(1)对于每个决策树,从原始训练集随机选取该决策树的数据。
(2)在划分节点时,并不需要遍历全部变量,而是随机选取其中的一部分作为随机变量。
(3)在选择自变量的划分阈值时,并不求得最优的解,而是随机构成候选阈值集合,并从中选取效果最优。(子节点的不纯度之和最低)。ps 不