随机森林
随机森林( Random forest ),是一种用于分类、回归等任务的集成学习方法。对于分类任务,它在训练时构建多棵决策树,输出这些树的分类结果的众数( mode ),即,将大多数树的分类结果作为最终的结果。这样,随机森林修正了单棵决策树过度拟合训练集的倾向。
随机森林算法
- 准备工作:决策树学习
对于详细的决策树学习理论,请参考 应用机器学习 | 第七讲。
在构建的决策树里,长的比较”深”的树,倾向过拟合训练集,即,它有较低的偏差,但较高的方差。随机森林平衡了多棵决策树,目的是减小预测方差,但付出的代价是,增加了偏差且损失了部分模型可解释性。尽管如此,随机森林仍然很大程度上改善了最终模型的预测表现。
- Tree bagging
给定一个训练集 X=(x1,x2,…,xn) , 响应变量(类标签) Y=(y1,y2,…,yn) .
所谓装袋( bagging ),指的是从训练集中有放回地抽取一个随机样本,在这个样本上拟合树。假设重复装袋 B 次,整个训练过程为:
对