关于提升
之前,关于随机森林的做法是:通过有放回的重采样生成出若干颗决策树,从中取一个平均得到森林,这个randomforest实际是对这m颗树取平均得到的,它没有哪棵树更重要哪颗树不重要这种说法。
那么能不能换一种思路,给出这些树的权值,比如,并不是简单的取平均而是加权,我们把这样一种方式叫做提升。用图来说明:
提升的概念
提升是一个机器学习技术,可以用于回归和分类,它每一步产生一个弱预测模型(如决策树),并加权累加到模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升( Gradient boosting)。
梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。
提升的理论意义:如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器。(所谓的弱分类器可能就是准确率50%多一丢丢。如果存在弱分类器,那么一定存在对应的强分类器。