GBDT采用加法模型(即基函数的线性组合)和前向分步算法(每步只求解一个弱学习器)。
第m步的模型是:
通过经验风险极小化确定下一棵树的参数Θm:
对于GBDT中每棵树拟合的是什么,有两种解释,第一种是残差,第二种是负梯度。其实残差是负梯度在损失函数为平方损失时的特殊情况。
1、残差
前m-1棵树得到的模型是,即对x的预测值为,真实值为y,那么残差就是真实值与预测值的差值,即:
第m棵树要拟合的目标就是残差,即第m棵树的标签y值变为残差r。
2、负梯度
取损失函数为平方损失时:
对f求导:
结果是,第m棵树要拟合这个值,与残差相同。所以残差只是负梯度为平方损失时的特殊情况。
如果取其他的损失函数,则负梯度为(以下图片来源):
另外,转载几句话(来源):
1.负梯度的方向可证,模型优化下去一定会收敛
2.对于一些损失函数来说最大的残差方向,并不是梯度下降最好的方向,倒是损失函数最小与残差最小两者目标不统一
3.引用