GBDT为什么拟合上一次的负梯度

最新推荐文章于 2023-09-05 20:34:27 发布

Mingsheng Zhang

最新推荐文章于 2023-09-05 20:34:27 发布

阅读量4.7k

点赞数 11

简单来讲就一句话，为了可以扩展到更复杂的损失函数中。

这时候你可能就有疑问了，难道不是所有的损失函数都在 $\hat y=y$ 时最小吗？

那可能你忘了正则项这一回事，如果只是经验风险最小化的话非常容易过拟合，所以一个合理的办法就是在每个基模型中加入正则项，所以在有正则项的情况下就不再是 $\hat y=y$ 时损失函数最小了，所以我们需要计算损失函数的梯度，而不能直接使用分模型来拟合残差。

下面是我对上面的理解：有正则化项的时候我们需要拟合负梯度，我们可以把损失函数看做是 $\LARGE F_m$ 的函数，当 $\LARGE F_1$ 的时候损失函数较大，那么下一步 $\LARGE F_2$ 就是拟合损失函数对 $\LARGE F_1$ 负梯度，那么 $\LARGE F_2+F_1$ 相当于 $\LARGE F_m$ 又向负梯度方向走了一步，相当于每次只沿着负梯度方向走一个步长，得到新的提升树，新的提升树在之前提升树的基础上向负梯度方向走了一步，更加减小了损失函数，所以每个新的提升树，拟合的都是损失函数对之前提升树的负梯度方向。

我们要拟合损失函数的负梯度，可以看做拟合一个方向为负梯度方向，步长为单位长度的值，所以拟合的过程相当于我们沿着负梯度方向走了一个步长，具体走多少步（多少步可以理解为训练多少个决策树来拟合该分类器，使得损失函数最低）达到终止的条件，即走到最优点的附近。

作者：知乎用户
链接：https://www.zhihu.com/question/63560633/answer/379959040
来源：知乎

说一下我的理解，GBDT的求解过程就是梯度下降在函数空间中的优化过程。

1.我们能通过一阶泰勒展开证明负梯度方向是下降最快的方向。对于函数f： $f(\theta_{k+1}) \approx f(\theta_{k})+\frac{\partial f(\theta_{k})}{\partial \theta_k}(\theta_{k+1}-\theta_{k})$ ，

则优化函数f时： $\theta_{k+1} = \theta_{k+1}-\eta \frac{\partial f(\theta_{k})}{\partial \theta_k}$ 。

2.在GB中，对损失函数展开： $L(y,F_m(x)) \approx L(y,F_{m-1}(x)) + \frac{\partial L(y, F_{m-1}(x))}{\partial F_{m-1}(x)} (F_m(x)-F_{m-1}(x))$ ，

即， $L(y,F_m(x)) \approx L(y,F_{m-1}(x)) + \frac{\partial L(y, F_{m-1}(x))}{\partial F_{m-1}(x)} T_m(x)$ 。

则在优化 $L(y,F(x))$ 的时候： $F_m(x) = F_{m-1}(x)-\eta \frac{\partial L(y, F_{m-1}(x))}{\partial F_{m-1}(x)}$ ，

即， $T_m(x)=-\eta \frac{\partial L(y, F_{m-1}(x))}{\partial F_{m-1}(x)}$ 。所以需要当前的弱学习器来学习负梯度，这里和GBDT中差了一个 $\eta$ 。

3.在1和2中都是随机梯度下降，但是不同的是：1在参数空间中优化，每次迭代得到参数的增量，这个增量就是负梯度乘上学习率；2在函数空间中优化，每次得到增量函数，这个函数会去拟合负梯度，在GBDT中就是一个个决策树。要得到最终结果，只需要把初始值或者初始的函数加上每次的增量。所以1的优化过程是(假设迭代了M次)：

$\theta_1 = \theta_0 - \eta \frac{\partial f(\theta_{0})}{\partial \theta_0} \\ \theta_2 = \theta_1 - \eta \frac{\partial f(\theta_{1})}{\partial \theta_1} \\...\\ \theta_M = \theta_{M-1} - \eta \frac{\partial f(\theta_{M-1})}{\partial \theta_M-1}$

等号两边相加，得到最终的优化结果：

$\theta_M = \theta_0 + \eta \sum_{m=0}^{M-1} -\frac{\partial f(\theta_{m})}{\partial \theta_m}$ 。

同样的，2中优化的过程是：

$F_1(x) = F_0(x) - \eta \frac{\partial L(y, F_{0}(x))}{\partial F_{0}(x)}，即 T_1(x) = -\eta \frac{\partial L(y, F_{m-1}(x))}{\partial F_{m-1}(x)} \\ ...\\ F_M(x) = F_{M-1}(x) - \eta \frac{\partial L(y, F_{M-1}(x))}{\partial F_{M-1}(x)}，即 T_M(x) = -\eta \frac{\partial L(y, F_{M-1}(x))}{\partial F_{M-1}(x)}$

等号两边相加，得到：

$F(x)=F_M(x)=F_0(x)+\eta \sum_{m=0}^{M-1} -\frac{\partial L(y, F_{m}(x))}{\partial F_{m}(x)}=\sum_{m=0}^{M}T_m(x)。$

4. 无论损失函数是什么形式，每个决策树拟合的都是负梯度。准确的说，不是用负梯度代替残差，而是当损失函数是均方损失时，负梯度刚好是残差，残差只是特例。

作者：奥奥奥奥噢利
链接：https://www.zhihu.com/question/63560633/answer/581670747
来源：知乎

Mingsheng Zhang

关注

11
点赞
踩
16

收藏

觉得还不错? 一键收藏
4
评论
GBDT为什么拟合上一次的负梯度

简单来讲就一句话，为了可以扩展到更复杂的损失函数中。这时候你可能就有疑问了，难道不是所有的损失函数都在时最小吗？那可能你忘了正则项这一回事，如果只是经验风险最小化的话非常容易过拟合，所以一个合理的办法就是在每个基模型中加入正则项，所以在有正则项的情况下就不再是时损失函数最小了，所以我们需要计算损失函数的梯度，而不能直接使用分模型来拟合残差。下面是我对上面的理解：有正则化项的时候...
复制链接

扫一扫