XGBOOST与GBDT区别

最新推荐文章于 2024-05-23 17:48:45 发布

kunkun_1230

最新推荐文章于 2024-05-23 17:48:45 发布

阅读量1k

点赞数 1

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/weixin_44731100/article/details/106083158

版权

本文介绍了XGBoost与GBDT这两种梯度提升树算法的区别，重点讲解了它们的优化方法，包括梯度下降法和牛顿法，并详细阐述了GBDT和XGBoost的目标函数、正则项以及误差函数的二阶泰勒展开。XGBoost通过引入二阶导数和正则项来减少过拟合，优化模型性能。

摘要由CSDN通过智能技术生成

Boosing算法是一种加法模型，它包含一种残差逼近的思想。
$F(x)=\sum_{t=0}^{T}f_t(x)$

GBDT是一种较为经典的梯度提升树算法，包括Xgboost(Xgboost是GBDT的一个变种)。

GBDT 在函数空间中利用梯度下降法进行优化。
Xgboost在函数空间中利用牛顿法进行优化。且相比GBDT，Xgboost加入了正则项，使模型更加不容易过拟合。

简单的说，GBDT与Xgboost都是在泰勒展开式的基础上进行的。不同的是，GBDT的损失函数是一阶导数，而Xgboost是引入了海森矩阵的二阶导数，且加入了正则项。

这里首先介绍下两种优化方法。

优化方法

梯度下降法(Gradient descend method)

在机器学习任务中，需要最小化损失函数 $L(\theta)$ ,其中 $\theta$ 是要求解的模型参数。

梯度下降法常用来求解这种无约束最优化问题，它是一种迭代方法：选取初值 $\theta^{0}$ ,不断迭代,更新 $\theta$ 的值,进行损失函数的极小化。

梯度下降法利用的一阶泰勒展开。

迭代公式： $\theta^{t} = \theta^{t-1} + \Delta\theta$
将 $L(\theta^{t})$ 在 $\theta^{t-1}$ 处进行一阶泰勒展开
$L(\theta^{t}) = L(\theta^{t-1} + \Delta\theta) \approx L(\theta^{t-1}) + L^{'}(\theta^{t-1})\Delta\theta$
要使得 $L(\theta^{t}) < L(\theta^{t-1})$ ,可取： $\Delta\theta = -\alpha L^{'}(\theta^{t-1})$ ,则 $\theta^{t} = \theta^{t-1} - \alpha L^{'}(\theta^{t-1})$
这里 $\alpha$ 是步长，可以通过line search确定，但一般直接赋予一个小的数。

牛顿法(Newton’s method)

将 $L(\theta^{t})$ 在 $\theta^{t-1}$ 处进行二阶泰勒展开
$L(\theta^{t}) \approx L(\theta^{t-1}) + L^{'}(\theta^{t-1})\Delta\theta + L^{''}(\theta^{t-1})\Delta\theta^{2}/2$

为了简化分析过程，假设参数是标量（即 $\theta$ 只有一维）,则可将一阶和二阶导数分别记为 $g$ 和 $h$ :
$L(\theta^{t}) \approx L(\theta^{t-1}) + g\Delta\theta + h\frac{\Delta\theta^{2}}{2}$
要使得 $L(\theta^{t})$ 极小，即让 $g\Delta\theta + h\frac{\Delta\theta^{2}}{2}$ 极小，

可令 $\frac{\partial (g\Delta\theta + h\frac{\Delta\theta^{2}}{2})}{\partial \Delta\theta} = 0$

最低0.47元/天解锁文章

kunkun_1230

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
XGBOOST与GBDT区别

GBDT是一种较为经典的梯度提升树算法，包括XGBOOST(XGBOOST是GBDT的一个变种)。Boosing算法是一种加法模型，它包含一种残差逼近的思想。GBDT是一种较为经典的梯度提升树算法，包括XGBOOST(XGBOOST是GBDT的一个变种)。GBDT 在函数空间中利用梯度下降法进行优化。XGBOOST在函数空间中利用牛顿法进行优化。且相比GBDT，XGBOOST加入了正则项，使模型更加不容易过拟合。优化方法梯度下降法(Gradient descend method)梯度下降法利
复制链接

扫一扫

专栏目录