决策树算法——XGBoost 和 LightGBM

最新推荐文章于 2024-03-20 10:04:56 发布

AmorFatiall

最新推荐文章于 2024-03-20 10:04:56 发布

阅读量757

点赞数

分类专栏：个人学习机器学习

本文链接：https://blog.csdn.net/weixin_43561290/article/details/102962671

版权

个人学习同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

机器学习

11 篇文章 0 订阅

订阅专栏

在这里插入图片描述

XGBoost

XGBoost 是大规模并行 boosting tree 的工具，它是目前最快最好的开源 boosting tree 工具包，比常见的工具包快 10 倍以上。Xgboost 和 GBDT 两者都是 boosting 方法，除了工程实现、解决问题上的一些差异外，最大的不同就是目标函数的定义。故本文将从数学原理和工程实现上进行介绍，并在最后介绍下 Xgboost 的优点。

数学原理

目标函数

我们知道 XGBoost 是由 k 个基模型组成的一个加法运算式：
在这里插入图片描述

其中 n 为样本数量。
我们知道模型的预测精度由模型的偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要简单的模型，所以目标函数由模型的损失函数 L 与抑制模型复杂度的正则项Ω 组成，所以我们有：
在这里插入图片描述
Ω为模型的正则项，由于 XGBoost 支持决策树也支持线性模型，所以这里不再展开描述。

·

基于决策树的目标函数

我们知道 Xgboost 的基模型不仅支持决策树，还支持线性模型，这里我们主要介绍基于决策树的目标函数。

LightGBM

LightGBM 由微软提出，主要用于解决 GDBT 在海量数据中遇到的问题，以便其可以更好更快地用于工业实践中。
从 LightGBM 名字我们可以看出其是轻量级（Light）的梯度提升机（GBM），其相对 XGBoost 具有训练速度快、内存占用低的特点。
那么 LightGBM 到底如何做到更快的训练速度和更低的内存使用的呢？
我们刚刚分析了 XGBoost 的缺点，LightGBM 为了解决这些问题提出了以下几点解决方案：

单边梯度抽样算法；
直方图算法；
互斥特征捆绑算法；
基于最大深度的 Leaf-wise 的垂直生长算法；
类别特征最优分割；
特征并行和数据并行；
缓存优化。
本节将继续从数学原理和工程实现两个角度介绍 LightGBM。

数学原理

单边梯度抽样算法

GBDT 算法的梯度大小可以反应样本的权重，梯度越小说明模型拟合的越好，单边梯度抽样算法（Gradient-based One-Side Sampling, GOSS）利用这一信息对样本进行抽样，减少了大量梯度小的样本，在接下来的计算锅中只需关注梯度高的样本，极大的减少了计算量。
GOSS 算法保留了梯度大的样本，并对梯度小的样本进行随机抽样，为了不改变样本的数据分布，在计算增益时为梯度小的样本引入一个常数进行平衡。具体算法如下所示：
在这里插入图片描述
我们可以看到 GOSS 事先基于梯度的绝对值对样本进行排序（无需保存排序后结果），然后拿到前 a% 的梯度大的样本，和剩下样本的 b%，在计算增益时，通过乘上 \frac{1-a}{b} 来放大梯度小的样本的权重。一方面算法将更多的注意力放在训练不足的样本上，另一方面通过乘上权重来防止采样对原始数据分布造成太大的影响。