【XGBoost、LightGBM、CatBoost】

最新推荐文章于 2024-08-09 03:28:07 发布

zyuPp

最新推荐文章于 2024-08-09 03:28:07 发布

阅读量773

点赞数

分类专栏：面试复习机器学习

本文链接：https://blog.csdn.net/zyuPp/article/details/105411038

版权

面试复习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

机器学习

9 篇文章 2 订阅

订阅专栏

XGBoost

为什么会有XGBoost？
Boosting方法需要不断迭代来生成模型，每次迭代都有新树出现，如果数据集比较复杂，那么计算量会很大，XGBoost就是为了解决这个问题而出现的。陈天奇用C++实现，多线程方式实现回归树并行构建，再改进一下算法，提升训练速度和预测精度。

XGBoost和GBDT的区别

基分类器：GBDT用CART作为基分类器，而XGB支持线性分类器，还自带正则化项
二阶泰勒展开：GBDT优化时只用了一阶导数信息，而XGB对Loss function进行二阶泰勒展开，且xgb支持自定义损失函数，只要可以求二阶导就行
方差权衡：XGBoost在目标函数中加入正则项，用来控制模型复杂度，正则项包括树的叶子节点个数T、每个叶子节点上输出分数的L2模的平方和.
（在计算划分增益时，如果gain < gamma, 不划分，gain> gamma，划分，这相当于决策树的预剪枝。 gamma是叶节点个数的参数）
列抽样：借鉴随机森林，可以减低过拟合，减少计算，也支持在划分节点时，只考虑部分属性
缺失值处理：xgb可以自动学习出缺失值的分裂方向（尝试所有分裂方向，选gain最大的）
并行运算：这个并行化是特征粒度上的并行化；决策树最耗时的一步是确定最佳分割点时对特征值的排序，将排序后的特征值放在block中，以后划分特征的时候，只需要遍历一次即可。进行分裂时，需要计算每个特征的增益，这些增益计算也可以开多线程进行
可并行的近似直方图算法：贪心算法在选择最佳划分方式时需要遍历所有的划分点子集，在数据非常大时，这会非常低效，xgboost提出了近似直方图计算，根据数据的二阶导信息进行排序，提出一些候选划分点子集。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
shrinkage缩减： $ϵ$ 相当于学习速率，xgb完成一次迭代后，会将叶子节点的权重乘上该稀疏， $y^{(t)}=y^{(t-1)}+ϵf_t(x_i)$ ，主要是为了削弱每棵树的影响，让后面有更大学习空间

XGBOOST步骤

一、从监督学习角度出发
提升树本身是监督学习算法，重要组成部件包括：模型、参数、目标函数和优化算法，其中目标函数包括误差函数和正则化项

二、回归树和树的集成模型
xgb是由GBDT而来，GBDT由Boosting Tree而来，Boosting Tree的基本组成部分是回归树。

回归树的特点是：根据输入属性来分配到各个叶子节点，每个叶子节点都有一个实数分数
树的集成（ensemble）：把多个回归树的预测结果加起来，得到更好的预测结果。我们认为树集成模型中，参数对应了树的结构和每个叶子结点上的预测分数

三、目标函数推导过程
我们要学习树集成模型的参数，所以定义一个合理的目标函数，尝试优化它

树集成模型可以写成：

f是函数空间F里的函数，F对应所有回归树的集合
目标函数遵循监督学习的规则，写成：

前面是训练损失，例如平方损失，后面是每棵树的复杂度之和。
参数可以认为是在一个函数空间里面，无法使用传统的SGD方法学习模型，所以采用additive training，即每次迭代生成一颗新的回归树，从而使得预测值不断逼近真实值，每次都保留原来的模型，再加入新的函数进去。
根据上图式子，改写目标函数，问题转变成如何选取每一轮中加入的f(x)，答案是选取的f(x)必须使目标函数尽量最大地降低

如果是使用平方误差作为损失函数，那么目标函数就是：
如果不是，也可以通过二阶泰勒展开，近似来定义一个近似的目标函数，泰勒展开的一般表达式：

首先要近似我们原来的目标，一阶导数定义为g，二阶导数定义为h：

最后得到：
训练误差部分讨论完，开始关注树的复杂度. 首先把树拆分成结构部分q和叶子权重部分w，q对应叶子的索引号，w对应每个带有索引号的叶子的分数，T为叶子个数

由此得到，树的复杂度包括：
（1）一棵树的节点个数
（2）每个叶子节点上面输出分数的L2范数平方
最关键的步骤：目标函数最小化

$I$ 被定义为每个叶子上面样本集合 $I_j = \{i | q(x_i) = j\}$ ，q(xi)要表达的是：每个样本值xi 都能通过函数q(xi)映射到树上的某个叶子节点，这个定义把下面两个累加统一在一起
目标函数经过上面的变化，可以改写成：
在这里插入图片描述
此时目标函数里出现了两种累加：（此点来自七月在线，我还没理解~）

一种是 - > n（样本数）
一种是 -> T（叶子节点数）

这一个目标包含了T个相互独立的单变量二次函数，意味着单个叶子的权重计算与其他叶子的权重无关，我们可以方便计算第j个叶子的权重和目标函数。

定义简单的表示，并改写目标函数，假设我们知道了树结构q，就可以求解出最好的w，以及最好的w对应的目标函数最大增益
在这里插入图片描述

通过对 $w_j$ 求导等于0，可以得到

额外解释：目标函数与回归树的结构q函数的关系怎么看？

目标函数中的 $G_j和H_j$ 的取值由第 $j$ 个树叶上数据样本决定的，第 $j$ 个树上具有的数据样本是由树结构q函数决定的。只要目标函数计算出来，那么回归树生成问题转化成找到一个最优的树结构q，使得它有最小的目标函数。目标函数最多减少多少，就是树的结构分数，类似于树的打分函数

找到最优树结构的方法—枚举树的结果—贪心法

利用打分函数，通过不断枚举不同树的结构，可以找到最优的树，但是这个操作不太行，情况太多了，计算复杂，所以要做点优化，xgboost用了贪心法；

$\color{blue}贪心法：先按照某个特征里的值进行排序，然后线性扫描该特征进而确定最好的分割点，最后对所有特征进行分割后，我们选择所谓的增益Gain最高的那个特征，增益可由如下公式计算得到：$

在这里插入图片描述
这个Gain的计算可以从信息增益或基尼系数中启发出来，就是用分裂后的值减去分列前的值，从而得到增益。有时候分裂不一定好，所以加了个阈值，增益要大于阈值才能分裂。 $\gamma$ 是正则项里叶子节点数T的系数，所以xgboost在优化目标函数的同时相当于做了预剪枝。 $\lambda$ 是L2模平方的稀疏，对叶子节点分数做了平滑，起到防止过拟合的作用.

LightGBM

原理与xgb类似，采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树. LightGBM相对于xgb，有相近的准确率，且是xgb训练速度的20倍，所以就是优化了速度。

上文已经介绍了xgb的优点，接下来说下缺点。

XGBoost的缺点

需要pre-sorted，会消耗很多内存空间（2datafeatures）
数据分割点上，对不同特征使用pre-sorted，而不同特征中的值得顺序又不相同，分裂时要对每个特征单独做依次分割，遍历次数为data*features
处理粒度太细，计算多
由于pre-sorted处理数据，在寻找特征分裂点时（level-wise），会产生大量的cache随机访问

LightGBM优点

那么lightgbm肯定就是针对xgboost的缺点进行优化啦~

不用pre-sorted，用直方图算法代替，其中包含一些tricks，如histogram做差，使用带深度限制的leaf-wise的叶子生长策略来提高cache命中率
通过对数据采样来提高训练速度，lgb用GOSS算法（基于梯度的one-side采样）
采用EFB（互斥的特征捆绑）来预处理稀疏数据

直方图算法

把连续的浮点特征值离散化成k个正数，构造一个宽为k的直方图
遍历数据，根据离散化后的值作为索引，在直方图中积累统计量
根据直方图离散值，遍历寻找最优的分割点

优点：

只用对统计量计算信息增益，比pre-sorted每次都遍历所有值的计算，要小很多
内存空间需要相对较小，只需保存离散值，占用内存大小为datafeatures1Byte
求子节点相应的feature histogram时，只需构造一个子节点的feature histogram，另外一个子节点的feature histogram用父节点的histogram减去刚构造出来的子节点的histogram便可，时间复杂度就压缩到O(k)，k为histogram的桶数。这是一个很巧妙的做差法。