LightGBM

最新推荐文章于 2024-07-11 16:52:22 发布

zbzckaiA

最新推荐文章于 2024-07-11 16:52:22 发布

阅读量357

点赞数

分类专栏：算法实现

算法实现专栏收录该内容

24 篇文章 0 订阅

订阅专栏

自从微软推出了LightGBM，其在工业界表现的越来越好，很多比赛的Top选手也掏出LightGBM上分。所以，本文介绍下LightGBM的特别之处。

LightGBM算法在模型的训练速度和内存方面都有相应的优化。

基于树模型的boosting算法，很多算法比如（xgboost 的默认设置）都是用预排序（pre-sorting）算法进行特征的选择和分裂。

首先，对所有特征按数值进行预排序。
其次，在每次的样本分割时，用O(# data)的代价找到每个特征的最优分割点。
最后，找到最后的特征以及分割点，将数据分裂成左右两个子节点。
优缺点：
这种pre-sorting算法能够准确找到分裂点，但是在空间和时间上有很大的开销。
i. 由于需要对特征进行预排序并且需要保存排序后的索引值（为了后续快速的计算分裂点），因此内存需要训练数据的两倍。
ii. 在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。
LightGBM采用Histogram算法，其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的Histogram。然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。

Histogram 算法的优缺点：

Histogram算法并不是完美的。由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产生影响。但在实际的数据集上表明，离散化的分裂点对最终的精度影响并不大，甚至会好一些。原因在于decision tree本身就是一个弱学习器，采用Histogram算法会起到正则化的效果，有效地防止模型的过拟合。
时间上的开销由原来的O(#data * #features)降到O(k * #features)。由于离散化，#bin远小于#data，因此时间上有很大的提升。
Histogram算法还可以进一步加速。一个叶子节点的Histogram可以直接由父节点的Histogram和兄弟节点的Histogram做差得到。一般情况下，构造Histogram需要遍历该叶子上的所有数据，通过该方法，只需要遍历Histogram的k个捅。速度提升了一倍。

LightGBM的leaf-wise的生长策略

它摒弃了现在大部分GBDT使用的按层生长（level-wise）的决策树生长策略，使用带有深度限制的按叶子生长（leaf-wise）的策略。level-wise过一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟合。但实际上level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销，因为实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。

Leaf-wise则是一种更为高效的策略，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度。Leaf-wise的缺点是可能会长出比较深的决策树，产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。

LightGBM支持类别特征

实际上大多数机器学习工具都无法直接支持类别特征，一般需要把类别特征，转化one-hotting特征，降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这个考虑，LightGBM优化了对类别特征的支持，可以直接输入类别特征，不需要额外的0/1展开。并在决策树算法上增加了类别特征的决策规则。

上一篇文章介绍了LightGBM算法的特点，总结起来LightGBM采用Histogram算法进行特征选择以及采用Leaf-wise的决策树生长策略，使其在一批以树模型为基模型的boosting算法中脱颖而出。在时间和空间上都更胜一筹，准确率也比其他模型表现得更好。这些模型在处理一般规模的数据时，单机即可以解决，然而当数据规模更大时，即需要进行分布式计算，分担每台机器（worker）的压力。这篇文章介绍LightGBM的两种并行学习算法（Feature Parallel & Data Parallel），以及他们较传统并行算法的特别之处。

- Feature Parallel
特征并行算法目的是在决策树生成过程中的每次迭代，高效地找到最优特征分裂点。特征并行的主要思想是在不同机器在不同的特征集合上分别寻找最优的分割点，然后在机器间同步最优的分割点。

传统的特征并行算法

根据不同的特征子集，将数据集进行垂直切分。（不同机器worker有不同的特征子集）
每个worker寻找局部的最优分裂特征以及分裂点。
不同worker之间进行网络传输，交换最优分裂信息，最终得到最优的分裂信息。
具有最优分裂特征的worker，局部进行分裂，并将分裂结果广播到其他worker。
其他worker根据接收到的数据进行切分数据。
该方法不能有效地加速特征选择的效率，当数据量#data很大时，该并行方法不能加快效率。并且，最优的分裂结果需要在worker之间进行传输，需要消耗很多的传输资源以及传输时间。

LightGBM的特征并行算法
LightGBM并没有垂直的切分数据集，而是每个worker都有全量的训练数据，因此最优的特征分裂结果不需要传输到其他worker中，只需要将最优特征以及分裂点告诉其他worker，worker随后本地自己进行处理。处理过程如下：

每个worker在基于局部的特征集合找到最优分裂特征。
workder间传输最优分裂信息，并得到全局最优分裂信息。
每个worker基于全局最优分裂信息，在本地进行数据分裂，生成决策树。
然而，当数据量很大时，特征并行算法还是受限于特征分裂效率。因此，当数据量大时，推荐使用数据并行算法。

- Data Parallel
传统的数据并行算法

水平切分数据集。
每个worker基于数据集构建局部特征直方图（Histogram）。
归并所有局部的特征直方图，得到全局直方图。
找到最优分裂信息，进行数据分裂。
缺点：网络传输代价比较大，如果使用point-to-point的传输算法，每个worker的传输代价为O(#machine * #feature * #bin). 如果使用All Reduce并行算子，传输代价为O(2* #feature * #bin).

LightGBM的数据并行算法
LightGBM算法使用Reduce Scatter并行算子归并来自不同worker的不同特征子集的直方图，然后在局部归并的直方图中找到最优局部分裂信息，最终同步找到最优的分裂信息。
除此之外，LightGBM使用直方图减法加快训练速度。我们只需要对其中一个子节点进行数据传输，另一个子节点可以通过histogram subtraction得到。
LightGBM可以将传输代价降低为O(0.5 * #feature * #bin)。
基于投票的并行算法
基于投票机制的并行算法，是在每个worker中选出top k个分裂特征，然后将每个worker选出的k个特征进行汇总，并选出全局分裂特征，进行数据分裂。有理论证明，这种voting parallel以很大的概率选出实际最优的特征，因此不用担心top k的问题。
---------------------

原文：https://blog.csdn.net/ictcxq/article/details/78736442