手撕算法_lightgbm

最新推荐文章于 2024-04-27 07:55:38 发布

菜不卷

最新推荐文章于 2024-04-27 07:55:38 发布

阅读量503

点赞数

分类专栏：手撕算法文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44414593/article/details/107913671

版权

手撕算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

lightgbm是微软亚洲研究院研发的，在xgboost的基础上改进的。速度快，精度还OK（据说没比xgboost差）。

设计理念

1.单机不牺牲数据的情况下，尽可能用上多的数据。
2.多机并行运行时，优化通信方式，通信代价降低。计算上可以实现线性加速。
其采用了分布式GBDT，使用了基于直方图的决策树算法。

lightgbm与xgboost的区别

分割算法
xgboost是level-wise，而lightgbm是leave-wise（缺点，容易生成较深的树，所以调参时。。。）
数据排序
xgboost是预排序算法，lightgbm是直方图算法。
内存消耗
xgboost：2featuredata4Byte lightgbm：featuredata1Byte（1/8）
计算增益的复杂度
xgboost: O(featuresdata） lightgbm: O(bins * data)

PS xgboost的exact greedy算法

step 1 所有样本按照特征数值大小排序。
step 2 寻找最优切分点（每个点都计算一次）
step 3 切分
优点：精确
缺点：时间，内存开销大

lightgbm的分桶方法

数值型特征
step 1 特征值去重后排序（从大到小），并且统计非重复的数值的个数。
step 2 bin_number = min(max_bin(超参数),distinct_value_size)
之后的没看懂，后续补充吧
类别型特征
之后的没看懂，后续补充吧

直方图算法的优点

1.减少内存的占用。
2.缓存命中率提高，直方图中缓存的存放时连续的。
3.计算的复杂度降低。
4.多机并行计算，通信代价降低。

lightgbm算法的改进

GOSS和EFB算法可以用来减少特征数和样本数。
GOSS:Gradient-based One-side Sampling,保留大梯度样本，小梯度样本随机采样。
EFB：exclusive feature bunding。将互斥的特征合成bundle。

lightgbm树的生长策略

xgboost中时按照层生长树的，一层中所有的节点不加以区分，都分裂，最后再剪枝，而lightgbm是按照节点生长的。
可以简单的理解xgboost是“对称树”，深度可能不如lightgbm深，但是lightgbm是“非对称树”，生成的树比较畸形，深度较深。

特征并行

计算各个特征的增益时，分散到各个进程中去，每个进程寻找自己的最佳局部切分点，最后点对点通信。
传统算法：每个cpu仅仅储存自己那一部分的特征数据，互相广播最优划分点后，最优的cpu进行分裂，并将分裂结果通知大家，大家再分裂。
lightgbm算法：每个cpu储存所有数据，互相广播最优划分点后，所有的cpu进行分裂，不再广播分裂结果。相当于牺牲内存换取时间。

数据并行

每个cpu中仅包含部分数据，构造各自的直方图，最后合并所有。

投票并行

PV-tree

菜不卷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
手撕算法_lightgbm

lightgbm是微软亚洲研究院研发的，在xgboost的基础上改进的。速度快，精度还OK（据说没比xgboost差）。设计理念1.单机不牺牲数据的情况下，尽可能用上多的数据。2.多机并行运行时，优化通信方式，通信代价降低。计算上可以实现线性加速。其采用了分布式GBDT，使用了基于直方图的决策树算法。lightgbm与xgboost的区别分割算法xgboost是level-wise，而lightgbm是leave-wise（缺点，容易生成较深的树，所以调参时。。。）数据排序xgboost是
复制链接

扫一扫