lightgbm是微软亚洲研究院研发的,在xgboost的基础上改进的。速度快,精度还OK(据说没比xgboost差)。
设计理念
1.单机不牺牲数据的情况下,尽可能用上多的数据。
2.多机并行运行时,优化通信方式,通信代价降低。计算上可以实现线性加速。
其采用了分布式GBDT,使用了基于直方图的决策树算法。
lightgbm与xgboost的区别
分割算法
xgboost是level-wise,而lightgbm是leave-wise(缺点,容易生成较深的树,所以调参时。。。)
数据排序
xgboost是预排序算法,lightgbm是直方图算法。
内存消耗
xgboost:2featuredata4Byte lightgbm:featuredata1Byte(1/8)
计算增益的复杂度
xgboost: O(featuresdata) lightgbm: O(bins * data)
PS xgboost的exact greedy算法
step 1 所有样本按照特征数值大小排序。
step 2 寻找最优切分点(每个点都计算一次)
step 3 切分
优点:精确
缺点:时间,内存开销大
lightgbm的分桶方法
数值型特征
step 1 特征值去重后排序(从大到小),并且统计非重复的数值的个数。
step 2 bin_number = min(max_bin(超参数),distinct_value_size)
之后的没看懂,后续补充吧
类别型特征
之后的没看懂,后续补充吧
直方图算法的优点
1.减少内存的占用。
2.缓存命中率提高,直方图中缓存的存放时连续的。
3.计算的复杂度降低。
4.多机并行计算,通信代价降低。
lightgbm算法的改进
GOSS和EFB算法可以用来减少特征数和样本数。
GOSS:Gradient-based One-side Sampling,保留大梯度样本,小梯度样本随机采样。
EFB:exclusive feature bunding。将互斥的特征合成bundle。
lightgbm树的生长策略
xgboost中时按照层生长树的,一层中所有的节点不加以区分,都分裂,最后再剪枝,而lightgbm是按照节点生长的。
可以简单的理解xgboost是“对称树”,深度可能不如lightgbm深,但是lightgbm是“非对称树”,生成的树比较畸形,深度较深。
特征并行
计算各个特征的增益时,分散到各个进程中去,每个进程寻找自己的最佳局部切分点,最后点对点通信。
传统算法:每个cpu仅仅储存自己那一部分的特征数据,互相广播最优划分点后,最优的cpu进行分裂,并将分裂结果通知大家,大家再分裂。
lightgbm算法:每个cpu储存所有数据,互相广播最优划分点后,所有的cpu进行分裂,不再广播分裂结果。相当于牺牲内存换取时间。
数据并行
每个cpu中仅包含部分数据,构造各自的直方图,最后合并所有。
投票并行
PV-tree