原理笔记 - LightGBM

艳九九

已于 2024-03-04 14:16:53 修改

阅读量440

点赞数 10

文章标签：笔记算法机器学习

于 2024-02-23 16:16:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44785860/article/details/136258761

版权

一句话打头儿：为了优化计算资源消耗，更快、更高效，并且使用更少的资源，lgb诞生！

和xgboost一样同样是对gbdt的优化和更高效的实现，与xgboost主要的不同在对于连续值的直方图算法，和树生长策略的调整。Lightgbm的优点官方说法如下：

更快的训练速度
更低内存使用
更高的准确率
支持并行化学习
可处理大规模数据
支持直接使用category特征

1. 直方图算法

核心思想：

将连续的值离散成k个离散值，并构造宽度为k个直方图
遍历训练数据，统计每个离散值在直方图中的累积统计量
在进行特征选择时，只需要根据直方图的离散值，遍历寻找最佳分割点

2. 树的生长策略

XGBoost采用的是按层生长的策略，能够同时分裂同一层的叶子，从而进行多线程优化，不容易过拟合。但很多叶子实际上分裂增益较低，没必要进行分裂，因此造成了不必要的计算开销。

LightGMB采用按叶子生长的策略，每次从当前所有叶子中找到分裂增益最大的（一般也是数据量最大的）一个叶子进行分裂，以此类推。这种方式可以降低更多的误差，得到更好的精度。

3. 构建过程

1. 设定初始预测：建立一个输出相同值的初始化模型。

对于回归问题，输出值可以为平均值

分类分体：输出值可以为最多的类别

2. 迭代构建弱学习器

1. 计算残差，（即预测值与真实值之间的差异，分类问题：计算损失函数的负梯度。

2. 将残差作为目标训练新决策树

训练树的过程：

1. 使用直方图将特征离散化（连续的特征值转换为离散的桶）

2. 采用叶子优先策略，通过直方图求和技术，快速找到最佳的分割点

3. 循环直到达到停止条件（如深度限制和其他约束）

3. 新决策树加入原有模型，更新模型预测

3. 重复步骤2直到停止（即满足停止条件，如n棵树）

4. LightGBM优点

高效：基于直方图的算法，可以减少计算时间和内存使用并且支持多核并行处理和 GPU 加速。
支持类别特征：能够直接处理类别特征。
叶子优先的分裂策略：与传统的深度优先或广度优先策略不同，LightGBM 采用叶子优先策略，这有助于获得更低的损失。

5. LightGBM缺点

对噪声和异常值敏感： 与其他基于树的方法一样都是基于偏差的算大，因此对噪声和异常值比较敏感。
可解释性较差： LightGBM 的模型通常被认为是黑盒模型，难以解释。虽然 LightGBM 提供了一些特征重要性的指标，但是解释模型的决策过程仍然比较困难。

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
原理笔记 - LightGBM

一句话总结：为了优化计算资源消耗，更快、更高效，并且使用更少的资源，lgb诞生！和xgboost一样同样是对gbdt的优化和更高效的实现，与xgboost主要的不同在对于连续值的直方图算法，和树生长策略的调整。
复制链接

扫一扫

艳九九 CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

137万+: 周排名

8万+: 总排名

9402: 访问

: 等级

382: 积分

186: 粉丝

222: 获赞

9: 评论

112: 收藏

私信

关注

热门文章

最新评论

原理笔记 - AdaBoost
CSDN-Ada助手: 恭喜您撰写了这篇关于AdaBoost原理的博客！能够深入理解并分享这一复杂的算法原理，实属不易。对于下一步的创作建议，我建议您可以考虑加入一些实际案例或者代码实现，这样读者更容易理解和应用。期待您的下一篇作品！祝您创作顺利！
原理笔记 - CatBoost
CSDN-Ada助手: 恭喜您发布了第15篇博客！阅读了您的原理笔记 - CatBoost，觉得内容非常有深度，对CatBoost的原理解析十分透彻。希望您能继续保持这样的创作热情和专注，为读者带来更多有价值的内容。建议您在以后的创作中，可以尝试加入一些实际案例分析或者应用场景的探讨，让读者更好地理解和应用所学知识。期待您的下一篇作品！祝您创作顺利！
原理笔记 - XGBoost算法
CSDN-Ada助手: 恭喜你写了第13篇博客！看到你分享关于XGBoost算法的原理笔记，我觉得你对这个算法有很深的理解。希望你能继续保持创作的热情，不断分享自己的学习心得和经验。或许下一步可以考虑写一些实际应用案例，让读者更直观地了解XGBoost算法在实际项目中的应用。希望你能继续努力，不断进步！
原理笔记 - 决策树
CSDN-Ada助手: 恭喜你写了第10篇博客，标题为“原理笔记 - 决策树”！你对决策树的理解和分享让读者受益匪浅。希望你可以继续保持创作的热情，探索更多有趣的主题，并结合实践经验分享给大家。也许下一步可以考虑深入研究一些新兴的机器学习算法或者数据挖掘技术，相信你会有更多有价值的见解和经验分享。期待你的下一篇博客！
代码实战 - 深度学习之混合模型
CSDN-Ada助手: 恭喜您写了这么深入的一篇博客，对深度学习混合模型进行了实战的探讨，让读者受益匪浅。希望您能继续坚持创作，不断分享您的学习心得和实战经验。下一步建议可以考虑结合具体的案例，深入分析混合模型在实际项目中的应用，以及优化方法的探讨。期待您更多的精彩分享！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。