lightgbm的优化

本文介绍了LightGBM相对于XGBoost的优化,包括基于直方图的决策树算法,leaf_wise生长策略,类别变量处理方式,以及并行学习的优化。直方图算法提高了训练效率和减少了内存消耗,leaf_wise策略避免过拟合,类别变量处理简化了复杂度,而并行学习优化则加速了训练过程。
摘要由CSDN通过智能技术生成

lightgbm是xgboost的优化版本,它的优点在于:
更小内存;速度更快;更高的准确率;更大的数据集;更小的内存消耗。

下面简单阐述下我对其中几点优化的理解。
lightgbm相较于xgboost有以下几点改进:

  1. 基于直方图的决策树算法;
  2. 基于leaf_wise的叶子生长策略;
  3. 利用直方图做差
  4. 能够直接处理类别变量
  5. cache命中优化
  6. 多线程优化

a. 直方图算法
lightgbm的直方图算法是将连续型变量离散化成k个直方图的形式,完成指标的离散化,将离散化后的值作为索引得到相应的统计量,然后根据直方图和相应的统计量寻找最优划分点。
直方图的优点在于1. 能有效提高模型训练的效率,在xgb等模型中,每次划分指标寻找最佳分割点的时候,需要的代价与数据量和特征量成正比,划分直方图后,只需要与分箱数和特征量成正比,不再需要数据预排序的结果,大大降低了内存的消耗;2. 能降低模型过拟合的风险,虽然可能会在一棵树上损失一些精度,但是能预防过拟合,而由于迭代的效果,使得精度并未损失多少。
直方图算法的过程大概是:
a. 对当前模型的每个节点,遍历每个特征进行如下操作;
b. 对一个节点,遍历每个特征,分别得到相应的直方图,并将计算相应的梯度和bin中的样本数量;
c. 遍历样本,分别计算样本梯度和样本数量,并添加到相应的bin中;
d. 遍历所有的bin,分别以该bin为分割点,将左边

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值