（十一）集成学习中——XgBoost、LightGBM

ArriettyYun

已于 2022-09-23 17:27:24 修改

阅读量523

点赞数

分类专栏：集成学习

于 2021-04-27 01:34:07 首次发布

本文链接：https://blog.csdn.net/youyoufengyuhan/article/details/116179645

版权

本文详细介绍了XGBoost算法，包括其目标函数、泰勒级数近似、树的构建以及优化策略。XGBoost通过优化梯度提升决策树，实现了高效和精确的预测。此外，文章还提到了LightGBM，它是XGBoost的优化版本，通过减少计算成本、优化内存使用和提高训练速度，提升了整体性能。最后，文章简述了XGBoost和LightGBM在实际应用中的参数设置和案例演示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：DataWhale教程链接

集成学习（上）所有Task：

（一）集成学习上——机器学习三大任务

（二）集成学习上——回归模型

（三）集成学习上——偏差与方差

（四）集成学习上——回归模型评估与超参数调优

（五）集成学习上——分类模型

（六）集成学习上——分类模型评估与超参数调优

（七）集成学习中——投票法

（八）集成学习中——bagging

（九）集成学习中——Boosting简介&AdaBoost

（十）集成学习中——GBDT

（十一）集成学习中——XgBoost、LightGBM

（十二）集成学习（下）——Blending

（十三）集成学习（下）——Stacking

（十四）集成学习（下）——幸福感预测

（十五）集成学习（下）——蒸汽量预测

文章目录

6. XGBoost算法

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted，包括前面说过，两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Hadoop，SGE，MPI）上运行，并且可以解决超过数十亿个样例的问题。XGBoost利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。最终，将这些技术进行结合来做一个端到端的系统以最少的集群系统来扩展到更大的数据集上。Xgboost以CART决策树为子模型，通过Gradient Tree Boosting实现多棵CART树的集成学习，得到最终模型。下面我们来看看XGBoost的最终模型构建：
引用陈天奇的论文，我们的数据为： $\mathcal{D}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}\left(|\mathcal{D}|=n, \mathbf{x}_{i} \in \mathbb{R}^{m}, y_{i} \in \mathbb{R}\right)$
(1) 构造目标函数：
假设有K棵树，则第i个样本的输出为 $\hat{y}_{i}=\phi\left(\mathrm{x}_{i}\right)=\sum_{k=1}^{K} f_{k}\left(\mathrm{x}_{i}\right), \quad f_{k} \in \mathcal{F}$ ，其中， $\mathcal{F}=\left\{f(\mathbf{x})=w_{q(\mathbf{x})}\right\}\left(q: \mathbb{R}^{m} \rightarrow T, w \in \mathbb{R}^{T}\right)$
因此，目标函数的构建为：
$\mathcal{L}(\phi)=\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{k} \Omega\left(f_{k}\right)$
其中， $\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)$ 为loss function， $\sum_{k} \Omega\left(f_{k}\right)$ 为正则化项。
(2) 叠加式的训练(Additive Training)：
给定样本 $x_i$ ， $\hat{y}_i^{(0)} = 0$ (初始预测)， $\hat{y}_i^{(1)} = \hat{y}_i^{(0)} + f_1(x_i)$ ， $\hat{y}_i^{(2)} = \hat{y}_i^{(0)} + f_1(x_i) + f_2(x_i) = \hat{y}_i^{(1)} + f_2(x_i)$ …以此类推，可以得到：$ \hat{y}_i^{(K)} = \hat{y}_i^{(K-1)} + f_K(x_i)$ ，其中，$ \hat{y}_i^{(K-1)} $ 为前K-1棵树的预测结果，$ f_K(x_i)$ 为第K棵树的预测结果。
因此，目标函数可以分解为：
$\mathcal{L}^{(K)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right)\right)+\sum_{k} \Omega\left(f_{k}\right)$
由于正则化项也可以分解为前K-1棵树的复杂度加第K棵树的复杂度，因此： $\mathcal{L}^{(K)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right)\right)+\sum_{k=1} ^{K-1}\Omega\left(f_{k}\right)+\Omega\left(f_{K}\right)$

最低0.47元/天解锁文章