通过对比Bagging/Boosting/RF/GDBT来理解XGB

最新推荐文章于 2022-08-03 20:59:55 发布

ybdesire

最新推荐文章于 2022-08-03 20:59:55 发布

阅读量967

点赞数 3

分类专栏： Machine Learning 文章标签： XGB

本文链接：https://blog.csdn.net/ybdesire/article/details/89856651

版权

110 篇文章 17 订阅

订阅专栏

引入

用过XGB模型的人，都大致知道，XGB是由多棵树组成的，像一片森林，这是一种集成学习方法。但是，这片森林里的每棵树都是通过纯度计算与分支划分得到的吗？多棵树是如何组合（集成）在一起共同做决策的呢？XGB和RandomForest是什么区别？XGB和GDBT又有什么区别呢？

首先，我们需要理解几个概念

（1）集成学习

集成学习分为三种算法：Bagging，Boosting和Stacking

在这里插入图片描述

Boosting：先从出事训练集训练出一个基学习器，再根据基学习器的表现，对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；最终多个基学习器进行加权结合，具体过程如下所示

在这里插入图片描述

（2）RandomForest，GDBT与XGB

RandomForest: 随机森林，是在Bagging的基础上，添加了随机因素，训练而成的模型。
GDBT: GradientBoost，梯度提升决策树，在Boosting的基础上。Freidman提出了梯度提升算法：利用最速下降的近似方法，即利用损失函数的负梯度在当前模型的值，作为回归问题中提升树算法的残差的近似值，拟合一个回归树
XGB: 在Boosting的基础上实现的，XGB可以看作是对GDBT的优化。其原理还是基于GDBT，它的创新之处是用了二阶导数和正则项。

了解这些知识点，我们就能解释这几个问题了

（1）森林里的每棵树都是通过纯度计算与分支划分得到的吗？
回答：是的，因为集成学习中的基分类器，都是由决策树构成的，所以每颗决策树，都是通过基尼指数来做纯度计算后，划分分支的。

（2）多棵树是如何组合（集成）在一起共同做决策的呢？
回答：不同的模型不一样，RandomForest是基于Bagging算法做的集成学习，而XGB和GDBT是基于Boosting算法做的集成学习。

（3）XGB和RandomForest是什么区别？
回答：见上面一个问题的回答。

（4）XGB和GDBT又有什么区别呢？
回答：详见[4]

传统的GBDT以CART树作为基学习器，XGB还支持线性分类器，这个时候XGB相当于L1和L2正则化的逻辑斯蒂回归（分类）或者线性回归（回归）
传统的GBDT在优化的时候只用到一阶导数信息，XGB则对代价函数进行了二阶泰勒展开，得到一阶和二阶导数
XGB在代价函数中加入了正则项，用于控制模型的复杂度。从权衡方差偏差来看，它降低了模型的方差，使学习出来的模型更加简单，放置过拟合，这也是XGB优于传统GBDT的一个特性

（5）Bagging和Boosting有什么区别
回答：