RF,GBDT,XGBoost,lightGBM对比分析

最新推荐文章于 2022-12-31 09:20:22 发布

简单点1024

最新推荐文章于 2022-12-31 09:20:22 发布

阅读量556

点赞数

分类专栏： DL ML

本文链接：https://blog.csdn.net/zhangbaoanhadoop/article/details/81948726

版权

RF,GBDT,XGBoost,lightGBM都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性。
根据基本学习器的生成方式，目前的集成学习方法大致分为两大类：即基本学习器之间存在强依赖关系、必须串行生成的序列化方法，以及基本学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）。
关于集成学习的介绍参考：机器学习模型优化之模型融合

这篇文章主要对集成学习中重要的、使用广泛的方法进行对比：RF（随机森林）,ET（极端随机树）,GBDT（梯度提升决策树）,XGBoost,lightGBM

一、RF（随机森林）：
1，RF的原理：
RF是Bagging算法的优化版本，改进一：基本学习器限定为决策树，改进二：除了bagging的在样本上加上扰动，同时在属性上也加上扰动，即是在决策树学习的过程中引入了随机属性选择，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。

2，RF的生成： 算法如下

输入为样本集D={(x,y1),(x2,y2),...(xm,ym)}D={(x,y1),(x2,y2),...(xm,ym)}，弱分类器迭代次数T。
输出为最终的强分类器f(x)f(x)
1）对于t=1,2...,T:
    a)对训练集进行第t次随机采样，共采集m次，得到包含m个样本的采样集D-m
　　 b)用采样集D-m训练'第m个决策树模型Gm(x)'，在训练决策树模型的节点的时候， '在节点上所有的样本特征中选择一部分样本特征， 在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分'
2) 如果是'分类算法预测'，则T个弱学习器投出最多票数的类别或者类别之一为最终类别。
'如果是回归算法'，T个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。

3，RF和Bagging对比： RF的起始性能较差，特别当只有一个基学习器时，随着学习器数目增多，随机森林通常会收敛到更低的泛化误差。随机森林的训练效率也会高于Bagging，因为在单个决策树的构建中，Bagging使用的是‘确定性’决策树，在选择特征划分结点时，要对所有的特征进行考虑，而随机森林使用的是‘随机性’特征数，只需考虑特征的子集。

4，优缺点：
　　优点：训练可以高度并行化，对于大数据时代的大样本训练速度有优势（个人觉得这是的最主要的优点）；能够处理很高维的数据，并且不用特征选择，而且在训练完后，给出特征的重要性；相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。。
　　缺点：在噪声较大的分类或者回归问题上容易过拟合。

二、ET（极端

最低0.47元/天解锁文章

简单点1024

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
RF,GBDT,XGBoost,lightGBM对比分析

RF,GBDT,XGBoost,lightGBM都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性。根据基本学习器的生成方式，目前的集成学习方法大致分为两大类：即基本学习器之间存在强依赖关系、必须串行生成的序列化方法，以及基本学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者...
复制链接

扫一扫

专栏目录