【模型融合】Bagging，Boosting，Stacking

最新推荐文章于 2023-01-12 23:50:18 发布

小胡同1991

最新推荐文章于 2023-01-12 23:50:18 发布

阅读量7.6k

点赞数 13

分类专栏：机器学习 Python 文章标签：机器学习

本文链接：https://blog.csdn.net/xiaohutong1991/article/details/107976781

版权

本文介绍了模型融合的概念，强调其在提高模型性能中的作用。文章详细探讨了模型融合的类型，包括Bagging（如随机森林）、Boosting（如Adaboost、GBDT、XGBOOST）和Stacking，并分析了它们之间的区别和应用场景。此外，还讨论了模型融合的条件，如个体学习器的准确性和多样性。最后，文章提到了模型融合的结合策略，如平均法和投票法，并对比了Stacking和Blending的差异。

摘要由CSDN通过智能技术生成

一、引言

我理解的Kaggle比赛中提高成绩主要有3个地方

特征工程

调参

模型融合

在机器学习训练完模型之后我们要考虑模型的效率问题，常用的模型效率分析手段有：

研究模型学习曲线，判断模型是否过拟合或者欠拟合，并做出相应的调整；

对于模型权重参数进行分析，对于权重绝对值高/低的特征，可以对特征进行更细化的工作，也可以进行特征组合；

进行bad-case分析，对错误的例子分析是否还有什么可以修改挖掘

模型融合：模型融合就是训练多个模型，然后按照一定的方法集成过个模型，应为它容易理解、实现也简单，同时效果也很好，在工业界的很多应用，在天池、kaggle比赛中也经常拿来做模型集成。

二、模型融合初探

2.1 什么叫做模型融合

一般来说，通过融合多个不同的模型，可能提升机器学习的性能，这一方法在各种机器学习比赛中广泛应用，比如在kaggle上的otto产品分类挑战赛①中取得冠军和亚军成绩的模型都是融合了1000+模型的“庞然大物”。常见的集成学习&模型融合方法包括：简单的Voting/Averaging（分别对于分类和回归问题）、Stacking、Boosting和Bagging。

下图介绍了模型融合的一般结构:先产生一组”个体学习器，再用某种策略将它们结合起来，加强模型效果。

2.2 模型融合应用广泛的原因

可以通过数学证明模型，随着集成中个体分类器数目T 的增大，集成的错误率将指数级下降，最终趋向于零。具体证明在周志华和李航老师的书中都有。它不是具体的指某一个算法，而是一种把多个弱模型融合合并在一起变成一个强模型的思想,也称为集成学习(Ensemble Learning)：

1、单个模型容易过拟合，多个模型融合可以提高范化能力
2、单个模型预测能力不高，多个模型往往能提高预测能力
3、对于数据集过大或过小，可以分别进行划分和有放回的操作，产生不同的数据子集，然后通过数据子集训练不同的分类模型，最终合并成一个大的分类器
4、对于多个异构的特征集的时候，很难进行融合，可以考虑每个数据集构建一个分类模型，然后将多个模型融合
5、模型融合算法成功的关键在于能保证弱分类器（弱模型）的多样性，融合不稳定的学习算法能得到更明显的性能提升

2.3 模型融合的条件

个体学习器准确性越高、多样性越大，则融合越好。（ $这里写图片描述$ ，E代表融合后的误差加权均值， $这里写图片描述$ 代表个体学习器的误差加权均值， $这里写图片描述$ 代表模型的多样性，也就是各个模型之间的分歧值）

Base Model 之间的相关性要尽可能的小。这就是为什么非 Tree-based Model 往往表现不是最好但还是要将它们包括在 Ensemble 里面的原因。Ensemble 的 Diversity 越大，最终 Model 的 Bias 就越低。
Base Model 之间的性能表现不能差距太大。这其实是一个 Trade-off，在实际中很有可能表现相近的 Model 只有寥寥几个而且它们之间相关性还不低。但是实践告诉我们即使在这种情况下 Ensemble 还是能大幅提高成绩。