集成学习之stacking

最新推荐文章于 2024-03-31 08:46:13 发布

daw py

最新推荐文章于 2024-03-31 08:46:13 发布

阅读量738

点赞数

文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjwunknown/article/details/119150816

版权

本文详细探讨了集成学习中的Stacking和Blending方法。Blending是一种简单的集成策略，通过组合不同模型的预测结果来提升性能。Stacking则通过交叉验证避免了数据浪费，进一步提高集成模型的准确性。文章提供了具体案例来阐述这两种方法的基本思路、实施步骤及性能比较。

摘要由CSDN通过智能技术生成

集成学习之stacking

前面介绍了关于回归和分类的算法，同时也讨论了一些如何将这些方法集成为强可学习算法的集成学习方式，分别是 Bagging 和 Boosting 。

本文我们继续讨论集成学习方法的最后一类 —— Stacking ，它不需要花费过多时间的调参就可以得到一个效果不错的算法，同时也比前两种方法容易理解的多，其实际应用的部分要多过理论理解。

1 Blending集成学习算法

Stacking 可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果（元特征）提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。

在介绍 Stacking 之前，我们先来对简化版的 Stacking 进行讨论，也叫做 Blending ，接着再对 Stacking 进行更深入的讨论。

1.1 Blending的基本思路

Blending 的基本思想是通过对不同模型的预测结果进行分析处理，从而得到更好的结果。

下面我们来详细讨论下具体的算法过程：

将数据划分为训练集、验证集和测试集，其中练集是为了训练模型，测试集是为了调整模型(调参)，测试集则是为了检验模型的优度。
创建第一层的多个模型，这些模型可以使同质的也可以是异质的。
使用训练集拟合步骤 $2$ 中的多个模型，然后用训练好的模型预测验证集和测试集得到相应的预测值；
创建第二层的模型,使用验证集的预测值作为训练集训练第二层的模型；
使用第二层训练好的模型对第二层测试集的预测值进行预测，该结果即为整个测试集的结果。

整体流程如下图所示：

在这里插入图片描述

1.2 Blending的详细说明

对于以上步骤，下面进行详细的说明：

在第 $2$ 到第 $3$ 步中，我们使用训练集创建了 $K$ 个模型，如 SVM 、random forests 、XGBoost 等，作为第一层的模型。训练好模型后将验证集输入模型进行预测，得到 $K$ 组不同的输出，记作 $A_1,...,A_K$ ，然后将测试集输入 $K$ 个模型也得到 $K$ 组输出，我们记作 $B_1,...,B_K$ 。
在第 $4$ 步中，我们使用 $K$ 组验证集的结果 $A_1,...,A_K$ 作为第二层模型（回归器或分类器）的特征，验证集的样本标签为因变量，训练第二层模型，得到相应的输出。
在第 $5$ 步中，将测试集结果 $B_1,...,B_K$

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。