天池打卡TASK4

最新推荐文章于 2024-08-08 16:54:44 发布

weixin_45585403

最新推荐文章于 2024-08-08 16:54:44 发布

阅读量95

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45585403/article/details/105305361

版权

内容介绍
模型融合大体来说有如下的类型方式：

1.简单加权融合:

回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting)
综合：排序融合(Rank averaging)，log融合
stacking/blending:
构建多层模型，并利用预测结果再拟合预测。
boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）:
多树的提升方法

Stacking简介

1）什么是 stacking

简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。

在这里插入图片描述
将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，我们可以使用投票法来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。

上面说的投票法和平均法都是很有效的结合策略，还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起，这个方法就是Stacking。

在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器或元学习器（meta-learner），次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

2) 如何进行 stacking

算法示意图如下：

在这里插入图片描述
引用自西瓜书《机器学习》

过程1-3 是训练出来个体学习器，也就是初级学习器。
过程5-9是使用训练出来的个体学习器来得预测的结果，这个预测的结果当做次级学习器的训练集。
过程11 是用初级学习器预测的结果训练出次级学习器，得到我们最后训练的模型。

3）Stacking的方法讲解

首先，我们先从一种“不那么正确”但是容易懂的Stacking方法讲起。

Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking.假设我们有2个基模型 Model1_1、Model1_2 和一个次级模型Model2

Step 1. 基模型 Model1_1，对训练集train训练，然后用于预测 train 和 test 的标签列，分别是P1，T1

Model1_1 模型训练:

KaTeX parse error: Expected ‘}’, got ‘_’ at position 120: …^{\text {Model1_̲1 Train} }\left…

训练后的模型 Model1_1 分别在 train 和 test 上预测，得到预测标签分别是P1，T1

KaTeX parse error: Expected ‘}’, got ‘_’ at position 120: …^{\text {Model1_̲1 Predict} }\le…

KaTeX parse error: Expected ‘}’, got ‘_’ at position 119: …^{\text {Model1_̲1 Predict} }\le…

Step 2. 基模型 Model1_2 ，对训练集train训练，然后用于预测train和test的标签列，分别是P2，T2

Model1_2 模型训练:

KaTeX parse error: Expected ‘}’, got ‘_’ at position 120: …^{\text {Model1_̲2 Train} }\left…

训练后的模型 Model1_2 分别在 train 和 test 上预测，得到预测标签分别是P2，T2

KaTeX parse error: Expected ‘}’, got ‘_’ at position 120: …^{\text {Model1_̲2 Predict} }\le…

KaTeX parse error: Expected ‘}’, got ‘_’ at position 119: …^{\text {Model1_̲2 Predict} }\le…

Step 3. 分别把P1,P2以及T1,T2合并，得到一个新的训练集和测试集train2,test2.

KaTeX parse error: Expected ‘}’, got ‘_’ at position 159: …}^{\text {Train_̲2 }} and \ov…

再用次级模型 Model2 以真实训练集标签为标签训练,以train2为特征进行训练，预测test2,得到最终的测试集预测的标签列 YPreY_{Pre}Y
Pre

。

KaTeX parse error: Expected ‘}’, got ‘_’ at position 159: …}^{\text {Train_̲2 }} \overbrace…

KaTeX parse error: Expected ‘}’, got ‘_’ at position 158: …)}^{\text {Test_̲2 }} \overbrace…

这就是我们两层堆叠的一种基本的原始思路想法。在不同模型预测的结果基础上再加一层模型，进行再训练，从而得到模型最终的预测。

Stacking本质上就是这么直接的思路，但是直接这样有时对于如果训练集和测试集分布不那么一致的情况下是有一点问题的，其问题在于用初始模型训练的标签再利用真实标签进行再训练，毫无疑问会导致一定的模型过拟合训练集，这样或许模型在测试集上的泛化能力或者说效果会有一定的下降，因此现在的问题变成了如何降低再训练的过拟合性，这里我们一般有两种方法。

次级模型尽量选择简单的线性模型
利用K折交叉验证
K-折交叉验证：
训练：
在这里插入图片描述
预测：

注：本文为 Datawhale 零基础入门数据挖掘-Task5 模型融合打卡笔记
参考：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.6802593aYyaNzs&postId=95535

weixin_45585403

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
天池打卡TASK4

内容介绍模型融合大体来说有如下的类型方式：1.简单加权融合:回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)，log融合stacking/blending:构建多层模型，并利用预测结果再拟合预测。boosting/bagging（在xgboost...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。