Task05 模型融合

最新推荐文章于 2024-09-16 13:46:43 发布

hhhhhxin

最新推荐文章于 2024-09-16 13:46:43 发布

阅读量143

点赞数

分类专栏： Datawhale开源学习文章标签： python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45201561/article/details/116110696

版权

Datawhale开源学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

DataWhale组队学习打卡第五阶段内容

本学习笔记为Datawhale开源学习训练营21年4月数据挖掘学习的学习内容，学习链接为：团队学习数据挖掘/智慧海洋
所在学习小组：梅利号

模型融合

模型融合类型方式：

简单加权融合：
回归：算数平均融合，几何平均融合
分类：投票
综合：排序融合，log融合
boosting/bagging：多树的提升方法
stacking/blending：构建多层模型，并利用预测结果再拟合预测

简单加权融合

平均法
回归问题，将多个模型的回归结果去平均值作为预测结果
加权平均，权值用排序的方法确定。
投票法
硬投票：对多个模型直接进行投票，不区分模型结果的相对重要性，投票数最多的类就是最终被预测的类
软投票：增加投票的权重，为不同模型设置不同的权重，用来区分不同模型的重要度。

Stacking堆叠

Stacking就是用数据集训练学习出若干个学习器后，把这几个学习器的预测结果作为新的训练集来学习出新的学习器。
把个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，可以使用投票法来输出最多的类。对于回归问题，可以将分类器输出的结果求平均值。这些都是有效的结合策略。还有另一种使用机器学习的方法将个体机器学习的学习器结合在一起的结合策略——Stacking。
Stacking模型本质是一种分层的结构用基模型1对训练集训练，然后预测得出训练集、测试集的标签1；然后用基模型2对训练集进行训练，预测得出训练集、测试集的标签2；将两次标签合并得到新的训练集和测试集。最后用次级模型用真实训练集标签为标签训练，用标签2 为特征进行训练，预测测试集2，得到最终的测试集预测标签列。在不同模型预测结果上再加一层模型进行训练，得到模型的进一步预测就是Stacking基本思路。

Stacking过拟合解决

用初始模型训练的标签再对真实标签训练时容易出现再训练时，模型的过拟合性，可以用K折交叉验证训练，次级模型选择较简单的线性模型来降低再训练的过拟合性。

这次的DataWhale组队学习就到了最后阶段，说实话收获不少，但是还没消化完全(太菜了我）<：）doge>

慢慢来，后面要走的路还有的是，每天多学一点就赚到一点。感谢DataWhale的组织督促学习，下个月又来~XD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。