DataWhale组队学习打卡第五阶段内容
本学习笔记为Datawhale开源学习训练营21年4月数据挖掘学习的学习内容,学习链接为:团队学习数据挖掘/智慧海洋
所在学习小组:梅利号
模型融合
模型融合类型方式:
- 简单加权融合:
回归:算数平均融合,几何平均融合
分类:投票
综合:排序融合,log融合 - boosting/bagging:多树的提升方法
- stacking/blending:构建多层模型,并利用预测结果再拟合预测
简单加权融合
- 平均法
回归问题,将多个模型的回归结果去平均值作为预测结果
加权平均,权值用排序的方法确定。 - 投票法
硬投票:对多个模型直接进行投票,不区分模型结果的相对重要性,投票数最多的类就是最终被预测的类
软投票:增加投票的权重,为不同模型设置不同的权重,用来区分不同模型的重要度。
Stacking堆叠
Stacking就是用数据集训练学习出若干个学习器后,把这几个学习器的预测结果作为新的训练集来学习出新的学习器。
把个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题,可以使用投票法来输出最多的类。对于回归问题,可以将分类器输出的结果求平均值。这些都是有效的结合策略。还有另一种使用机器学习的方法将个体机器学习的学习器结合在一起的结合策略——Stacking。
Stacking模型本质是一种分层的结构用基模型1对训练集训练,然后预测得出训练集、测试集的标签1;然后用基模型2对训练集进行训练,预测得出训练集、测试集的标签2;将两次标签合并得到新的训练集和测试集。最后用次级模型用真实训练集标签为标签训练,用标签2 为特征进行训练,预测测试集2,得到最终的测试集预测标签列。在不同模型预测结果上再加一层模型进行训练,得到模型的进一步预测就是Stacking基本思路。
Stacking过拟合解决
用初始模型训练的标签再对真实标签训练时容易出现再训练时,模型的过拟合性,可以用K折交叉验证训练,次级模型选择较简单的线性模型来降低再训练的过拟合性。
这次的DataWhale组队学习就到了最后阶段,说实话收获不少,但是还没消化完全(太菜了我)<:)doge>
慢慢来,后面要走的路还有的是,每天多学一点就赚到一点。感谢DataWhale的组织督促学习,下个月又来~XD