5 模型集成
(一)集成学习
集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。
集成学习在各个规模的数据集上都有很好的策略。
数据集大: 划分成多个小数据集,学习多个模型进行组合
数据集小: 利用Bootstrap方法进行抽样,得到多个数据集,分别训练多个模型再进行组合首先将PPM
(二)深度学习中的集成学习思路的技巧
1. Drop out
Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。
Dropout说的简单一点就是:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征
2.TTA
TTA即测试集数据扩增,是一种常用的集成学习技巧,数据扩增不仅可以在训练时候用,而且可以同样在预测时候进行数据扩增,对同一个样本预测三次,然后对三次结果进行平均。
3.Snapshot
深度神经网络模型复杂的解空间中存在非常多的局部最优解,经典的SGD方法只能让网络模型收敛到其中一个局部最优解,snapshot ensemble 通过循环调整网络学习率(cyclic learning rate schedule)使网络依次收敛到不同的局部最优解。
参考资料:
https://blog.csdn.net/qq_36014149/article/details/83715552
https://blog.csdn.net/program_developer/article/details/80737724
https://blog.csdn.net/qq_14845119/article/details/86509041