第一部分:解决的问题
论文解决的是深度神经网络优化过程中模型的泛化能力提升问题。具体来说:
-
背景问题:
- 在深度学习中,SGD(随机梯度下降)及其变种是主要的优化方法,但其找到的解通常在权重空间中是“尖锐(参数稍微变一点损失函数就会变化很大)的”(sharp minima),对模型泛化性能有负面影响。
- 之前的研究表明,“宽解”(flat minima)通常具有更好的泛化能力。
- Fast Geometric Ensembling (FGE) 等方法尝试通过采样多个权重点的方式改进泛化,但它需要额外的推理开销。
-
具体问题:
- 如何设计一种简单、易实现的方法,通过现有训练过程直接找到“更平坦的解”,从而提升深度神经网络的泛化性能,同时避免增加计算开销?
第二部分:解决问题使用到的方法
论文提出了Stochastic Weight Averaging (SWA) 方法,其核心思想是通过权重平均找到更平坦的