第16篇:Averaging Weights Leads to Wider Optima and Better Generalization(SWA2018-2019)平坦最小化

第一部分:解决的问题

论文解决的是深度神经网络优化过程中模型的泛化能力提升问题。具体来说:

  1. 背景问题

    • 在深度学习中,SGD(随机梯度下降)及其变种是主要的优化方法,但其找到的解通常在权重空间中是“尖锐(参数稍微变一点损失函数就会变化很大)的”(sharp minima),对模型泛化性能有负面影响。
    • 之前的研究表明,“宽解”(flat minima)通常具有更好的泛化能力。
    • Fast Geometric Ensembling (FGE) 等方法尝试通过采样多个权重点的方式改进泛化,但它需要额外的推理开销
  2. 具体问题

    • 如何设计一种简单、易实现的方法,通过现有训练过程直接找到“更平坦的解”,从而提升深度神经网络的泛化性能,同时避免增加计算开销?

第二部分:解决问题使用到的方法

论文提出了Stochastic Weight Averaging (SWA) 方法,其核心思想是通过权重平均找到更平坦的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

还不秃顶的计科生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值