论文:accurate ,large minibatch SGD:Training ImageNet in 1 Hour

Abstract:

这篇论文发现,在 ImageNet dataset 上使用 large minibatch 会导致优化困难,但是当这个问题解决了,模型具有更好的泛化能力,并且没有精度上的损失

为达到这个目的,我们提出了 hyper-parameter-free linear scaling rule,用来调整学习率,学习率是有关于 minibatch size 的一个函数,还提出了一个 warmup scheme 用来克服训练早期的优化问题

1 Introduction:

本文目的是介绍 分布式同步 SGD 完成 large-scale training,我们可以将 ResNet-50 从 minibatch size 256 时间 29 hours 缩短到 minibatch size 8192 in 1 hour,获得的精度一样的,如下图

为了解决 large minibatch size,我们提出了一个简单的 hyper-parameter-free linear scaling rule 来调整学习率,为了成功应用此 rule,我们提出了一个新的 warmup strategy. 这个 strategy 在训练的初期使用低的学习率来克服优化困难


我们之后的实验说明了优化困难最主要的问题是 large minibatch 而不是 poor generalization ( 至少在 ImageNet 上是),而且我们说明了 linear scaling rule 和 warmup strategy 可以推广到更复杂的任务,比如 detection 和 instance segmentation.

虽然这个 strategy 很简单,但是它的应用需要比较好的理解,SGD里面很小的改变有时候会得到很难发现的错误的结果,之后我们会描述这些常见的陷阱和解决的细节,我们的策略还需要非平凡的通信算法

在工业界,我们可以释放模型训练大量数据的潜能,在学术界我们可以简化从单 GPU 到多 GPU 的迁移而不需要超参数搜索

2 Large Minibatch SGD:

首先回顾基本的随机梯度下降方法


w 是 weight , x 是有标签的训练数据 l(x,w)是计算的 loss ,通常 loss 是 classification loss (cross-entropy)和 regularization loss on w 的和

Minibatch SGD 在最近的文献中被简称为 SGD,它的更新函数如下:


其中 B 是一个minibatch 的sample,n 是 minibatch size

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值