论文：accurate ,large minibatch SGD：Training ImageNet in 1 Hour

最新推荐文章于 2024-06-16 18:29:03 发布

xxiaozr

最新推荐文章于 2024-06-16 18:29:03 发布

阅读量5.7k

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/xxiaozr/article/details/80346381

版权

Abstract:

这篇论文发现，在 ImageNet dataset 上使用 large minibatch 会导致优化困难，但是当这个问题解决了，模型具有更好的泛化能力，并且没有精度上的损失

为达到这个目的，我们提出了 hyper-parameter-free linear scaling rule，用来调整学习率，学习率是有关于 minibatch size 的一个函数，还提出了一个 warmup scheme 用来克服训练早期的优化问题

1 Introduction:

本文目的是介绍分布式同步 SGD 完成 large-scale training，我们可以将 ResNet-50 从 minibatch size 256 时间 29 hours 缩短到 minibatch size 8192 in 1 hour，获得的精度一样的，如下图

为了解决 large minibatch size，我们提出了一个简单的 hyper-parameter-free linear scaling rule 来调整学习率，为了成功应用此 rule，我们提出了一个新的 warmup strategy. 这个 strategy 在训练的初期使用低的学习率来克服优化困难

我们之后的实验说明了优化困难最主要的问题是 large minibatch 而不是 poor generalization ( 至少在 ImageNet 上是)，而且我们说明了 linear scaling rule 和 warmup strategy 可以推广到更复杂的任务，比如 detection 和 instance segmentation.

虽然这个 strategy 很简单，但是它的应用需要比较好的理解，SGD里面很小的改变有时候会得到很难发现的错误的结果，之后我们会描述这些常见的陷阱和解决的细节,我们的策略还需要非平凡的通信算法

在工业界，我们可以释放模型训练大量数据的潜能，在学术界我们可以简化从单 GPU 到多 GPU 的迁移而不需要超参数搜索

2 Large Minibatch SGD:

首先回顾基本的随机梯度下降方法

w 是 weight , x 是有标签的训练数据 l（x，w）是计算的 loss ，通常 loss 是 classification loss （cross-entropy）和 regularization loss on w 的和

Minibatch SGD 在最近的文献中被简称为 SGD，它的更新函数如下：<

最低0.47元/天解锁文章

xxiaozr

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
论文：accurate ,large minibatch SGD：Training ImageNet in 1 Hour

Abstract:这篇论文发现，在 ImageNet dataset 上使用 large minibatch 会导致优化困难，但是当这个问题解决了，模型具有更好的泛化能力，并且没有精度上的损失为达到这个目的，我们提出了 hyper-parameter-free linear scaling rule，用来调整学习率，学习率是有关于 minibatch size 的一个函数，还提出了一个 warmu...
复制链接

扫一扫

专栏目录