Bag of Tricks for Image Classiﬁcation with Convolutional Neural Networks论文笔记

weixin_45493537

已于 2022-11-16 14:57:07 修改

阅读量137

点赞数

文章标签：论文阅读深度学习人工智能

于 2022-11-16 14:33:05 首次发布

本文链接：https://blog.csdn.net/weixin_45493537/article/details/127878769

版权

本篇论文介绍了许多训练模型的技巧，并且通过使用多种训练技巧可以比较明显的提升模型准确率。

训练过程中有效操作：

Large-batch training

Large-batch training会导致收敛到最优解的速度变慢。论文说相同的epochs，小批次得到的模型要比大批次得到的模型验证精度要高，提出了四种方法解决此问题。
方法1：Linear scaling learning rate
作者以ResNet-50为例，比如initial learning rate=0.1，batchsize为256，那么如果选择更大的batchsize比如为1024，那initial learning rate也应该线性放大为0.1 * 1024/256
方法2：Learning rate warmup
使用warmup方法，让学习率开始从0增加大initial learning rate（论文设置的为5个data epochs）
方法3：Zero γ.
BN操作γˆx + β，γ 和 β是可学习的参数，一般我们初始化的时候，会将γ 和 β分别初始化为1或者0，Zero γ操作就是将残差块末尾的BN层γ 初始化为0，这样所有残差块都只返回它的输入（细细体会一下，好像有些道理），这样可以达到减少网络层数的目的，在初始阶段更容易训练。
方法4：No bias decay.（没用过，也没看懂）

Low-precision training

使用pytorch的应该都知道Automatic Mixed Precision（AMP），就是这个东西。具体就是使用FP16存储所有参数和激活值，并使用FP16计算梯度。同时，所有参数在FP32中都有一个副本用于参数更新。此外，将标量乘以损失以更好地将梯度的范围映射到FP16。损失缩放（Loss Scaling）
具体可以参考：https://blog.csdn.net/m0_61899108/article/details/122801824

论文中以ResNet50为例，介绍了模型调整，这里就不做介绍。

训练过程中的Tricks

Cosine Learning Rate Decay

η is the initial learning rate
在这里插入图片描述

论文中提到了三种学习率衰减策略，
第一种是step decay，就是每30个epoch，学习率以0.1的倍率衰减，比如上面的图所示，开始学习率为0.4，经过30个epoch后，学习率变为0.04，后面就按照这个倍率衰减。
第二种上面的图没有画出来，但是意思和第一种一样，就是每2个epoch，学习率按照0.94的倍率衰减，这样看起开更平滑一些。
第三种就是这里的余弦退火策略，就是通过跟随余弦函数将学习速率从初始值降低到0。上面是结合了warmup操作。

Label Smoothing

标签平滑，大家平时应该也有耳闻或者使用，我们平时在给某一个类别打标签是就是固定这个类别为1，onehot时，对应类别标签为1，其他类别为0，这样太绝对了，label smoothing操作就是给其他类别也分配一点点概率，可能这张图像也有些想其他的类别呢，挖掘图像的隐含语义，这里只是举个例子，如下公式。我们用的最多的就是给除了此类别以外的其他类别等分ε概率。
ε是一个很小的常数，默认0.1
在这里插入图片描述