Bag of Tricks for Convolutional Neural Networks

最新推荐文章于 2024-04-23 23:10:13 发布

zhuiqiuk

最新推荐文章于 2024-04-23 23:10:13 发布

阅读量348

点赞数

分类专栏： deep learning-paper CNN-net-structure

deep learning-paper 同时被 2 个专栏收录

82 篇文章 2 订阅

订阅专栏

CNN-net-structure

31 篇文章 1 订阅

订阅专栏

https://zhuanlan.zhihu.com/p/51870052

刚刚看了Bag of Tricks for Image Classification with Convolutional Neural Networks，一篇干货满满的文章，同时也可以认为是GluonCV 0.3: 超越经典的说明书，通过这个说明书，我们也拥有了超越经典的工具箱。

我们都知道trick在CNNs中的重要性，但是很少有文章详细讲解他们使用的trick，更少有文章对比各个trick对最后效果影响，这篇文章把CNNs里几种重要的trick做了详细对比，可以认为是一篇在CNNs中使用trick的cookbook。

这篇文章虽然题目是“for Image Classification”，但是这里面提到的trick和结论，我认为也适用于其他计算机视觉任务，比如目标检测、语义分割、实例分割等等，特别地，我专门看了GluonCV里Yolov3的实现，里面有使用label smoothing和mixup。

这篇文章的trick有五个方面：model architecture, data augmentation, loss function, learning rate schedule，optimization。总结一句话就是，网络input stem和downsample模块、mixup、label smoothing、cosine learning rate decay、lr warmup、zero γ对网络影响都不小。

model architecture

这一部分主要讨论ResNet-50结构的一些微调，包括input stem和downsample module的细微改变。ResNet-50原始结构，和基于原始结构的一些微调如下图所示。

原始ResNet-50

ResNet-50网络结构的几个变体

结果对比如下：

网络结构微调的对比

可以看出，这些小修改对计算量的影响很小，但是对最后的accuracy提升效果不小。我在设计目标检测网络的时候，也有类似的结论。多说一句，ResNet-50-C这种修改，虽然对计算量影响不大，不过根据我的经验，对速度的影响应该会比较大。

data augmentation

mixup对模型提升较大，具体对比如下。

mixup对模型效果影响

data augmentation对模型效果影响蛮大的，不说mixup，单说resize的范围就能对模型效果有着不小的影响，有时候好好调调data augmentation里的参数，带来的效果提升比对网络结构的改进要还要大。数据和模型是一个硬币的两面，虽然改进数据没有改进模型听起来高大上，而且也更脏，但是我认为对数据的理解才是一个算法工程师的核心竞争力。

loss function

label smoothing对模型效果影响如下。

label smoothing对模型效果的影响

optimization

optimization涉及到lr warmup、zero γ、no bias decay、cosine decay。前三者对效果影响如下图所示，可以看出lr warmup和zero γ比较重要。

lr warmup、zero γ、no bias decay对模型效果的影响

cosine learning rate decay中对模型效果影响见下图，对比的是step learning rate decay。

cosine learning rate decay对模型效果影响

一个有意思的细节

文章对比了自己复现的baseline和reference模型效果，具体如下。可以看出复现的basline和reference在三个模型结构下各有优劣，差距在0.5%到1%之间。我最近在用Yolov2和Yolov3，也有类似的经历，各个深度学习框架之间本身会有一些细微的差别，自己实现的代码，也可能带来一些细微差别，这些差别可能都细小到我们注意不到，然而最后却能对模型效果带来一个点左右的影响。