论文笔记——EfficientNet Rethinking Model Scaling for Convolutional Neural Networks

在这里插入图片描述


论文下载:

https://arxiv.org/pdf/1905.11946.pdf

论文代码:

https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet


论文摘要:

该论文系统地研究了模型缩放,认为细致地平衡网络的深度、宽度和分辨率可以得到更好的性能。在此基础上,作者提出了一种新的尺度划分方法,即利用简单而高效的复合系数(compound coefficient)来均匀地划分深度、宽度、分辨率这三个维度并且作者证明,利用该复合系数划分的方扩展的MobileNets和ResNet得到有效的提升。作者更进一步,使用神经结构搜索来设计一个新的基准网络,将其扩展获得一系列模型,称为 EfficientNets。该EfficientNets在CIFAR-100上实现最先进的精度,却减少了一个数量级甚至更少的参数。


扩大ConvNets:

作者实验研究证明,平衡网络的宽度、深度和分辨率三个维度之间的平衡是非常重要的,最关键的是这种平衡可以通过一组固定的比例缩放系数(a set of fixed scaling coefficients)来实现

模型的各种扩展:

在这里插入图片描述

(a)是一个基准网络例子

(b)是只增加网络宽度的常规缩放

(c)是只增加网络深度的常规缩放

(d)是只增加输入图像分辨率的常规缩放

(e)是作者提出的以固定比例均匀缩放三个维度的复合缩放方法

直观上,这种复合尺度法是有意义的,如果输入图像更大,那么网络需要更多的层次来增加接受野(receptive field),需要更多的通道捕捉更细粒度(fine-grained)的方式。

并且作者也提到他们是第一批对网络宽度、深度和分辨率三个维度之间关系进行实验证明量化的人。


维度扩展过程(Compound Model Scaling):

在实践中,ConvNets的层常常被划分为多个阶段(stage),每个阶段的所有层都共享相同的架构,比如“ResNets’'分为5个阶段。除了第一层的下采样,每个阶段的其他层都具有相同的卷积类型

因此将常见的ConvNets定义为(N为分类网络,X为输入,Fi为基础网络层,i为stage,Li为Fi结构在第i个stage的重复数量):

在这里插入图片描述

作者限制了所有的层,必须要以恒定的比例均匀缩放。目标是在任意给定的资源约束下让模型的精度最大化。所以表述为一个优化问题,深度(d),宽度(w),分辨率(r)。

本文提出了一种新的复合标度方法,利用复合系数原则地均匀缩放网络的宽度、深度和分辨率。常规的卷积运算的FLOPS(浮点运算次数,用来衡量模型的计算复杂度)与d,w²,r²成正比,即加倍网络深度,FLOPS加两倍;加倍网络宽度或分辨率加倍,FLOPS加四倍。

所以在该文中,作者约束这三个变量,使得α·β²·γ²≈2,使得任何改变都让计算复杂度FLOPS增加2倍左右:
在这里插入图片描述

作者通过网络结构搜索设计了一个baseline网络,即EfficientNets-B0。网络结构比较简单,方便接下来复合模型扩展(compound model scaling)算法的效果展示:

在这里插入图片描述


单维度缩放结果:

将不同网络宽度(u)、深度(d)和分辨率®系数的基准模型进行缩放。网络越大,宽度、深度或分辨率越大,精度越高,但精度增益达到80%后很快饱和,说明了一维尺度(单维度)缩放的局限性:

在这里插入图片描述

针对不同的基线网络缩放网络宽度。线中的每个点表示一个宽度系数(u)不同的模型。第一个基线网络(d=1.0, r=1.0)有18个卷积层,分辨率为224x224,而最后一个基线(d=2.0, r=1.3)有36个层,分辨率为299x299。

可以看到,通过手动调节3个维度的模型扩展的参数就能有效提升模型的精度,说明多维度融合调节是有效的:

在这里插入图片描述


实验结果:

所有从作者的基准网络EfficientNet-B0 模型扩展使用不同的复合系数ф方程。将具有相似top-1/top-5精度的ConvNets组合在一起进行效率比较。与现有的ConvNets相比,作者的缩放效率网模型始终如一地将参数和延迟降低一个数量级(高达8.4倍参数减少和高达16倍延迟减少)

effecentnet在ImageNet上的性能结果:

在这里插入图片描述

作者将复合模型扩展算法应用到其他的分类模型中,数据表明依然有效,泛化效果较好:

在这里插入图片描述

模型大小与ImageNet精度。所有的数字都是针对单一作物,单一模式的。EfficientNets明显优于其他ConvNet:

在这里插入图片描述

模型参数与转移学习精度—所有模型都在ImageNet上预先训练,并在新数据集上微调:

在这里插入图片描述

使用不同缩放方法的模型的类激活映射(CAM):

在这里插入图片描述


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值