EffecientDet论文学习2

最新推荐文章于 2023-11-07 07:00:00 发布

Hello Python

最新推荐文章于 2023-11-07 07:00:00 发布

阅读量319

点赞数

分类专栏：深度学习文章标签：计算机视觉网络深度学习

本文链接：https://blog.csdn.net/weixin_46248767/article/details/109574706

版权

深度学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

EffecientDet论文学习2--模型缩放

前言
1、模型缩放因由以及发展方向
2、缩放维度解析
3、efficientDet的Compound Scaling
4.论文模型参数比较以及模型结果

前言

论文地址：EfficientDet: Scalable and Efficient Object Detection
在如今计算机视觉研究历程中，模型的效率变得愈发的重要。那么如何提高模型的效率成为了现在研究的热门。例如有一些网络是用One-stage和无锚检测器，亦或者是压缩现有的模型。那这些模型虽然在一定程度上提高了效率，却同时会失去掉一定的准确性。EfficientDet 研究就是在有限的计算资源下，提高效率的同时构建出更高准确率的目标检测模型架构。
作者研究主要基于两个方向，也是论文的创新之处：
1.高效的多尺度特征融合—bifpn（双向金字塔）
2.模型的缩放—Compound Scaling

1、模型缩放因由以及发展方向

为什么进行模型缩放？

在卷积网络研究发展历程中，以提高效率与准确率为目标，发现增大ConvNets能够很好的实现，故需要进行模型的缩放。

那么如何去缩放这些模型，通常有三个方向：
在这里插入图片描述
如上图，分别是缩放模型的宽度（channels）、深度（layers）、分辨率（H,W）来增强网络模型。

针对不同的资源约束，有许多方法可以缩放ConvNet: ResNet可以通过调整网络深度(#layers)来缩小(例如，ResNet-18)或放大(例如，ResNet-200)，而WideResNet可以通过网络宽度(#channel)进行缩放。人们也认识到，较大的输入图像大小将有助于准确性与更多的FLOPS开销。研究表明，网络的深度和宽度对ConvNet的表达能力都很重要，如何有效地缩放ConvNet以获得更好的效率和准确性仍然是一个有待解决的问题。我们的工作系统地研究了网络宽度、深度和分辨率三个维度的ConvNet缩放。

2、缩放维度解析

在这里插入图片描述
通过不同的宽度（w），深度（d）和分辨率（r）系数放大一个Baseline模型。更大的网络有更大的宽度，深度，或分辨率趋向于达到更高的准确率，但是准确率在达到80%之后很快趋于饱和，证明了单独缩放一个维度的局限性。

深度(d)：

缩放网络的深度是许多ConvNets=最常用的方法。直观的感觉是越深的ConvNets能捕捉越丰富越复杂的特征，并且在新任务上泛化的很好。然而，由于梯度消失问题。导致越深的网络也越难训练。尽管几个方法比如跳跃连接和BN，能够缓解这个训练问题，但在非常深的网络里没有得到准确率的提高：例如，ResNet-1000尽管有更多的层，但和ResNet-101准确率相似。上图（中间）展示了我们的经验研究结果，用不同的系数d来缩放一个baseline模型的深度，进一步证明了对于非常深的ConvNets准确率会衰减。

宽度(w)：

缩放网络的宽度普遍用于小模型.更宽的网络能够捕捉更多的细粒度特征并且更容易训练。然而特别宽但很浅的网络很难捕捉到高水平的特征。论文中的经验结果在上图左边可以看出，当网络变得越来越宽，那么准确率很快饱和了。

分辨率( r )：

随着输入图像的分辨率越高，ConvNets能够潜在的捕捉更细粒度的图案。从早期的ConvNets的224x224开始，现代ConvNets倾向于使用299x299 或331x331的分辨率来得到更好的准确率。GPipe 达到了ImageNet准确率的最高水平使用480x480的分辨率。更高的分辨率，比如600x600，也被广泛的在目标检测的ConvNets中使用。上图右边展示了缩放网络分辨率的结果，的确更高的分辨率提高了准确率，但是准确率的增加在非常高的分辨率（r=1.0表示分辨率为224x224并且r=2.5表示分辨率是560x560）时会下降。

3、efficientDet的Compound Scaling

作者提出一种复合的缩放方法，区别于Resnet系列中，只是缩放Backbone网络，EfficientDet对Bifpn和类、边界框预测网络都进行了复合缩放。基于EfficientNet提出来的点，需要对整个模型的宽度、深度以及分辨率都进行缩放。
多维度的缩放会产生一个新的问题，这些维度的缩放是自由的缩放，还是说他们之间是有相关性的呢。efficientNet给出了解释，三个维度的缩放之间需要配合，且需要平衡三维之间的大小关系。

最终对于backbone网络efficientnet网络经过试验验证，大致固定了一个三维公式：

在这里插入图片描述
对于bifpn网络模块，给出的缩放公式：

由于分辨率在特征层3-7中需要用到，所以输入的分辨率需要是128的整数倍。故使用线性方程。

Box/class prediction network，宽度与BiFPN一样，仅对深度进行缩放。具体如下：
在这里插入图片描述

4.论文模型参数比较以及模型结果

模型参数

在这里插入图片描述
模型结果比较

Hello Python

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
EffecientDet论文学习2

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档EffecientDet论文学习2前言前言论文地址：EfficientDet: Scalable and Efficient Object Detection在如今计算机视觉研究历程中，模型的效率变得愈发的重要。那么如何提高模型的效率成为了现在研究的热门。例如有一些网络是用One-stage和无锚检测器，亦或者是压缩现有的模型。那这些模型虽然在一定程度上提高了效率，却同时会失去掉一定的准确性。EfficientDet 研究就是在有限
复制链接

扫一扫