【目标检测】【BiFPN】EfficientDet：Scalable and Efficient Object Detection

量子-Alex

于 2025-02-21 21:44:03 发布

阅读量1.3k

点赞数 31

分类专栏：目标检测文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_44184852/article/details/145786177

版权

EfficientDet：可扩展且高效的目标检测
在这里插入图片描述

0.论文摘要

模型效率在计算机视觉中变得越来越重要。在本文中，我们系统地研究了用于目标检测的神经网络架构设计选择，并提出了几项关键优化以提高效率。首先，我们提出了一种加权双向特征金字塔网络（BiFPN），它可以轻松快速地进行多尺度特征融合；其次，我们提出了一种复合缩放方法，可以同时统一缩放所有骨干网络、特征网络以及框/类别预测网络的分辨率、深度和宽度。基于这些优化和EfficientNet骨干网络，我们开发了一个新的目标检测器系列，称为EfficientDet，它在广泛的资源限制范围内始终比现有技术实现更高的效率。特别是，在单模型和单尺度的情况下，我们的EfficientDet-D7在COCO test-dev数据集上以5200万参数和3250亿次浮点运算（FLOPs）实现了52.2 AP的最新水平，比之前的检测器小4到9倍，并且使用的FLOPs减少了13到42倍。

1.引言

近年来，目标检测的准确性取得了巨大进展；与此同时，最先进的目标检测器也变得越来越昂贵。例如，最新的基于AmoebaNet的NASFPN检测器[42]需要1.67亿个参数和3045亿次浮点运算（比RetinaNet[21]多30倍）才能达到最先进的精度。庞大的模型规模和昂贵的计算成本阻碍了它们在许多实际应用中的部署，例如机器人和自动驾驶汽车，这些应用对模型大小和延迟有严格的限制。鉴于这些实际资源限制，模型效率对于目标检测变得越来越重要。

以往有许多研究致力于开发更高效的检测器架构，例如单阶段检测器[24, 30, 31, 21]和无锚点检测器[18, 41, 37]，或对现有模型进行压缩[25, 26]。尽管这些方法往往能够提高效率，但它们通常会牺牲准确性。此外，大多数先前的研究仅关注特定或小范围的资源需求，而现实世界中的应用场景，从移动设备到数据中心，往往需要满足不同的资源限制。

一个自然的问题是：是否有可能构建一种在广泛资源约束范围内（例如，从3B到300B FLOPs）既具有更高准确性又具有更好效率的可扩展检测架构？本文旨在通过系统研究检测器架构的各种设计选择来解决这一问题。基于单阶段检测器范式，我们研究了主干网络、特征融合以及分类/框网络的设计选择，并识别出两个主要挑战：

挑战1：高效的多尺度特征融合——自[20]引入以来，FPN已被广泛用于多尺度特征融合。最近，PANet [23]、NAS-FPN [8]以及其他研究[17, 15, 39]开发了更多用于跨尺度特征融合的网络结构。在融合不同输入特征时，大多数先前的工作只是简单地将它们相加，而不加区分；然而，由于这些不同的输入特征具有不同的分辨率，我们观察到它们通常对融合输出特征的贡献不均。为了解决这个问题，我们提出了一种简单但高效的加权双向特征金字塔网络（BiFPN），它引入了可学习的权重来学习不同输入特征的重要性，同时反复应用自上而下和自下而上的多尺度特征融合。

挑战2：模型扩展——以往的研究主要依赖于更大的骨干网络[21, 32, 31, 8]或更大的输入图像尺寸[11, 42]来提高精度，但我们发现，在同时考虑精度和效率的情况下，扩展特征网络和框/分类预测网络同样至关重要。受近期研究[36]的启发，我们提出了一种用于目标检测器的复合扩展方法，该方法联合扩展了骨干网络、特征网络和框/分类预测网络的分辨率/深度/宽度。

最后，我们还观察到，最近提出的EfficientNets [36] 相比之前常用的骨干网络具有更高的效率。通过将EfficientNet骨干网络与我们提出的BiFPN和复合缩放方法相结合，我们开发了一个新的目标检测器系列，命名为EfficientDet。该系列在显著减少参数和FLOPs的情况下，始终能够实现比之前目标检测器更高的精度。图1和图4展示了在COCO数据集 [22] 上的性能对比。在相似的精度约束下，我们的EfficientDet比YOLOv3 [31] 少使用28倍的FLOPs，比RetinaNet [21] 少使用30倍的FLOPs，比最近基于ResNet的NAS-FPN [8] 少使用19倍的FLOPs。特别是，在单模型和单测试尺度下，我们的EfficientDet-D7以5200万参数和3250亿FLOPs实现了52.2 AP的顶尖性能，比之前最好的检测器 [42] 高出1.5 AP，同时模型规模缩小了4倍，FLOPs减少了13倍。此外，我们的EfficientDet在GPU/CPU上的速度比之前的检测器快3到8倍。

通过简单的修改，我们还展示了我们的单模型单尺度EfficientDet在Pascal VOC 2012语义分割任务中以18B FLOPs实现了81.74%的mIOU准确率，比DeepLabV3+ [4]高出1.7%的准确率，同时FLOPs减少了9.8倍。

2.相关工作

一阶段目标检测器

现有的目标检测器主要根据是否包含感兴趣区域提议步骤进行分类，分为两阶段检测器（如[9, 32, 3, 11]）和单阶段检测器（如[33, 24, 30, 21]）。虽然两阶段检测器通常更加灵活且准确，但单阶段检测器通过利用预定义的锚点[14]，通常被认为更简单且更高效。近年来，由于效率和简洁性，单阶段检测器吸引了大量关注[18, 39, 41]。在本文中，我们主要遵循单阶段检测器的设计，并展示了通过优化网络架构，可以实现更高的效率和更高的准确性。

多尺度特征表示

物体检测中的一个主要难点是如何有效地表示和处理多尺度特征。早期的检测器通常直接基于从骨干网络中提取的金字塔特征层次进行预测 [2, 24, 33]。作为开创性工作之一，特征金字塔网络（FPN）[20] 提出了一种自上而下的路径来结合多尺度特征。基于这一思想，PANet [23] 在 FPN 的基础上增加了一个额外的自下而上的路径聚合网络；STDL [40] 提出了一个尺度转移模块来利用跨尺度特征；M2det [39] 提出了一个 U 形模块来融合多尺度特征；G-FRNet [1] 引入了门控单元来控制特征间的信息流动。最近，NAS-FPN [8] 利用神经架构搜索自动设计特征网络拓扑。尽管它取得了更好的性能，但 NAS-FPN 在搜索过程中需要数千小时的 GPU 时间，且生成的特征网络不规则，难以解释。在本文中，我们旨在以更直观和原则性的方式优化多尺度特征融合。

模型缩放

为了获得更好的准确性，通常通过采用更大的骨干网络（例如，从移动端大小的模型 [35, 13] 和 ResNet [12]，到 ResNeXt [38] 和 AmoebaNet [29]）或增加输入图像尺寸（例如，从 512x512 [21] 到 1536x1536 [42]）来扩展基线检测器。最近的一些工作 [8, 42] 表明，增加通道大小和重复特征网络也可以提高准确性。这些扩展方法主要关注单一或有限的扩展维度。最近，[36] 通过联合扩展网络宽度、深度和分辨率，展示了图像分类中显著的模型效率。我们提出的目标检测复合扩展方法主要受到 [36] 的启发。

3.BiFPN

在本节中，我们首先阐述了多尺度特征融合问题，然后介绍了我们提出的BiFPN的主要思想：高效的跨尺度双向连接和加权特征融合。

3.1 问题表述

多尺度特征融合旨在聚合不同分辨率的特征。形式上，给定一个多尺度特征列表 $P^{in} = (P^{in}_{l_1} , P^{in}_{l_2} , ...)$ ，其中 $P^{in}_{l_i}$ 表示第 $l_i$ 层的特征，我们的目标是找到一个变换 $f$ ，能够有效地聚合不同的特征并输出一个新的特征列表： $P^{out} = f(P^{in})$