Feature Pyramid Networks for Object Detection （FPN-2017CVPR）主要内容翻译与理解

最新推荐文章于 2024-08-22 11:21:17 发布

001号

最新推荐文章于 2024-08-22 11:21:17 发布

阅读量3.4k

点赞数 2

分类专栏：计算机视觉文章标签： FPN Deep Learning multiscale

本文链接：https://blog.csdn.net/yepeng_xinxian/article/details/81744901

版权

本文介绍了特征金字塔网络（FPN）在深度学习物体检测中的重要性，解决不同尺度物体检测的挑战。FPN通过自顶向下结构与横向连接构建具有强语义特征的金字塔，提高检测精度，且能在单个输入尺度下快速构建。实验证明，FPN在COCO检测基准中达到最高单模型结果，超越现有记录。

摘要由CSDN通过智能技术生成

摘要

在检测不同尺度物体的识别系统中，特征金字塔是一个基本的组成成分。但是最近的深度学习物体检测器有着无效的金字塔表达，在某种程度上因为他们计算和内存紧张。在这篇文章中，我们利用深度卷积网络的金字塔形的层--内在的多尺度去几乎没有额外损失地构造特征金字塔。我们提出一个带有横向连接的自顶向下结构去建立所有尺度的高水平语义特征图。这个结构，称为FPN，作为一个通用的特征提取器在几个应用中有着显著的改善。在一个基本的Faster R-CNN系统中使用FPN，我们的方法毫无花里胡哨地在COCO检测基准中达到最高的单模型结果，胜过所有存在的单模型记录，包括COCO2016挑战赛的胜者。此外，我们的方法在一块GPU上可以跑到每秒6帧，因此在多尺度目标检测中是一个实用的和准确的方案。

1.介绍

在计算机视觉中，识别不同尺度的物体是一个根本的挑战。基于图像金字塔建立的特征金字塔（简而言之，我们称这些特征图像为金字塔）构成了标准解决方案的基础 [1] (Fig. 1(a))。这些金字塔具有尺度不变性，因为一个物体的尺度变化被金字塔的层变化所抵消。直观地，这个属性通过在空间位置和金字塔层上扫描模型，使模型可以在一个很大范围的尺度上检测物体。

在人工设计特征的时代，特征化的图像金字塔被广泛使用[5, 25]。他们如此重要以至于许多物体检测方法，像DPM [7]，需要密集的尺度取样去实现好的结果（例如，每octave10个尺度）。对于识别任务，设计的特征很大程度上已经被深度卷积网络（ConvNets）计算的特征所取代 [19, 20]。除了能够表示更高水平的语义，ConvNets对于尺度变化的鲁棒性也更强，因此有利于利用单个输入尺度提取的特征进行识别 [15, 11，29] (Fig. 1(b))。但是即使有了这种鲁棒性，金字塔仍然需要得到最精确的结果。在ImageNet [33] 和COCO [21] 的检测挑战中，所有最近的top记录都在特征化的图像金字塔上使用多尺度测试 (例如，[16, 35])。特征化的图像金字塔的每一层的主要优点是，它产生了一个多尺度的特征表示，其中所有的层都具有很强的语义，包括高分辨率层。

然而，特征化图像金字塔的每一层有着明显的限制。推理时间显著增加（例如，增加4倍 [11]）,使得这种方式在实际应用中不切实际。而且，就内存而言，在图像金字塔上端到端地训练深度神经网络是不可行的，因此，如果用的话，图像金字塔仅在测试时使用[15, 11，16，35]，这也造成了训练/测试时推理的不一致。基于这些原因，Fast 和Faster R-CNN[11, 29]选择在默认设置下不使用特征化的图像金字塔。

然而，图像金字塔不是计算多尺度特征表达的唯一方式。一个深度卷积网络逐层地计算一个特征层次结构，并且通过下采样层，特征层次结构有着一个固有的多尺度的、金字塔形的形状。这种网络内的特征层次结构产生不同空间分辨率的特征图，但是引入了由不同深度造成的巨大的语义差异。高分辨率图有着低层次的特征，这也损害了它们用于物体识别的表达能力。

Single Shot Detecter（SSD）是使用ConvNet的金字塔形的特征层级结构的首批尝试之一，就像这种结构是一个特征化图像·金字塔 (Fig. 1(c))一样。理论情况下，SSD形式的金字塔再次利用前向传播过程中计算出来的来自不同层的多尺度特征图，因此没有什么消耗。但是为了避免使用低层特征，SSD放弃重用已经计算的层