让检测变简单-End-to-End Object Detection with Fully Convolutional Network

本文介绍了一种新的端到端目标检测方法,通过预测感知的一对一标签分配(POTO)和三维最大滤波(3DMF)模块,旨在消除NMS的需要。POTO动态分配前景样本,减少重复预测,3DMF通过多尺度局部抑制提升边界框特性。实验表明,结合辅助损失,该方法在COCO和CrowdHuman数据集上表现出与基于NMS的检测器相当的性能。
摘要由CSDN通过智能技术生成

CVPR 2021

论文链接:https://arxiv.org/abs/2012.03544

个人理解
论文思路:针对NMS,分析能否去掉NMS,提出 POTO 用于动态分配前景样本和 3DMF 提高卷积的可判别性
提出问题:could a fully convolutional network achieve competitive end-to-end object detection?
NMS is not necessary and could a fully convolutional network achieve competitive end-to-end object detection
方法:提出 POTO 高效匹配前景样本标签,3DMF 抑制重复预测框生成,以最终达到端到端的目的。
实验:消融实验说明每个模块的作用,不同网络架构、不同数据集的实验说明模型通用性、鲁棒性。
结果:POTO 规则下,重复样本的分数得到了明显抑制,虽然能够得到较为明确的边界框,但依旧存在多个预测相差不大的情况。 3DMF 模块进一步增强了边界框特性。


简介

在目标检测中,大多数主流探测器利用基于锚的标签分配和非最大抑制(NMS)等设计,这种方式并不是有效的端到端。最近,人们使用距离感知和基于分布的标签分配来消除预定义的锚集合,虽然取得了显著的进步和卓越的性能,但仍然存在去除NMS的后处理挑战,影响了端到端训练的性能。
最近,DETR引入了一种基于二部匹配的训练策略和带并行解码器的变压器,以实现端到端检测。与许多最先进的探测器相比,它的性能具有竞争力。然而,DETR目前面临的问题是训练时间要长得多,对小对象的性能也相对较低。与此同时,他提出了一个问题:could a fully convolutional network achieve competitive end-to-end object detection?
在这篇文章中,将通过两个维度来回答这个问题,标签分配和网络架构。如下图,为 NMS 的描述,大部分的全卷积检测器都使用了一对多的标签分配规则。而大量的前景样本导致单个实例的预测框重复,从而阻止了端到端检测。
在这里插入图片描述
作者发现,一对一的标签分配在消除重复检测中起着至关重要的作用。但由于真实框的预定义区域可能不是训练的最佳选择,因此会引起歧义问题并降低特征的可鉴别性。因此,提出了 POTO。
同时,对于基于FPN检测器,重复的预测结果主要来自邻近尺度上最可信预测的邻近区域。基于此,提出了 3DMF 作为可微模块嵌入FPN头。该模块通过在相邻尺度上使用一个简单的三维最大填充算子,提高了局部区域卷积的可分辨性。
此外,为了给特征表示学习提供足够的监督,作者加入了一对多的赋值作为辅助损失。

相关方法

  • 全卷积目标检测网络
  • 端到端的目标检测

方法

1、分析 label assignment

在 COCO 数据集下,基于 FCOS ,对比 one-to-many,one-to-one,mixture 三种方法。说明 one-to-many 在特征表示上的优势,以及 one-to-one 去掉NMS的潜在可能性。

在这里插入图片描述

1)One-to-many Label Assignment

One-to-many 中存在背景信息冗余,当去除 NMS 时,会造成性能下降28.4%(baseline)。该规则导致大量重复预测出现的高分数,从而降低了召回率,也很难得到端对端的竞争检测。

2)Hand-designed One-to-one Label Assignment

精准对应每个真实框样本,两种规则:Anchor Rule 和 Center Rule。
1)Anchor Rule 基于 RetinaNet ,每一个ground-truth实例仅仅分配给最大IOU的 anchor 。
2)Center Rule 基于 FCOS ,每个ground-truth实例只被分配给预定义特征层中最接近真实框中心的像素,其他像素和 anchor 作为背景样本。
其中,one-to-one 检测时是否有 NMS 间的差距不大,得到合理的性能,同时,由于避免了复杂背景下的错误抑制,导致召回率提高。

但这一方法任然存在问题:
1)one-to-one 中,有无使用 NMS 相比之下依旧存在性能差距。
2)由于没有对每个实例进行监督,一对一标签分配的性能仍然低于 FCOS 基线。

2、作者的方法

在这里插入图片描述

1) Prediction-aware One-to-one Label Assignment

在标配分配中,如果将次优预测分配为唯一的前景样本,则网络收敛的难度会显著增加,会导致更多的假阳性预测。因此,作者提出了基于预测感知的一对一(POTO)标签作为赋值,根据预测的质量动态分配样本。

Ψ \varPsi Ψ 表示所有预测的索引集, G G G 为真实框数量, N N N 为预测框数量, π ^ \hat{\pi} π^ 代表两者的对应排列,POTO 目的在于找到对于前景样本最合适的标签分配 π ^ \hat{\pi} π^

训练loss如下:
在这里插入图片描述

包括前景loss L f g L_{fg} Lfg 和背景loss L b g L_{bg} Lbg ,其中 R ( π ^ ) R(\hat{\pi}) R(π^) 代表前景样本分配的相应索引集合, c i c_i ci b i b_i bi 分别是第 i i i 个真实框的类别和真实坐标定位。 p ^ π ^ ( i ) \hat{p}_{\hat{\pi}(i)} p^π^(i) b ^ π ^ ( i ) \hat{b}_{\hat{\pi}(i)} b^π^(i) π ^ ( i ) \hat{\pi}(i) π^(i) 的预测类别和预测定位。

为了实现竞争端到端训练,坐着寻找最合适的 π ^ \hat{\pi} π^ ,如下:

在这里插入图片描述
以往的研究将其视为二部匹配问题,以前景 loss 为匹配代价。前景损失通常需要额外的权重来缓解优化问题(训练样本不平衡,多任务训练),会导致训练损失不是最优选择。

POTO 通过如下式子得到最优选择
在这里插入图片描述
Q i , π ( i ) Q_{i,\pi(i)} Qi,π(i) 代表 i i i 个真实框和预测框的匹配质量,考虑了空间先验知识、分类置信度和回归。
其中, Ω i \Omega_i Ωi 为真实框的候选预测集合,此时空间先验知识对去除 NMS 不是必要的,但对性能有一定提升。
为了获得样本平衡,我们用分类分数 p ^ π ^ ( i ) ( c i ) \hat{p}_{\hat{\pi}(i)}(c_i) p^π^(i)(ci) 的加权几何平均和回归值 I o U IoU IoU 来定义质量。 α \alpha α 是调节分类和回归分数之间的比例, α = 0.8 \alpha=0.8 α=0.8 时较为适合。

2)3D Max Filtering

作者提出 3DMF 以抑制重复预测。
在这里插入图片描述
对于基于 NMS 的 FCOS,将 NMS 应用到不同尺度(空间先验尺度?)会使性能下降,重复预测主要来自最自信预测的邻近空间区域。

个人认为是在检测过程中,使用 NMS 时,由于得到的质量分数相近,会有很多重复性预测而无法实现一对一的标签分配。因此需要抑制过多的相似预测框的生成,实现端到端。(有误请指出)

在此过程中存在的困难:基于 NMS 的检测器会得到密集的预测,这些结果通常具有相似的特征,因此很难实现一对一的标签分配。而 MAX 滤波器,可以用来补偿卷积在局部区域的判别能力,可以一定程度上去除重复性,但这种滤波器只考虑单尺度的特征,不适合广泛使用在基于 NMS 的检测器中。
因此,作者扩展最大滤波器到多尺度情况( 3DMF )。如下,在特征图的每个通道中分别采用3D Max滤波。
在这里插入图片描述
对于输入特征 x s x^s xs ,FPN 尺度为 s s s,首先采用双线性算子从相邻尺度 τ τ τ插值,得到与输入特征大小相同的特征。
在这里插入图片描述
对于一个在尺度 s s s 下的空间定位 i i i,最大价值 y i s y_i^s yis 在具有 τ τ τ 尺度和 φ × φ φ × φ φ×φ 空间距离的预先定义的三维邻近特征(tube)中得到。这些操作可以通过高效的 3D max-pooling 操作实现。
为了将 3D 最大池化层嵌入到现有的框架中,实现端到端训练,作者提出了下面这个模块,该模块利用最大滤波选择特征图区域中激活值最高的预测框,并增强其与其他预测的区别。3DMF 对粗密度预测进行细化,抑制重复预测,同时,由于所有的模块都是由简单可微算子构造的,计算开销很小。

在这里插入图片描述

3)Auxiliary Loss

在使用 NMS 时,POTO 和 3DMF 的性能依旧低于基线(表1),这种现象可能是由于一对一的标签分配提供了较少的监督,使得网络难以学习强而鲁棒的特征表示,从而降低了类别的区分度,导致性能下降,因此,作者提出了一个补充 loss。
这个 loss 是在可变的一对多标签分配的 Focal loss,一对多的预测选择了 TOP9 的预测结果作候选,然后将匹配质量超过统计阈值的候选作为前景样本分配。其统计阈值是由所有候选匹配质量的均值和标准差之和计算出来的。

实验

1、细节

  • 四卷积头
  • 在3DMF中,第一个卷积和第二个卷积的输出通道数分别为256和1
  • 经过ImageNet数据集上预训练
  • 训练前,对输入图像较短的一侧预处理为800像素

2、COCO上的消融实验

1)具象化显示如下

在这里插入图片描述
其中,一对多分配的 FCOS 基线输出大量重复预测,这些预测高度激活,与最自信的预测具有可比性。这些重复的预测被评估为假阳性样本,并极大地影响性能。使用提出的 POTO 规则,重复样本的分数得到了明显抑制,虽然能够得到较为明确的边界框,但依旧存在多个预测相差不大的情况。而 3DMF 模块进一步增强了边界框特性,尤其在可信度最高的预测区间内。在 3DMF 模块中引入了多尺度竞争机制,检测器可以很好地在不同的FPN尺度下突出可信度高的预测。

2)POTO

在这里插入图片描述
如上表,对于分配的空间范围,在COCO数据集上,中心采样策略相对优于内框采样策略和全局采样策略。这反映了图像的先验知识在现实场景中的重要性。
α \alpha α 控制着分类和回归的比例, α = 1 \alpha=1 α=1 时,与 NMS 的差距很大,可能由于最佳分类位置和最佳回归位置的错位, α = 0 \alpha=0 α=0 时,分配规则只依赖于分类的预测分数。在此条件下,与NMS的差距得到了很大的消除,但可能存在过拟合。而将分类质量和回归质量进行适当的融合,则性能有了提高。

不同融合方法也对性能有影响,如下表,乘法更加适合端到端的检测。
在这里插入图片描述

3)3DMF

如下表,仅仅使用 POTO 无法在端到端基础上达到较好的性能,而加入 3DMF 作为后处理后,有无使用 NMS 的差距就被缩小了。则说明,在端对端目标检测中,多尺度和局域范围抑制起到了关键作用。同时,附加 loss 提供了更多的监督。
在这里插入图片描述
如下表,空间范围 φ φ φ 和尺度范围 τ τ τ 对性能也有着影响。
φ = 3 , τ = 2 φ = 3, τ = 2 φ=3,τ=2 时,在COCO数据集上的性能最高。这说明重复预测主要来自于相邻尺度上的一个局部区域。
在这里插入图片描述
下图表示了作者方法的训练过程以及召回率的优越性。
在这里插入图片描述

4)更大的主干网络

在这里插入图片描述

5)CrowdHuman 上的性能

在此数据集中,人类的场景更加复杂和拥挤,这对传统的复制去除提出了严峻的挑战。作者提出的端到端检测器在拥挤的场景中更加稳健和灵活。
在这里插入图片描述

总结

此文提出了一种预测感知的一对一标签分配和三维最大滤波,以弥补全卷积网络和端到端目标检测之间的差距。加上辅助 loss 后,该框架在COCO和CrowdHuman数据集上与基于 NMS 的许多最先进的检测器相比取得了卓越的性能。在复杂和拥挤的场景中,也显示出了巨大的潜力,有利于许多其他实例级任务。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值