paperreading:《End-to-End Object Detection with Transformers》

在这里插入图片描述
论文链接https://arxiv.org/pdf/2005.12872.pdf.
ECCV 2020

1 Background

目标检测的目标是对每个感兴趣的目标去预测一组bounding boxes和类别标签。

现代检测器以一种间接的方式来解决集预测任务,通过在一些prosoals、anchors或者中心点上定义替代回归和分类问题。他们的性能很明显受到后处理步骤的影响,为了简化这些方法,本文作者直接提出了一个直接集合预测方法去绕过那些间接的任务。

这种end-to-end的方法在一些机器翻译或者语音识别等任务上实现了很好的性能,但是在目标检测上还没有。以前的尝试要不就是加了先验知识,要不就是没有强大说服力的benchmarks。本文的目的就是为了解决这个缺陷提出的。

本文通过将目标检测视为一个直接的集预测问题来简化训练pipeline。作者采用基于transformers的 encoder-decoder结构。transformers中的自注意力机制使这些架构特别适合于集预测的限制比如删除重复的预测。

2 Motivation

  • Transformers:(1)输出序列(2)Attention meshanisms,对输入序列两两之间的关系进行建模,目标检测模型需要这种建模能力,同来去除重复的bbox的预测,或者提高bbox的分类能力
  • Parallel decoding:(1)RNN一个接着一个输出序列元素(2)作者希望能够并行输出所有的序列元素

3 Related work

  • Set Prediction:目前还没有典型的深度学习模型来直接预测集合。基础的集合预测任务是baseline的多标签分类。这些任务的第一个困难就是避免近似重复。大多数现代检测器后处理操作比如非极大值抑制来解决这个问题,但是直接的集合预测是没有这些后处理的。它们需要多有预测的元素之间的模型交互来避免冗余的这种全局的推理方案。对于固定大小的集合预测,密集全链接网络是有效的但是花费高的。一个最常见的方法是去使用自动回归序列模型,例如循环神经网络。在所有的情况下,损失函数通过排列应该是不变的。
  • Transformers and Parallel Decoding:(1)transfprmers引入了自注意力机制层,类似于Non-local神经网络。基于注意力机制模型的一个主要的优点就是它们的全局计算能力和完美的记忆能力,这使得它们比RNNs更适合长序列。tranformers已经在神经语言处理、语音处理和计算机视觉的许多问题中都替代了RNNs。(2)transformers是第一个被使用的自回归模型。然而由于它花费比较高导致了并行序列生成的发展。本文作者结合transformers和平行编码以便在集合预测中的高消费和全局计算能力进行一个平衡。
  • Object detection:(1)Set-based loss:很多的目标检测斗使用 bipartite matching损失。然而,在早期的深度学习模型,仅使用卷积层和全连接层来进行建模并使用一个NMS的后处理来提高他们的性能。大多数最近的检测器使用不同的分配规则来进行gt和预测之间的配准,但是它们还是使用了NMS的后处理操作。
  • Recurrent detectors:与本文方法最近的就是对于目标检测和实例分割的end-to-end的集合预测。和本文相似的是,它们也使用基于CNN激活的encoder-decoder结构的bipartite-matching losses去直接产生一组bound ing boxes。但是这些方法仅仅在一些小数据集上进行了评估,没有和最近的baseline的方法进行对比。特别的它们是基于自动回归模型,因此它们没有使用最近带有平行解码结构的transformer。

4 Advantages/Contributions

  • 和之前的方法相比,本文的DETR是结合 了bipartite matching损失和 transformers with
    parallel decoding。bipartite matching损失可以对gt和预测结果进行一一匹配,因此预测的损失可以不随着输出物体的顺序的改变而发生改变。
  • 作者评估本文的方法在最受欢迎的目标检测数据集上-COCO数据集。
  • DETR达到了和Fast-RCNN相似的性能,并且在大物体上的性能更好(可能是由于transformers中的non-local计算影响得到的)。
  • DETR的训练设置和标准的目标检测器有很多不同之处

5 Method

在目标检测中,有两个要素对直接预测是至关重要的:(1)集合预测损失要求预测的bound ing boxes和gt之间一一对应。(2)预测一组目标并对他们的关系进行建模的一个框架。
在这里插入图片描述

5.1. Object detection set prediction loss

首先根据先验工作,通过匈牙利算法(Hungarian algorithm)找到一个使得 L m a t c h L_{match} Lmatch最小的排列(或者说匹配)
在这里插入图片描述
在这里插入图片描述

  • N N N表使N个预测的固定大小的集合,它远远比图像上的物体数量大
  • y y y表示目标集合的GT
  • y ^ i = { y ^ i } i = 1 N \hat{y}i=\left \{ \hat{y}_{i} \right \}_{i=1}^{N} y^i={y^i}i=1N表示 N N N个预测集合
  • L m a t c h ( y i , y ^ σ ( i ) ) L_{match}(y_{i},\hat{y}_{\sigma (i)}) Lmatch(yi,y^σ(i))是介于GT- y i y_{i} yi和索引为 σ ( i ) \sigma (i) σ(i)的预测之间的损失
  • 每个元素 i i i的GT集合可以表示为 y i = ( c i , b i ) y_{i}=(c_{i},b_{i}) yi=(ci,bi),其中 c i c_{i} ci表示目标类label,可以为空; b i ϵ [ 0 , 1 ] 4 b_{i}\epsilon \left [ 0,1 \right ]^{4} biϵ[0,1]4是一个向量,它表示GT中心点坐标、高、宽与图像大小的关系
  • 对于下标索引为 σ ( i ) \sigma (i) σ(i)的预测为类别 c i c_{i} ci的概率为 p ^ σ ( i ) ( c i ) \hat{p}_{\sigma(i) }\left ( c_{i} \right ) p^σ(i)(ci),预测出的box记为 b ^ σ ( i ) \hat{b}_{\sigma (i)} b^σ(i)
    本文中 N N N要远远大于 y y y,我们假设 y y y也是一个用 ϕ \phi ϕ填充的大小为 N N N的集合
    在这里插入图片描述
    在这里插入图片描述
    匹配损失既考虑了类别预测,也考虑了预测的boxes和GT boxes之间的相似性。上述的这种一一匹配的原则和现代目标检测器中的anchor匹配GT或者匹配proposal的作用一样。

然后就是计算损失函数:
Hungarian loss:
在这里插入图片描述

  • σ ^ \hat{\sigma } σ^是第一步计算出来的最优分配;当 c i = ∅ c i =∅ ci=时,我们将对数概率项的权重降低了10,以解决类不平衡问题
    Bounding box loss:
    在这里插入图片描述
    在这里插入图片描述
  • 为了解决小box和大box不同尺寸的问题,损失函数使用L1 loss和IOU loss的线性组合
  • λ i o u \lambda _{iou} λiou λ L 1 \lambda _{L_{1}} λL1分别是两个超参数

5.2. DETR architecture

overall DETR architecture:包含三个主要的部分:CNN主干网络来提取简洁的特征表示、一个 encoder-decoder transformer、一个来进行最终的目标检测预测简单的前馈神经网络(FFN)。
不像现在的目标检测器,DETR可以被实验在在任何一个包含CNN主干网络和transformer结构的深度学习网络框架中。
在这里插入图片描述

  • Backbone
    在这里插入图片描述
  • initial image x i m g ϵ R 3 ∗ H 0 ∗ W 0 x_{img}\epsilon R^{3*H_{0}*W_{0}} ximgϵR3H0W0
  • CNN网络生成一些低分辨率激活图 f ϵ R C ∗ H ∗ W f\epsilon R^{C*H*W} fϵRCHW
    通常C=2048, H = H 0 32 H=\frac{H_{0}}{32} H=32H0, W = W 0 32 W=\frac{W_{0}}{32} W=32W0

-Transformer encoder:
在这里插入图片描述
CNN部分使用一个1*1的卷积把维度从C变成d。encoder需要输入一个序列,因此减小输入图的空间维度为一维变成 d × H W d×HW d×HW特征图。

Transformer decoder:
在这里插入图片描述

与以往的transformer不同,本文中平行的解码N的目标。
在这里插入图片描述
使用了self-和encoder-decoder attention,使得网络即可以获得整张图片的上下文信息,又可以用不同位置两两之间的关系推理出物体的类型和位置。

  • Prediction feed-forward networks (FFNs)
    在这里插入图片描述
    最后的预测是用一个具有ReLU激活函数的三层感知器和隐藏维度d和一个线性投影层进行的。FFN预测了标准的中心点、box的高度和宽度,线性层使用softmax函数预测了类别标签。
  • Auxiliary decoding losses:decoder在训练期间通过使用辅助损失能够帮助网络输出每个类别正确的目标数量。并在每个decoder layer后边增加FFNs和Hungarian loss.所有的FFNs共享参数。使用一个共享的 layer-norm来 normalize来自于不同的decoder层的FFNs的输入。

6 Experiments

6.1 Comparison with Faster R-CNN

在这里插入图片描述

6.2 Ablations

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.3 DETR for panoptic segmentation

在这里插入图片描述
在这里插入图片描述

7 Conclusions

  • DETR,对于直接集合预测的基于transformers和bipartite损失的新的目标检测系统.
  • DETR易于实现,具有灵活的体系结构,可轻松扩展到全景分割,并具有具有竞争力的结果
  • DETR在大物体上的性能比快速的R-CNN要显著地好,这可能要归功于自注意对全局信息的处理
  • 这种探测器的新设计也带来了新的挑战,特别是在小物体的训练、优化和性能方面
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
end-to-end object detection with transformers》是关于使用transformers进行端到端目标检测的一篇参考文献。目标检测是计算机视觉领域的一个重要任务,旨在从图像或视频中识别和定位出物体的位置与类别。传统的目标检测方法通常将这一任务分为两个步骤,即生成候选区域和对这些候选区域进行分类。然而,这种两步骤的方法存在一定的缺点,如效率低、需要手动选择参数等。 这篇参考文献中提出了一种端到端的目标检测方法,使用transformers模型来直接进行物体检测任务。transformers是一种基于自注意力机制的神经网络模型,在自然语言处理领域已经取得了很大的成功。借鉴transformers的思想,文中提出了一种新的目标检测方法,称为DETRDetection Transformer)。 DETR模型采用了一个编码器-解码器架构,其中编码器是一个transformers模型,用于对输入图像进行特征提取。解码器则是一种由全连接层和多层感知机组成的结构,用于预测目标的位置和类别。与传统的两步骤方法不同,DETR模型通过将目标检测转化为一个集合问题,并使用transformers模型进行集合元素之间的关联和特征提取。通过在训练过程中引入损失函数,模型可以学习到物体的位置和类别信息。 该文献通过在COCO数据集上进行实验证明了DETR模型的有效性,并与传统的目标检测方法进行了比较。实验结果表明,DETR模型在准确性和效率上都有显著的提升。此外,DETR模型还具有良好的扩展性,可以应用于不同大小和类型的目标检测任务。 综上所述,《end-to-end object detection with transformers》这篇参考文献介绍了一种基于transformers的端到端目标检测方法,并通过实验证明了其有效性和优越性。该方法的提出为目标检测领域的研究和应用带来了新的思路和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值