paperreading：《End-to-End Object Detection with Transformers》

最新推荐文章于 2023-06-23 00:07:24 发布

小苑同学

最新推荐文章于 2023-06-23 00:07:24 发布

阅读量283

点赞数

分类专栏：图像分割论文阅读笔记文章标签： python 计算机视觉神经网络

本文链接：https://blog.csdn.net/yuansiming0920/article/details/111089351

版权

图像分割论文阅读笔记专栏收录该内容

23 篇文章 3 订阅

订阅专栏

在这里插入图片描述
论文链接：https://arxiv.org/pdf/2005.12872.pdf.
ECCV 2020

1 Background

目标检测的目标是对每个感兴趣的目标去预测一组bounding boxes和类别标签。

现代检测器以一种间接的方式来解决集预测任务，通过在一些prosoals、anchors或者中心点上定义替代回归和分类问题。他们的性能很明显受到后处理步骤的影响，为了简化这些方法，本文作者直接提出了一个直接集合预测方法去绕过那些间接的任务。

这种end-to-end的方法在一些机器翻译或者语音识别等任务上实现了很好的性能，但是在目标检测上还没有。以前的尝试要不就是加了先验知识，要不就是没有强大说服力的benchmarks。本文的目的就是为了解决这个缺陷提出的。

本文通过将目标检测视为一个直接的集预测问题来简化训练pipeline。作者采用基于transformers的 encoder-decoder结构。transformers中的自注意力机制使这些架构特别适合于集预测的限制比如删除重复的预测。

2 Motivation

Transformers：（1）输出序列（2）Attention meshanisms，对输入序列两两之间的关系进行建模，目标检测模型需要这种建模能力，同来去除重复的bbox的预测，或者提高bbox的分类能力
Parallel decoding：(1)RNN一个接着一个输出序列元素（2）作者希望能够并行输出所有的序列元素

3 Related work

Set Prediction：目前还没有典型的深度学习模型来直接预测集合。基础的集合预测任务是baseline的多标签分类。这些任务的第一个困难就是避免近似重复。大多数现代检测器后处理操作比如非极大值抑制来解决这个问题，但是直接的集合预测是没有这些后处理的。它们需要多有预测的元素之间的模型交互来避免冗余的这种全局的推理方案。对于固定大小的集合预测，密集全链接网络是有效的但是花费高的。一个最常见的方法是去使用自动回归序列模型，例如循环神经网络。在所有的情况下，损失函数通过排列应该是不变的。
Transformers and Parallel Decoding：（1）transfprmers引入了自注意力机制层，类似于Non-local神经网络。基于注意力机制模型的一个主要的优点就是它们的全局计算能力和完美的记忆能力，这使得它们比RNNs更适合长序列。tranformers已经在神经语言处理、语音处理和计算机视觉的许多问题中都替代了RNNs。(2)transformers是第一个被使用的自回归模型。然而由于它花费比较高导致了并行序列生成的发展。本文作者结合transformers和平行编码以便在集合预测中的高消费和全局计算能力进行一个平衡。
Object detection:(1)Set-based loss:很多的目标检测斗使用 bipartite matching损失。然而，在早期的深度学习模型，仅使用卷积层和全连接层来进行建模并使用一个NMS的后处理来提高他们的性能。大多数最近的检测器使用不同的分配规则来进行gt和预测之间的配准，但是它们还是使用了NMS的后处理操作。
Recurrent detectors：与本文方法最近的就是对于目标检测和实例分割的end-to-end的集合预测。和本文相似的是，它们也使用基于CNN激活的encoder-decoder结构的bipartite-matching losses去直接产生一组bound ing boxes。但是这些方法仅仅在一些小数据集上进行了评估，没有和最近的baseline的方法进行对比。特别的它们是基于自动回归模型，因此它们没有使用最近带有平行解码结构的transformer。

4 Advantages/Contributions

和之前的方法相比，本文的DETR是结合了bipartite matching损失和 transformers with
parallel decoding。bipartite matching损失可以对gt和预测结果进行一一匹配，因此预测的损失可以不随着输出物体的顺序的改变而发生改变。
作者评估本文的方法在最受欢迎的目标检测数据集上-COCO数据集。
DETR达到了和Fast-RCNN相似的性能，并且在大物体上的性能更好（可能是由于transformers中的non-local计算影响得到的）。
DETR的训练设置和标准的目标检测器有很多不同之处

5 Method

在目标检测中，有两个要素对直接预测是至关重要的：（1）集合预测损失要求预测的bound ing boxes和gt之间一一对应。（2）预测一组目标并对他们的关系进行建模的一个框架。
在这里插入图片描述

5.1. Object detection set prediction loss

首先根据先验工作，通过匈牙利算法（Hungarian algorithm）找到一个使得 $L_{match}$ 最小的排列（或者说匹配）
在这里插入图片描述

$N$ 表使N个预测的固定大小的集合，它远远比图像上的物体数量大
$y$ 表示目标集合的GT
$\hat{y}i=\left \{ \hat{y}_{i} \right \}_{i=1}^{N}$ 表示 $N$ 个预测集合
$L_{match}(y_{i},\hat{y}_{\sigma (i)})$ 是介于GT- $y_{i}$ 和索引为 $\sigma (i)$ 的预测之间的损失
每个元素 $i$ 的GT集合可以表示为 $y_{i}=(c_{i},b_{i})$ ,其中 $c_{i}$ 表示目标类label，可以为空； $b_{i}\epsilon \left [ 0,1 \right ]^{4}$ 是一个向量，它表示GT中心点坐标、高、宽与图像大小的关系
对于下标索引为 $\sigma (i)$ 的预测为类别 $c_{i}$ 的概率为 $\hat{p}_{\sigma(i) }\left ( c_{i} \right )$ ,预测出的box记为 $\hat{b}_{\sigma (i)}$
本文中 $N$ 要远远大于 $y$ ，我们假设 $y$ 也是一个用 $\phi$ 填充的大小为 $N$ 的集合

匹配损失既考虑了类别预测，也考虑了预测的boxes和GT boxes之间的相似性。上述的这种一一匹配的原则和现代目标检测器中的anchor匹配GT或者匹配proposal的作用一样。

然后就是计算损失函数：
Hungarian loss：
在这里插入图片描述

$\hat{\sigma }$ 是第一步计算出来的最优分配；当 $c i = \emptyset$ 时，我们将对数概率项的权重降低了10，以解决类不平衡问题
Bounding box loss:
为了解决小box和大box不同尺寸的问题，损失函数使用L1 loss和IOU loss的线性组合
$\lambda _{iou}$ 和 $\lambda _{L_{1}}$ 分别是两个超参数

5.2. DETR architecture

overall DETR architecture：包含三个主要的部分：CNN主干网络来提取简洁的特征表示、一个 encoder-decoder transformer、一个来进行最终的目标检测预测简单的前馈神经网络（FFN）。
不像现在的目标检测器，DETR可以被实验在在任何一个包含CNN主干网络和transformer结构的深度学习网络框架中。
在这里插入图片描述

Backbone：
initial image $x_{img}\epsilon R^{3*H_{0}*W_{0}}$
CNN网络生成一些低分辨率激活图 $f\epsilon R^{C*H*W}$
通常C=2048， $H=\frac{H_{0}}{32}$ , $W=\frac{W_{0}}{32}$

-Transformer encoder:
在这里插入图片描述
CNN部分使用一个1*1的卷积把维度从C变成d。encoder需要输入一个序列，因此减小输入图的空间维度为一维变成 $d \times H W$ 特征图。

–Transformer decoder:
在这里插入图片描述

与以往的transformer不同，本文中平行的解码N的目标。
在这里插入图片描述
使用了self-和encoder-decoder attention，使得网络即可以获得整张图片的上下文信息，又可以用不同位置两两之间的关系推理出物体的类型和位置。

Prediction feed-forward networks (FFNs)：

最后的预测是用一个具有ReLU激活函数的三层感知器和隐藏维度d和一个线性投影层进行的。FFN预测了标准的中心点、box的高度和宽度，线性层使用softmax函数预测了类别标签。
Auxiliary decoding losses：decoder在训练期间通过使用辅助损失能够帮助网络输出每个类别正确的目标数量。并在每个decoder layer后边增加FFNs和Hungarian loss.所有的FFNs共享参数。使用一个共享的 layer-norm来 normalize来自于不同的decoder层的FFNs的输入。

6 Experiments

6.1 Comparison with Faster R-CNN

在这里插入图片描述

6.2 Ablations

在这里插入图片描述

6.3 DETR for panoptic segmentation

在这里插入图片描述

7 Conclusions

DETR，对于直接集合预测的基于transformers和bipartite损失的新的目标检测系统.
DETR易于实现，具有灵活的体系结构，可轻松扩展到全景分割，并具有具有竞争力的结果
DETR在大物体上的性能比快速的R-CNN要显著地好，这可能要归功于自注意对全局信息的处理
这种探测器的新设计也带来了新的挑战，特别是在小物体的训练、优化和性能方面

小苑同学

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
paperreading：《End-to-End Object Detection with Transformers》

论文链接：https://arxiv.org/pdf/2005.12872.pdf.ECCV 20201 Background目标检测的目标是对每个感兴趣的目标去预测一组bounding boxes和类别标签。现代检测器以一种间接的方式来解决集预测任务，通过在一些prosoals、anchors或者中心点上定义替代回归和分类问题。他们的性能很明显受到后处理步骤的影响，为了简化这些方法，本文作者直接提出了一个直接集合预测方法去绕过那些间接的任务。这种end-to-end的方法在一些机器翻译或者语音.
复制链接

扫一扫