DETR:End-to-End Object Detection with Transformers

最新推荐文章于 2023-06-23 00:07:24 发布

星辰阁

最新推荐文章于 2023-06-23 00:07:24 发布

阅读量371

点赞数

分类专栏：读文献文章标签：目标检测深度学习计算机视觉

原文链接：https://arxiv.org/pdf/2005.12872.pdf

版权

3 篇文章 0 订阅

订阅专栏

端到端目标检测

意义：目标检测里很少有端到端的学习方法，大都在最后加一个后处理操作，如nms（非极大值抑制）。不论是anchor base 、anchor free 、proposal base等，都会生成很多预测框，最后需要nms去除冗余框，模型在调参上非常复杂，而且部署困难，nms不是所有硬件都支持。

DETR既没有proposal也没有anchor，利用了Transformer对全局信息的处理能力，把目标检测看成一个集合预测的问题。

每个图片所对应的集合不一样，所要达到的目的是给定一张图片，把集合预测出来（本文设置的集合元素个数为超参数100）。DETR把之前依赖人先验知识的部分删除掉了，特别是nms和生成anchor的部分。

前人工作多是基于proposals、anchor 或者物体中心点（non-anchor）。在性能上很大受限于后处理操作（nms操作），主要是因为上述方法皆会产生大量冗余重复的框。
transformer的编解码结构通过全局特征解决了一个目标产生冗余框的问题。

请添加图片描述

图一可以简单概述训练过程为4步骤：

DETR模型最后的输出是一个固定大小的集合，N个输出（100个框），一般来说一张图片100个框足够了。

问题引出：100个框与ground truth的匹配问题？

解答：**最优二分图匹配问题，**如何分配一些工人干多个任务，abc就是工人，xyz就是任务，cost矩阵（可以是任意大小的矩阵）中的元素代表是某工人做某任务的消耗。最后能找到一个唯一解能够使得cost最小的分配方法。匈牙利算法是比较有名且高效的算法。

请添加图片描述
对于目标检测来说，cost矩阵当中的每一个元素其实就是ground truth与预测框之间的损失（分类损失和预测框损失之和）。

请添加图片描述

小细节：每个Decoder（共6个）后面加了一个auxiliary loss，额外的目标函数，是一个分割上非常常见的trick，检测也可以做。

请添加图片描述

请添加图片描述
注意：

训练策略对结果的影响还是蛮大的
GFLOPS和FPS没有直接关系
实验结果关注一下大物体的结果要远远好于FasterRCNN（分析是因为Transformer的编解码关注全局特征）

因为DETR在涨点方面并不是很能打，所以作者另辟蹊径尝试多做消融实验来证明方法的优点，同时还可视化了encoder和decoder的结果，充分说明模块的可用性。