End-to-End Object Detection with Transformers

文章信息

论文地址

原文
代码

主要贡献

1.本文摆脱了传统检测框架的固有思路,不需要生成anchor或候选框,也不需要NMS等后续处理方法,直接将目标检测问题看做集合预测问题,即模型直接生成许多类别信息和边界框的集合。

2.引入transformer结构,将图像问题转化为序列问题来处理。

方法

整体结构分析

在这里插入图片描述
整体结构如上图。文章的transformer结构和原文中保持一致,所以本文把transformer当做黑盒结构,没有介绍transformer的原理和实现细节。具体细节参考transformer原文

对于测试阶段,使用backbone对输入图像进行特征提取并拉平后得到特征向量,把图像特征向量输入transformer结构,transformer的输出即为边界框和类别信息的集合。

对于训练阶段,整体模型前向传播输出边界框和类别信息的集合,该集合和Ground Truth进行一一匹配,通过本文设计的损失函数,反向传播优化transformer结构和backbone的参数。由于模型各部分都是可导连接,梯度可以全程传播,所以模型可以End-to-End训练。

具体细节分析

在这里插入图片描述

1. transformer结构的输入

输入图像通过backbone之后,得到C×H×W的特征图,再经过一个1×1的卷积之后维度降为d。然后将d×H×W的特征图空间的维度(高和宽)拉平,可以理解为是一个长度为d的向量序列,把图像问题转为了序列问题,输入transformer结构。

2. 位置信息的加入

由于transformer结构本身是不考虑序列顺序的,所以需要加上位置信息。这里的位置信息并非通过模型训练得到,而是人为手工设定的。具体生成方法参考论文

3. transformer结构的输出

transformer的输出是N个向量的集合,每个向量中包含了类别和边界框的信息,在FFN中进一步处理。N是预先设定的一个数,N远大于图像中的物体个数。

4. FFN

FFN为前馈神经网络,可以理解为全连接。transformer结构输出的向量集合,通过FFN之后进一步输出为类别信息和边界框信息。

损失函数定义

损失函数用来度量模型输出的边界框信息和Ground Truth之间的差距,通过反向传播调整transformer和backbone

新类别填充

由于模型生成总共N个目标信息,远远大于Ground Truth中物体的数量,无法建立一一匹配,所以文章为图像新增了空类别,即不包含物体的前景类别,将Ground Truth中物体的数量也填充为N。

最优匹配

模型生成的总共N个目标信息和Ground Truth中N个物体之间的一一匹配,可以抽象为二部图匹配问题,借助匈牙利算法,可以找到最优的匹配。为了衡量最优,文中定义了用于匹配算法的损失,这个损失只是为了找到最佳匹配:

在这里插入图片描述
其中:Lmatch部分表达式为:

在这里插入图片描述

损失函数

获得N对最优匹配组合后,整体的损失函数可以定义为:
在这里插入图片描述
其中:
在这里插入图片描述
在这里插入图片描述

transformer结构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值