End-to-End Object Detection with Transformers

最新推荐文章于 2023-06-23 00:07:24 发布

lowl

最新推荐文章于 2023-06-23 00:07:24 发布

阅读量526

点赞数

分类专栏：算法论文文章标签： python 深度学习计算机视觉算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48629412/article/details/109381982

版权

算法同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

文章信息

论文地址

主要贡献

1.本文摆脱了传统检测框架的固有思路，不需要生成anchor或候选框，也不需要NMS等后续处理方法，直接将目标检测问题看做集合预测问题，即模型直接生成许多类别信息和边界框的集合。

2.引入transformer结构，将图像问题转化为序列问题来处理。

方法

整体结构分析

在这里插入图片描述
整体结构如上图。文章的transformer结构和原文中保持一致，所以本文把transformer当做黑盒结构，没有介绍transformer的原理和实现细节。具体细节参考transformer原文

对于测试阶段，使用backbone对输入图像进行特征提取并拉平后得到特征向量，把图像特征向量输入transformer结构，transformer的输出即为边界框和类别信息的集合。

对于训练阶段，整体模型前向传播输出边界框和类别信息的集合，该集合和Ground Truth进行一一匹配，通过本文设计的损失函数，反向传播优化transformer结构和backbone的参数。由于模型各部分都是可导连接，梯度可以全程传播，所以模型可以End-to-End训练。

具体细节分析

在这里插入图片描述

1. transformer结构的输入

输入图像通过backbone之后，得到C×H×W的特征图，再经过一个1×1的卷积之后维度降为d。然后将d×H×W的特征图空间的维度（高和宽）拉平，可以理解为是一个长度为d的向量序列，把图像问题转为了序列问题，输入transformer结构。

2. 位置信息的加入

由于transformer结构本身是不考虑序列顺序的，所以需要加上位置信息。这里的位置信息并非通过模型训练得到，而是人为手工设定的。具体生成方法参考论文

3. transformer结构的输出

transformer的输出是N个向量的集合，每个向量中包含了类别和边界框的信息，在FFN中进一步处理。N是预先设定的一个数，N远大于图像中的物体个数。

4. FFN

FFN为前馈神经网络，可以理解为全连接。transformer结构输出的向量集合，通过FFN之后进一步输出为类别信息和边界框信息。

损失函数定义

损失函数用来度量模型输出的边界框信息和Ground Truth之间的差距，通过反向传播调整transformer和backbone

新类别填充

由于模型生成总共N个目标信息，远远大于Ground Truth中物体的数量，无法建立一一匹配，所以文章为图像新增了空类别，即不包含物体的前景类别，将Ground Truth中物体的数量也填充为N。

最优匹配

模型生成的总共N个目标信息和Ground Truth中N个物体之间的一一匹配，可以抽象为二部图匹配问题，借助匈牙利算法，可以找到最优的匹配。为了衡量最优，文中定义了用于匹配算法的损失，这个损失只是为了找到最佳匹配：

在这里插入图片描述
其中：Lmatch部分表达式为：

在这里插入图片描述

损失函数

获得N对最优匹配组合后，整体的损失函数可以定义为：
在这里插入图片描述
其中：

transformer结构

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
End-to-End Object Detection with Transformers

文章信息论文地址原文代码
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。