文章信息
论文地址
主要贡献
1.本文摆脱了传统检测框架的固有思路,不需要生成anchor或候选框,也不需要NMS等后续处理方法,直接将目标检测问题看做集合预测问题,即模型直接生成许多类别信息和边界框的集合。
2.引入transformer结构,将图像问题转化为序列问题来处理。
方法
整体结构分析
整体结构如上图。文章的transformer结构和原文中保持一致,所以本文把transformer当做黑盒结构,没有介绍transformer的原理和实现细节。具体细节参考transformer原文
对于测试阶段,使用backbone对输入图像进行特征提取并拉平后得到特征向量,把图像特征向量输入transformer结构,transformer的输出即为边界框和类别信息的集合。
对于训练阶段,整体模型前向传播输出边界框和类别信息的集合,该集合和Ground Truth进行一一匹配,通过本文设计的损失函数,反向传播优化transformer结构和backbone的参数。由于模型各部分都是可导连接,梯度可以全程传播,所以模型可以End-to-End训练。
具体细节分析
1. transformer结构的输入
输入图像通过backbone之后,得到C×H×W的特征图,再经过一个1×1的卷积之后维度降为d。然后将d×H×W的特征图空间的维度(高和宽)拉平,可以理解为是一个长度为d的向量序列,把图像问题转为了序列问题,输入transformer结构。
2. 位置信息的加入
由于transformer结构本身是不考虑序列顺序的,所以需要加上位置信息。这里的位置信息并非通过模型训练得到,而是人为手工设定的。具体生成方法参考论文
3. transformer结构的输出
transformer的输出是N个向量的集合,每个向量中包含了类别和边界框的信息,在FFN中进一步处理。N是预先设定的一个数,N远大于图像中的物体个数。
4. FFN
FFN为前馈神经网络,可以理解为全连接。transformer结构输出的向量集合,通过FFN之后进一步输出为类别信息和边界框信息。
损失函数定义
损失函数用来度量模型输出的边界框信息和Ground Truth之间的差距,通过反向传播调整transformer和backbone
新类别填充
由于模型生成总共N个目标信息,远远大于Ground Truth中物体的数量,无法建立一一匹配,所以文章为图像新增了空类别,即不包含物体的前景类别,将Ground Truth中物体的数量也填充为N。
最优匹配
模型生成的总共N个目标信息和Ground Truth中N个物体之间的一一匹配,可以抽象为二部图匹配问题,借助匈牙利算法,可以找到最优的匹配。为了衡量最优,文中定义了用于匹配算法的损失,这个损失只是为了找到最佳匹配:
其中:Lmatch部分表达式为:
损失函数
获得N对最优匹配组合后,整体的损失函数可以定义为:
其中:
transformer结构