TrackFormer: Multi-Object Tracking with Transformers

我其实一直都在

已于 2022-05-30 14:59:53 修改

阅读量2k

点赞数 4

分类专栏：多目标跟踪文章标签：目标跟踪深度学习人工智能

于 2022-05-30 14:46:52 首次发布

本文链接：https://blog.csdn.net/weixin_46073768/article/details/125022462

版权

多目标跟踪专栏收录该内容

1 篇文章

订阅专栏

TrackFormer: Multi-Object Tracking with Transformers

在这里插入图片描述

简介

MOT传统的方法主要是遵循tracking-by-detection范式的，但是最近的方法中涌现出了一些tracking-by-regression范式，这种方法中，检测器不仅仅提供帧级的检测，更是将数据关联部分替换为每个轨迹到其变化位置的一个连续回归，这种方法隐式地实现了数据关联。在这篇文章里，作者提出了tracking-by-attention范式，不仅在数据关联中使用注意力机制，而且利用一个统一地方式执行检测和跟踪。

论文标题

TrackFormer: Multi-Object Tracking with Transformers

论文地址

http://arxiv.org/abs/2101.02702

论文源码

https://github.com/timmeinhardt/trackformer/

模型介绍

在这里插入图片描述

上图是Trackformer整体的流程图，首先当前帧图片被送入ResNet提取特征，feature map经过encoder进行self-attention之后，输出的特征被输入进decoder，decoder的输入还有object queries(白色框框）和track queries(带颜色的框)，类似于detr,数量为N_object + N_track，object queries用于查询当前帧的目标，track queries为上一帧已成功跟踪的目标，它通过当前帧encoder输出的特征进行查询，得到一个output embedding，用于bbox回归和类别预测。

Track query成功查询到的目标(红色和绿色）会被赋予相同的id，未查询到的目标则表示在当前帧(蓝色），object queries检测成功(没有打叉的部分，打叉的为背景类)则被初始化为新目标(红色）,接着，这些更新目标的output embedding被输入进下一帧的decoder作为track queries，一直自回归下去。