简介
MOT传统的方法主要是遵循tracking-by-detection范式的,但是最近的方法中涌现出了一些tracking-by-regression范式,这种方法中,检测器不仅仅提供帧级的检测,更是将数据关联部分替换为每个轨迹到其变化位置的一个连续回归,这种方法隐式地实现了数据关联。在这篇文章里,作者提出了tracking-by-attention范式,不仅在数据关联中使用注意力机制,而且利用一个统一地方式执行检测和跟踪。
论文标题
TrackFormer: Multi-Object Tracking with Transformers
论文地址
http://arxiv.org/abs/2101.02702
论文源码
https://github.com/timmeinhardt/trackformer/
模型介绍
上图是Trackformer整体的流程图,首先当前帧图片被送入ResNet提取特征,feature map经过encoder进行self-attention之后,输出的特征被输入进decoder,decoder的输入还有object queries(白色框框)和track queries(带颜色的框),类似于detr,数量为N object + N track,object queries用于查询当前帧的目标,track queries为上一帧已成功跟踪的目标,它通过当前帧encoder输出的特征进行查询,得到一个output embedding,用于bbox回归和类别预测。
Track query成功查询到的目标(红色和绿色)会被赋予相同的id,未查询到的目标则表示在当前帧(蓝色),object queries检测成功(没有打叉的部分,打叉的为背景类)则被初始化为新目标(红色),接着,这些更新目标的output embedding被输入进下一帧的decoder作为track queries,一直自回归下去。
Transformer结构
值得注意的是,Track queries首先经过一个多头注意力进行预处理,再和object queries以及encoder的输出进行融合。
训练
实验
如图为Trackformer在MOT17和MOT20s上的实验结果。
总结
上面是我写的一些阅读笔记,还会继续更新,Trackformer也是比较早将transformer引入MOT的论文,结构和transtrack比较相似,虽然精度并不是很高,但是思路还是很不错的,框架也是比较简洁清晰。