TrackFormer: Multi-Object Tracking with Transformers

TrackFormer: Multi-Object Tracking with Transformers

​​
​​​​​​​​​​​​在这里插入图片描述

简介

MOT传统的方法主要是遵循tracking-by-detection范式的,但是最近的方法中涌现出了一些tracking-by-regression范式,这种方法中,检测器不仅仅提供帧级的检测,更是将数据关联部分替换为每个轨迹到其变化位置的一个连续回归,这种方法隐式地实现了数据关联。在这篇文章里,作者提出了tracking-by-attention范式,不仅在数据关联中使用注意力机制,而且利用一个统一地方式执行检测和跟踪。

论文标题

TrackFormer: Multi-Object Tracking with Transformers

论文地址

http://arxiv.org/abs/2101.02702

论文源码

https://github.com/timmeinhardt/trackformer/

模型介绍

在这里插入图片描述

上图是Trackformer整体的流程图,首先当前帧图片被送入ResNet提取特征,feature map经过encoder进行self-attention之后,输出的特征被输入进decoder,decoder的输入还有object queries(白色框框)和track queries(带颜色的框),类似于detr,数量为N object + N track,object queries用于查询当前帧的目标,track queries为上一帧已成功跟踪的目标,它通过当前帧encoder输出的特征进行查询,得到一个output embedding,用于bbox回归和类别预测。

Track query成功查询到的目标(红色和绿色)会被赋予相同的id,未查询到的目标则表示在当前帧(蓝色),object queries检测成功(没有打叉的部分,打叉的为背景类)则被初始化为新目标(红色),接着,这些更新目标的output embedding被输入进下一帧的decoder作为track queries,一直自回归下去。

​​​​

Transformer结构

在这里插入图片描述
值得注意的是,Track queries首先经过一个多头注意力进行预处理,再和object queries以及encoder的输出进行融合。

训练

实验

在这里插入图片描述

在这里插入图片描述
如图为Trackformer在MOT17和MOT20s上的实验结果。

总结

上面是我写的一些阅读笔记,还会继续更新,Trackformer也是比较早将transformer引入MOT的论文,结构和transtrack比较相似,虽然精度并不是很高,但是思路还是很不错的,框架也是比较简洁清晰。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值