CVPR2022《Global Tracking Transformers》

论文:Zhou_Global_Tracking_Transformers_CVPR_2022_paper.pdf (thecvf.com)icon-default.png?t=N7T8https://openaccess.thecvf.com/content/CVPR2022/papers/Zhou_Global_Tracking_Transformers_CVPR_2022_paper.pdf

代码:GitHub - xingyizhou/GTR: Global Tracking Transformers, CVPR 2022icon-default.png?t=N7T8https://github.com/xingyizhou/GTR

一、摘要

        本文提出了一种新的基于Transformer的全局多目标跟踪体系架构。该网络以视频短序列作为输入,为所有对象生成全局轨迹;其核心组件是一个全局跟踪转换器,它对序列中所有帧中的对象进行操作。Transformer会对所有帧中的对象特征进行编码,并使用轨迹查询将它们分组到轨迹中。轨迹查询是来自单个帧的对象特征,会自然地产生唯一的轨迹。GTR (Global Tracking Transformers) 不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准上取得了具有良好的表现,在该数据集上GTR的表现为:MOTA:75.3,HOTA:59.1。更重要的是,GTR的框架直接集成到最先进的SOTA检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上,GTR的框架在基于成对关联的基线上持续改进,比已发表的算法的mAP要显著高出7.7个点。

二、Motivation

1、Tracking-by-detection的MOT范式

        该范式将跟踪分为检测和关联两个步骤:

  • 检测:通过目标检测器独立地在视频流的每一帧中发现所有的潜在对象。
  • 关联:通过时间关系和目标的外观特征将检测结果和轨迹关联起来。

 2、存在的问题

        在关联过程中,局部跟踪器主要以直接的方式考虑两两关联(pairwise associations)。它们根据位置和/或身份特征来维护每个轨迹的状态,根据上一帧的目标状态将当前帧的检测结果与其相应的轨迹关联匹配起来,以形成目标的轨迹。虽然这种成对的关联是有效的,但缺乏一个明确的轨迹模型作为一个整体,而且在严重闭塞或目标发生强烈的外观变化的情况下关联轨迹时会发生冲突。GTR在成对关联上运行基于图的离线组合优化,这可以解决分组不一致的检测,并且是系统更具鲁棒性,但速度较慢,并且通常与检测器分离。简单来说,局部跟踪器是逐帧关联目标和轨迹的,GTR是考虑了所有帧的信息来关联目标的轨迹的。

图1 局部跟踪器(上)与全局跟踪器(下)。本地跟踪器逐帧关联对象,可选择使用外部跟踪状态内存(图中未显示)。局跟踪器将一个短视频作为输入,并使用全局对象查询将所有帧中的对象关联起来。

三、创新点

  1. 提出了GTR的目标跟踪方法且端到端可训练            

    与之前的MOT范式不同,该方法会关注到目标的全局信息,并以此为依据生成目标的轨迹,避免了frame by frame检测会出现遮挡的问题,、;网络直接输出轨迹,从而避免了两两关联和基于图的优化;使用Roi feature作为query,使得query能以物体特征相关,而不局限于特定的位置。

  2. 证实了检测器可以通过Transformers层增强,变成联合检测器和跟踪器。
  3. 实现的新的SOTA

四、网络架构

1、网络结构

 

2 联合检测和跟踪框架概述。对象检测器首先独立地检测所有帧中的对象。对象特征被连接并馈送到GTR的编码器中。GTR将轨迹查询作为解码器输入,并生成每个查询和对象之间的关联分数。关联矩阵为每个查询链接对象。在测试期间,轨迹查询是最后一帧中的对象特征。GTR的结构如图3所示

 

图3 左图GTR详细的网络架构。右图Self-AttCross-Att的详细结构。为简单起见,我们在图中省略了多头。对于Self-Att,q = k = f。对于Cross-Att,q = q k = f。我们在括号中列出数据维度。×表示矩阵乘法(需要时进行转置)。 

2、实现细节

 (1)概述

        GTR对来自多个连续帧的检测进行编码,并使用轨迹查询将它们分组为轨迹。查询是在NMS后根据单个帧的目标的检测特征进行的,并由GTR转换为轨迹。每个轨迹查询通过使用softmax分布分配,使得每个帧的检测产生单个全局轨迹。因此,GTR的输出是检测结果及其在时间上的关联结果。

        GTR在一个时间窗口内对轨迹查询和目标特征做Cross-Att,并监督它为每一个检测结果生成匹配结果的过程(query-to-detection assignment),每一次的query-to-detections  assignment直接对应于一个全局轨迹。与将查询作为固定参数学习的基于Transformer的检测器不同,GTR的查询来自现有的检测特征并适应图像内容。 且在该算法中Transformer是对检测到的目标进行操作的而不是原始像素进行操作的,这使GTR能够充分利用发达的目标探测器。

(2)Other

  • 查询和编码器特征之间的Cross-Att结构挖掘了对象之间的相似性,更适合多目标跟踪中的关联目标。
  • 第一帧的检测结果全部初始化为初始轨迹
  • 损失函数构成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值