TransTrack的阅读笔记+翻译

最新推荐文章于 2024-08-15 09:54:54 发布

小猪猪爱吃饭

最新推荐文章于 2024-08-15 09:54:54 发布

阅读量1.5k

点赞数 2

分类专栏：小猪猪的深度学习之路文章标签： python 计算机视觉目标跟踪

本文链接：https://blog.csdn.net/weixin_45639117/article/details/114694622

版权

TransTrack是一种使用Transformer架构的多目标跟踪（MOT）方法，它引入查询键机制来跟踪旧对象并检测新对象。通过学习的对象查询检测当前帧中的物体，而前一帧的对象特征则用于定位旧对象。TransTrack简化了传统MOT方法的复杂多步骤，实现了在线联合检测和跟踪。在MOT17数据集上，TransTrack取得了65.8％的MOTA，展示了基于查询键机制的有效性。

摘要由CSDN通过智能技术生成

TransTrack: Multiple-Object Tracking with Transformer

paper：https://arxiv.org/abs/2012.15460
code：https://github.com/PeizeSun/TransTrack
标志说明：红色的均为备注，蓝色为重点。

摘要

多目标跟踪（MOT）主要由复杂的多步检测跟踪算法控制，该算法分别执行对象检测，特征提取和时间关联。单对象跟踪（SOT）中的查询键（query-Key）机制通过前一帧的对象特征跟踪当前帧的对象，具有建立简单的联合检测和跟踪MOT范式的巨大潜力。但是，由于查询键方法无法检测到新出现的对象，因此很少进行研究。sot的孪生难以监测新出现的对象，这就导致为什么很少出现基于这个的研究。

在这项工作中，我们提出了TransTrack，它是使用Transformer进行MOT的基准。它利用查询键机制，并将一组学习到的对象查询引入pipline中，以检测新出现的对象。TransTrack具有三个主要优点：（1）它是基于query-key机制的在线联合检测跟踪pipline。简化了先前方法中的复杂步骤和多步骤组件。（2）它是基于Transformer的全新体系结构。学习的对象查询将检测当前帧中的对象。来自上一帧的对象特征查询将那些当前对象与先前的对象相关联。（##也就是说用上一帧的作为key，当前帧为query）（3）首次展示了一种基于查询键机制的简单有效的方法，而Transformer体系结构可以在MOT17挑战数据集上获得具有竞争力的65.8％MOTA。我们希望TransTrack可以为多对象跟踪提供新的视角。代码为https://github.com/PeizeSun/TransTrack.

简介

基于视频的场景理解和人类行为分析对于当前的计算机视觉系统高水平地了解世界是必不可少的。为了估计视频中感兴趣对象的轨迹，对象跟踪是一项重要任务，应用于许多实际实际应用中，例如视觉监视，公共安全，体育视频分析和人机交互。

根据被跟踪对象的数量，对象跟踪可以分为两个方向：单对象跟踪（SOT）和多对象跟踪（MOT）。近年来，由于深度孪生网络的出现[3，35，21，20]，SOT取得了长足的进步，在该网络中，以非常简单有效的方式捕获并训练了对象目标与图像区域之间的相关性。然而，由于多级管线[42、34、39]，如图1a所示，当前的MOT方法一直遭受模型复杂性和计算成本的困扰。对象检测和重新识别分别进行。它们不能互惠互利（即难以一个backbone实现这两个任务，相关讨论见https://zhuanlan.zhihu.com/p/39282286 ），不会给两个连续帧之间的无序对象对或每个帧中不完整的检测对象带来挑战。为了解决MOT中的这些问题，需要一个联合检测和跟踪框架。

回顾SOT，我们强调了孪生网络实际上是Query-Key机制，其中对象目标是查询，图像区域是关键字，如图1b所示。对于同一个对象，其在不同帧中的特征非常相似，这使查询键机制可以输出有序对象集。为了借鉴SOT的优点，一种直观的策略是在MOT中引入查询键机制，例如，将前一帧的对象特征作为查询，将当前帧的图像特征作为关键，如图1c所示。但是，仅将SOT中的原始查询关键字机制转移到MOT任务中会明显导致性能下降，尤其是FN度量。原因是当新对象进入当前帧时，其功能不在查询中，从而导致缺少新对象。因此，一个自然的问题是：是否有可能设计一个基于查询键机制以输出有序对象集的MOT框架？同时，检测新来的物体。
在本文中，我们提出了一个新的用于联合检测和跟踪的MOT框架，称为TransTrack，该框架利用查询键机制来跟踪当前帧中先前存在的对象并检测新来的对象。总体流程如图2所示。TransTrack建立在Transformer体系结构[36]上，Transformer体系结构是广泛使用的查询键机制实体。输入键是当前帧的特征图。输入查询既是前一帧中的对象特征，也是一组学习到的对象查询。学习的对象查询是一组参数，与网络中的所有其他参数一起训练。它用于检测当前帧中的新来的物体并输出检测框。（和detr一样）来自前一帧的对象特征是在前一帧的检测过程中生成的对象特征向量。它用于在当前帧和输出跟踪框中定位先前存在的对象。在检测盒和跟踪盒之间进行简单匹配后，将输出最终结果。（也就是说在训练的时候还要学习一个q向量，目的是用于检测，推理的时候先获取图片的特征，然后输入）

我们的方法简单，直接且易于实现。跟踪框和检测框都可以视为当前帧的对象检测。它允许我们同时训练这两个子网，而不是像按检测跟踪的方法那样分别优化检测和重新识别网络[42，34]。在具有挑战性的MOT数据集上[25]，TransTrack达到了65.8 MOTA，与最先进的框架具有可比的性能。我们的贡献如下：