CVPR2022《Unified Transformer Tracker for Object Tracking》

论文提出了一种名为UTT的统一Transformer跟踪器,它通过在一个模型中同时处理单目标跟踪(SOT)和多目标跟踪(MOT),利用目标特征与跟踪帧特征的相关性进行目标定位。UTT在SOT和MOT任务上表现出SOTA性能,并展示了通过交替优化两个任务的训练方法以提高效率。
摘要由CSDN通过智能技术生成

论文:[2203.15175] Unified Transformer Tracker for Object Tracking (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2203.15175

 一、摘要

        目标跟踪作为计算机视觉的一个重要领域,已经形成了两个独立的研究领域,分别是单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象不同,目现阶段,在一种跟踪场景下设计的算法不能够很好的适应另一种跟踪场景。虽然UniTrack证明了可以使用多头的共享外观模型来处理单个跟踪任务,但它不能使用大规模跟踪数据集训练,并且在SOT上表现不佳。本文就此提出了统一Transformer跟踪器(UTT),提供了一个范例解决不同场景下的跟踪问题。UTT通过了一种Track transformer来跟踪SOT和MOT中的目标,其中利用目标特征和跟踪帧特征之间的相关性来定位目标。最后证明了SOT和MOT任务都可以在该框架内解决,并且可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时端到端训练模型,并使用在SOT和MOT数据集上训练的统一模型在几个基准上进行了广泛的实验。

二、Motivation

1、SOT和MOT算法相互之间相互独立、不能迁移或适配

        因为两种任务的训练数据集和跟踪对象不同,目现阶段,在一种跟踪场景下设计的算法不能够很好的适应另一种跟踪场景。而且即便是能够解决这一问题的算法也不能够在大规模的数据集上训练。

2、成本与价值

        维护两个独立的跟踪系统既昂贵又低效,所以统一的跟踪系统可以根据需要方便地切换跟踪模式,在实际部署中变得越来越重要。

三、创新点

1、提出了UTT,能够同时解决SOT和MOT问题

2、提出了一种新的目标定位方式

        利用目标特征与跟踪帧特征之间的相关性,设计了一种新颖且有效的跟踪transformer架构来实现目标的定位,目标特征通过设计的transformer结构进行了高效的编码。

3、在SOT和MOT上都实现了与SOTA相当的性能。

四、实现细节

1、SOT vs. MOT

图1 UTT用于SOT和MOT任务。SOT中的目标框在第一帧中指定,而MOT参考来自帧中的所有目标框。本文用一个跟踪模型(UTT)来预测两个任务在跟踪帧中的目标定位

2、SOT与运用到MOT的难点 

        SOT通常通过裁剪参考图像中的目标和跟踪帧来提取目标表示(target representation )。但是当跟踪场景中指定多个目标时,裁剪每个目标和跟踪帧的效率会降低。

3、UTT概述

        对于参考帧中的跟踪对象,无论是在SOT中指定的还是在MOT中检测到的,UTT在之前定位的基础上,在跟踪帧中加入了一个小的特征映射建议。然后将目标特征与特征映射建议关联以更新目标表示并输出目标定位,这使UTT能够以相同的设计跟踪SOT和MOT中的对象。更新后的目标特征进一步与新的搜索特征建议相关联,新的搜索特征建议基于生成的目标定位进行裁剪,然后重复该过程,以改进对跟踪目标的定位。并且UTT可以选择使用每个任务中的数据集训练网络从而更好地利用两个任务中的训练样本。

图2 UTT框架。我们首先使用主干Φ提取帧特征。Track transformer有三个输入,包括参考帧和跟踪帧的帧特征,以及参考帧中的参考bbox。Track transformer的目标是预测目标在跟踪帧中的位置。首先利用轨道Transformer中的目标解码器提取目标特征,然后提议解码器(Proposal Decoder)在跟踪帧中产生候选搜索区域,最后将目标特征和搜索特征同时馈送到目标Transformer(Target Decoder)中,以预测目标的定位。

4、UTT特点

 (1)提取目标表示方面

        在高级特征图上提取目标表示,并通过裁剪特征图来缩小搜索区域,采用目标特征与搜索特征之间的关联注意(Corr-Att)来更新目标表示以进行跟踪,而不是使用Transformer中常见的Corss-Att。

 (2)目标特征聚合方式

        不同于之前的使用Cross-Att的方法,UTT将encoder和decoder集成到一个对象转换器(object transformer)中,然后在对象转换器中对多个目标特征进行Self-Att,再通过Corr-Att来聚合搜索特征完成对目标特征的更新。

(3)与原始\一般的Transformer架构的区别
  • 网络效率更高,计算复杂度更低

        在MOT中,之前的所有的Transformer都使用encoder-decoder架构来增强目标表示。这种架构将目标特征作为query,将整个跟踪帧的特征作为Cross-Att操作的key和value,具体来说是首先使用Self-Att的encoder来增强特征表示,然后再在decoder中使用Cross-Att,并将query替换为之前帧检测到的目标特征。但是当需要对多个指定对象进行跟踪且视频分辨率较高时,这种方法的效率会降低。在UTT中,从更高维的帧特征中裁剪出固定大小的搜索区域,来限制网络的搜索区域,从而大大降低了计算的复杂度,提高了网络的效率。

  • 使用Corr-Att代替Cross-Att,可以在各种场景下更有效地跟踪目标。

        UTT将encoder和decoder集成到一个transformer中,在多个目标特征上应用Self-Att,然后用Corr-Att来更新目标特征和搜索特征。

(4)损失函数 
  • MOT

  • SOT

5、如何实现MOT与SOT的统一?

 (1)统一的query和键值对表示

        UTT将SOT和MOT中的目标都表示为一组query,而场景特征则编码为一组键值对,这种统一的表示使得Transformer能够同时对单个或多个目标进行建模和跟踪。

(2)特征提议 & Corss-Att

        对于在SOT中指定或在MOT中检测到的参考帧的跟踪目标,UTT基于之前的定位得到跟踪帧中的小特征图proposal;然后将目标特征与特征图proposal相关联,以更新目标表示并输出目标定位;更新后的目标特征与新的搜索特征proposal进一步相关联,该proposal基于产生的目标定位进行裁剪。这中设计方法使得UTT能够以相同的网络架构跟踪SOT和MOT中的对象。

(3)跨帧注意力机制

        UTT在Transformer的encoder中引入了一种新的跨帧注意力机制。这种注意力机制允许query在不同视频帧之间流动,从而建立时空关联,捕获目标在时间上的一致性和运动信息。

(4)匹配注意力模块

        为了增强目标表征,作者设计了一种匹配注意力模块。它通过通过目标特征和跟踪帧特征之间的相关性来定位目标,充分挖掘了与目标相关的显著上下文特征,进一步丰富目标的表征。

(5)损失函数设计

        针对同的任务设计了不同的损失函数,能高效的训练网络。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值