视频目标跟踪新番 PROCONTEXT: EXPLORING PROGRESSIVE CONTEXT TRANSFORMER FOR TRACKING(阅读笔记)

文章介绍了一种新的视觉目标跟踪方法ProContEXT,它通过结合空间和时间上下文,利用Transformer技术改进跟踪性能。通过动态模板更新和上下文感知自注意力机制,ProContEXT在快速变化场景中表现出色,并在TrackingNet和GOT-10k等数据集上达到最先进的性能。
摘要由CSDN通过智能技术生成
原文:https://arxiv.org//pdf/2210.15511v4

Abatract

        现有的视觉目标跟踪(VOT)方法仅以第一帧的目标区域为模板。这导致跟踪在快速变化和拥挤的场景中不可避免地失败,因为它无法解释帧之间物体外观的变化。为此,作者使用渐进式上下文编码Transformer跟踪器对跟踪框架进行了改进(ProContEXT),它连贯地利用空间和时间背景来预测物体的运动轨迹。具体地说,ProContEXT利用上下文感知的自关注模块对空间和时间上下文进行编码,精炼和更新多尺度静态和动态模板,逐步执行准确的跟踪。它探索了空间和时间背景之间的互补性,为基于Transformer的跟踪器的多背景建模提供了新的途径。此外,ProContEXT修改了令牌修剪技术以降低计算复杂度。在流行的基准数据集(如GOT-10k和TrackingNet)上进行的大量实验表明,所提出的ProContEXT实现了最先进的性能。

1.Introduction

        视频目标跟踪(VOT)在多个领域有应用,但是由于形变、遮挡、快速变化和拥挤的场景、相似等问题,跟踪器必须动态学习目标形状变化信息,这是一个挑战。

        作者提出一个直观地方法以应对这些挑战,考虑时间和空间上下文在视觉目标跟踪中的重要作用。

        与上下文无关的跟踪方法,例如基于暹罗的跟踪器(例如SiamFC )SiamRPN和SiamRPN++)和基于Transformer的方法(例如TransT和OSTrack),由于缺乏上下文信息,它们的性能在快速变化的场景中受到影响。为了解决这个问题,空间上下文学习管道(例如TLD)被提出、发展。此外,动态模板更新已被用于各种视觉任务(包括感知、分割、跟踪和密度估计),用于空间上下文建模。然而,对跟踪任务的时间和空间上下文的全面研究仍有待实现。

        为了解决这些问题,作者提出了一种新的视觉目标跟踪方法——渐进式上下文编码Transformer追踪(ProContEXT)。ProContEXT通过一个由静态模板和动态模板组成的模板组对时间和空间上下文进行编码,提供全面和渐进的上下文表示。该模型利用上下文感知的自注意模块来学习丰富且鲁棒的特征表示,同时一个跟踪头用于更新动态模板和生成跟踪框。此外,作者采用令牌修剪(Token Pruning入门:面向Transformer的学习性Token剪枝压缩法 - 知乎 (zhihu.com))技术在不影响性能的情况下提高计算效率。这篇文章的贡献如下:

  1. ProContEXT是第一个在基于Transformer的跟踪中利用动态时间和变化空间的渐进式上下文编码的工作。它在经典上下文跟踪和无上下文跟踪之间建立了一座桥梁,并研究了如何在实时跟踪中对上下文进行编码。
  2. ProContEXT修改了ViT主干,增加了更多的静态和动态模板,并改进了上下文感知的自关注,以利用多时间和多空间的信息。通过渐进式模板优化和更新,它改变了令牌修剪,从而无缝地将上下文编码带入基于Transformer的跟踪中。
  3. ProContEXT在包括TrackingNet[20]和GOT10k[21]在内的大规模跟踪基准测试中实现了SOTA性能。尽管扩展了长期时间和多尺度空间信息,但ProContEXT可以以54.3 FPS的速度实时执行上下文编码和跟踪。

2.METHODOLOGY

2.1 Network Architecture|网络结构

        与大多数工作在第一帧只使用静态模板不同,ProContEXT旨在利用多时间和多空间的模板来编码更多的上下文信息。

静态与动态模板:对于给定的视频帧{I1、I2、、、},按照不同的尺度K={k1、k2、、}进行裁剪,得到不同的静态模板S={s1、s2、、、}。同样的方式可以得到动态模板D={d1、d2、、、}用于对跟踪过程中的物体外观变化进行编码。按照标准设置(?),假设目标物体出现在最后一个已知位置的相邻区域,我们还裁剪前一帧框中心的区域以获得搜索区域X。总之,作者用多时间、多空间的细节扩展了动态模板。

上下文敏感的Self-Attention:基于扩展的动态模板,作者修改了ViT用于表示学习。

        首先,将所有模板S∪D和搜索区域X输入到一个缩放模块中进行大小调整。然后,将每个调整大小的patch裁剪为不重叠的16 × 16图像patch,将其平展为1D,通过patch嵌入层后添加位置嵌入。 最后,我们将S、D和X编码为静态token Zs={Z1 s;……;Z m s},动态token Zd={Z1 d;……; zm d},和搜索令牌Zx=Zx。然后,将所有token连接为[Zs;Zd;Zx]并连贯地输入到自注意模块中。

        在自注意模块中进行以下计算:

        我们可以看到Q、K相乘得到的矩阵中既包含了模板自身的表示,也展示了模板与搜索区域之间的交互。如Qx KxT专注于搜索区域的区域内表示,而QsKsT和QdKdT分别在静态模板和动态模板中融合了空间上下文中。矩阵中非对角线项,如QsKxT 和QdKxT ,解释了模板和搜索区域之间的交互。QxKsT和QxKdT将时间上下文聚合到搜索区域,而QsKdT 和QdKsT表示跨模板交互。通过利用12个堆叠的注意力层,ProContEXT逐步提取contextaware特性。

跟踪头:跟踪头由得分头、偏移头和尺寸头组成。

        经过表征学习之后,只有搜索区域的tokens会被送入跟踪头,并且重塑为2D特征(这是为了将一维token转换到空间域中执行与其他卷积网络相同的跟踪过程)。具体来说,得分头首先得到一个大致位置和一张得分图。然后,偏移头和尺寸头分别在生成的分数图上细化位置和框大小的偏移量。

令牌修剪:作者修改了以前的工作中的令牌修剪技术来加速ProContEXT。修剪的目的是通过忽略噪声背景patch的搜索token来减少计算成本。虽然OSTrack也有早期候选消除模块删除背景patch(通过计算每个patch与模板中心patch相似度决定是否将某个patch视为背景并删除以减少计算),但是OSTrack仅仅使用第一帧的静态模板,而本文作者使用静态加动态模板。这样做的好处是即使物体外观发生较大变化,前景token也可以与动态模板保持较高的相似度。

        此外,目标对象通常位于模板的中心点。如果中心点与搜索token之间的相似性较低,则可以确定搜索token作为背景。搜索token与模板的相似度得分ω的计算公式为:ω=

 其中Nx是搜索token的数量,φ()是与模板中心token绑定的注意力矩阵的总和。最后,只保留ω的前k个元素的搜索标记。修剪的token被替换为零填充,然后馈送到跟踪头。

2.2 Training and Inference Settings|训练与推理设置

训练设置: 受前人的启发,训练过程是一个渐进的优化过程。首先,分数头预测目标对象的大致位置和分数,其中高斯核生成监督为

式中(px, py)为中心点坐标,σp为定义对象大小的标准差。在高斯核的监督下,分数头以焦点损失为优化参数 其中,G´xy∈[0,1] Wx×Hx为分数图,(Wx, Hx)为搜索区域的特征大小,根据先前的工作,作者将α = 2和β = 4。在得到分数头的最大响应后,最终的预测框可计算为

其中 (δx,δy)为距偏移头的偏移量,( w, h)是( x, y)处的的尺寸头的box尺寸。由式4得到的边界框用IoU损耗和L1损耗。最后,总损失记为

其中λiou = 2, λl1 = 5为损失权值,如参考文献[17]所示。更多细节见论文3.2节。

推理细节:与MixFormer和STARK使用额外的分支来更新模板不同,我们在推理中重用得分头。我们将得分头的最大response作为置信度得分,score = max(Gˆxy)。

上图描述了如何在推理中更新模板。初始化静态和动态模板(第5行)之后,使用置信度和位置来假设是否更新动态模板(第8-9行)。假设置信度分数高于阈值τ(第10行),则认为当前跟踪结果bpred是可靠的,并用于逐步更新多尺度动态模板(第11行)。

EXPERIMENTS

实验部分详情请看原文。

CONCLUSION

提出了渐进式上下文编码转换跟踪器(ProContEXT)来改进视觉对象跟踪框架。ProContEXT利用上下文自关注模块对空间和时间上下文进行编码,逐步细化和更新多尺度静态和动态模板,实现精确跟踪。在未来,我们计划探索更有效的上下文学习策略和令牌修剪方案,以减少复杂上下文的影响。

回答: 本文探索了将普通的Vision Transformer (ViT)作为目标检测的骨干网络。通过对ViT架构进行微调,而无需重新设计分层骨干进行预训练,我们的普通骨干检测器可以取得竞争性的结果。研究发现,只需从单尺度特征图构建简单的特征金字塔(无需常见的FPN设计),并使用窗口注意(无需移动)辅助少量的跨窗口传播块即可。通过使用预先训练的纯ViT主干作为Masked Autoencoders (MAE),我们的检测器ViTDet可以与之前基于分层骨干的领先方法竞争,在COCO数据集上达到61.3 APbox的性能。我们希望这项研究能够引起对普通骨干检测器的关注。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection](https://blog.csdn.net/qq_37662375/article/details/126675811)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [ViTDet:Exploring Plain Vision Transformer Backbonesfor Object Detection(arXiv 2022)](https://blog.csdn.net/qq_54828577/article/details/127262932)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值