【ICCV2023】MOT论文阅读笔记:MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking

本文仅作个人学习使用
论文地址:MeMOTR
项目地址:MeMOTR
参考:[ICCV 2023] MeMOTR:长时记忆力增强的Transformer 多目标跟踪器 - 知乎 (zhihu.com)

📖论文概述


🌐背景

  • 大多数现有的 MOT 方法只利用相邻帧之间的对象特征,而缺乏对长期时间信息建模的能力。
  • 行人跟踪数据集(如 MOT17)的运动模式几乎是线性的,因此在目标关联方面没有足够的挑战。
  • 在一些复杂的场景中,如集体舞者和体育运动员,将目标联系起来成为一项关键挑战。这些相似的外观和不稳定的运动可能会导致现有方法失败。

📋目的

对于每一个目标的 track query 来说,其应该具有如下良好的特性:

  • 同一个 ID 所对应的 track query 随时间的变化应该尽可能平滑,因为对于视频中的目标来说,他们在帧与帧之间的变化往往是缓慢细微的、不易突变的。
  • 不同 ID 所对应的 track query 应该尽可能可区分,这样有利于在后续帧中对不同目标进行更好的定位,减少 ID 错误的情况。
    目的:更智能地利用时间信息,为跟踪器提供更有效和鲁棒的每个跟踪目标表示,从而缓解上述问题并提高跟踪性能。

💡创新点

  • leverage temporal information by proposing a long-term Memory-augmented Multi-Object Tracking method with TRansformer, coined as MeMOTR.

  • 将长时记忆(Long-Term Memory)注入到 track query 中,以获取更加稳定的特征表示。

  • 构建了 Memory-Attention Layer,利用 self-attention 使不同 ID 的目标之间进行响应,从而获取更加可区分的特征表示。

  • 将第一层 DETR Decoder 作为 detection only 模式,使其与来自上一帧的 track query 尽可能对齐,从而减少特征不对齐所产生的负面影响。

📚文献综述

Tracking-by-Detection
Tracking-by-Query 通常不需要额外的后处理来关联检测结果。而是应用跟踪查询来逐步解码被跟踪对象的位置。
然而,基于查询的方法通常利用相邻帧的信息。尽管跟踪查询可以随着时间的推移不断更新,但大多数方法仍然没有明确利用较长的时间信息。

🔍方法


在现有的 Transformer-based 多目标跟踪框架中,detect query 和 track query 被同时输入到 DETR Decoder 中,进行六层的连续解码,得到最终目标的 bounding box 和 classification。

DETR 中的 detect query 扮演了一个类似于可学习 anchor 的角色,它往往不具备丰富的语义信息;但是 track query 是来自于上一帧的 DETR Decoder 的输出,其具有用于表示该目标的丰富语义信息。因此从直觉上来说,将这两者同时输入到一个模块中,由于两者的语义信息无法对齐,因此很可能引起冲突,从而对网络带来负面影响。

🧬框架

在这里插入图片描述

Detection Decoder

将 DETR Decoder 划分成为两部分:
第一层命名为 Detection Decoder,只输入可学习的 detect query,输出包含了语义信息的 detect query,并且与来自上一帧的 track query 一同输入到后续五层的 Joint Decoder 中进行同步解码,以减少语义不对齐带来的影响。
为了加以区分,我们将没有携带语义信息的可学习目标检测 query 称为 detect query(记作 Q d e t Q_{det} Qdet),将经过第一层 Decoder 之后携带了语义信息的对应输出称为 detect embedding,记作 E d e t t E^t_{det} Edett,同时,将来自上一帧的 track query 称作 track embedding 以对齐,记作 E t c k t E^t_{tck} Etckt

Long-Term Memory

每当一个新目标产生的时候,我们利用它本身的特征向量创建一个对应的长时记忆向量 M t c k t M^t_{tck} Mtckt。由于目标会随着时间逐渐发生外观上的转变,因此我们需要不断更新这个长时记忆向量。我们认为目标在连续帧之间的改变往往是平滑的,因此我们采用了指数衰减移动平均数(running average with exponentially decaying weights)来更新这一向量,如下式所示:
M t c k t + 1 = ( 1 − λ ) M t c k t + λ ⋅ O t c k t M_{tck}^{t+1}=(1−λ) M_{tck}^t+λ⋅O_{tck}^t Mtckt+1=(1λ)Mtckt+λOtckt
在实现中, λ \lambda λ 设定在一个非常小的数值(0.01),这样可以保证相邻帧同一个目标的长时记忆向量只发生轻微的改变,从而确保其随着时间进行平滑稳定的更新而不易发生突变。

Temporal Interaction Module

在这里插入图片描述

Adaptive Aggregation for Temporal Enhancement

将当前帧与前一帧的输出向量动态结合,输出融合后的特征。这种利用相邻帧进行增强的方式在视频理解中较为常见,在 MOT 领域,例如 MOTR、TrackFormer 中都有类似的做法,它可以有效的增强对视频中物体的表示,并且获得更加鲁棒的特征。

Generate Track Embedding

由于同一帧中有多个相似的对象,学习更多的判别表征对跟踪器也至关重要。因此,采用一种称为记忆-注意层 (memoryattention layer)的多头注意力结构来实现不同轨迹之间的这种相互作用。并且对于每个目标经过 Memory-Attention Layer 之后输出的向量,我们通过简单的加法向其中注入对应目标的长时记忆向量。

📌结论


在 DanceTrack 上达到 SOTA,但在 MOT 17 上比不过传统的 Tracking-by-Detection 方法。
在这篇文章提出了一个使用长时记忆向量增强的 query-based 多目标跟踪器,将更长的时序信息注入到跟踪过程中,从而显著提升了多目标跟踪的性能。

  • 55
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值