ECCV-2024:Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs—Walker:通过在时间外观图上行走进行自监督多目标跟踪
文章概括:
- 介绍了 Walker,第一个自监督多目标跟踪器,用于从稀疏注释的视频和无跟踪标签中学习外观
- 我们提出了一种新颖的视频级自监督公式,该公式通过时间对象外观图上的多重正向和互斥对比随机游走来学习实例相似性
- Walker 是第一个可与最先进的监督 MOT 竞争的自监督跟踪器,同时大大减少了注释要求。
背景知识补充
首先这篇ECCV2024最新的多目标跟踪论文的题目最重要的部分包括了两点1. 使用了自监督训练的方法。2.用到了之前自己没有了解过的时间外观图的信息。
-
自监督训练:
自监督学习
(Self-Supervised Learning,SSL)是一种无监督学习
的方法,它不需要外部标注的数据,而是利用数据本身的结构
信息来生成伪标签,从而训练模型。这种方法的核心思想是,数据的内在结构和模式可以作为学习信号,帮助模型学习到有用的特征表示。 -
Temporal Appearance Graphs(TAGs)是一种用于处理时间序列图数据的模型,它通过捕捉图结构随时间的变化来学习节点和边的动态特征。以下是关于Temporal Appearance Graphs的一些关键信息:
-
Temporal Graph(TG)是一个四元组GT = (V, E, VT, ET),其中V和E分别是在任何时间点可能出现在图中的所有节点和边的集合。VT和ET分别代表具有时间依赖特征和初始及最终时间戳的时序节点和时序边
-
VT包含形式为(v, xv, ts, te)的时序节点,其中v属于V,xv是节点的特征向量,ts和te分别是节点存在的起始和结束时间戳。
ET包含形式为(e, xe, ts, te)的时序边,其中e属于E,xe是边的特征向量,ts和te分别是边存在的起始和结束时间戳。
摘要概括
-
首先说明了现在最先进的多目标跟踪方法需要大量的注释工作,以便为所有视频的所有帧提供边界框,并提供实例 ID 以将它们随时间关联起来。(有监督的学习方法,大量的标注数据集MOT17 MOT20 BDD100K DanceTrack等)
-
提出了自己创建了一个全新的跟踪器walker它是:第一个从具有稀疏边界框注释的视频中学习的自监督跟踪器。并且没有跟踪标签。
-
之后介绍了自己所提出的全新的跟踪器的步骤:
首先
,设计了一个准密集时间对象外观图,并提出了一种新颖的多重正对比目标来优化图上的随机游走并学习实例相似性。 -
然后,我们引入一种算法来强制图中实例之间互斥的连接属性,从而优化 MOT 的学习拓扑。
-
在推理时,根据运动约束双向行走下的最大似然过渡状态将检测到的实例与轨迹相关联。
引言和相关工作概括
在引言的部分首先介绍了三种MOT数据集的形式,描述如下所示。
-
有监督的 MOT 需要密集的跟踪标签(顶部),即每个帧的密集检测注释和跨帧的实例标签(通过实例 ID 的着色框显示)。
-
自监督 Re-ID 假设密集检测标签且没有实例标签(中)。
-
在更实用的稀疏注释设置(底部)中探索自监督 MOT,每 k 帧有稀疏检测注释(此处 k = 3 用于说明目的)并且没有实例标签。 完全未标记的绿色框架。
监督学习会产生大量的标注的成本。
最常见的自监督 MOT 解决方案仅依赖于图像级自监督。 由于不利用视频流的特权时间信息,这些方法无法学习对视图变化具有鲁棒性的外观描述符,并且无法缩小与监督 MOT 的差距
视频级自我监督应该能够丢弃实例 ID 注释并大大稀疏冗余检测标签
为此,我们引入了 Walker,这是第一个自监督多目标跟踪器,可以从具有稀疏边界框注释且没有跟踪标签的视频中学习。
Walker是由检测器和级联嵌入头组成的联合检测和跟踪模型。 我们设计了非时间对象外观图(TOAG),它将对象级感兴趣区域(RoIs)连接到一对关键/参考帧上。 在训练期间,我们建议通过在 TOAG 上行走来自我监督外观表征。
首先,我们引入了一种新颖的多重正对比公式来优化图上的循环随机游走并学习实例相似性(第 3.3 节)。 然后,我们提出了一种算法,用于识别检测的关键簇和参考簇之间的伪匹配,作为连接它们的循环行走上的最大似然过渡状态。
我们根据 MOT 的要求在实例之间强制执行互斥的图连接。在推理时,我们提出了一种更精细的外观相似性度量(即 biwalk),通过在连接它们的运动约束循环行走下找到最大似然过渡状态,将检测与轨迹关联起来。
特色:仅在视频中的每 k 帧提供地面实况边界框
基于运动的启发式方法长期以来一直用于通过时间关联对象
- QDTrack 的准密集对比公式证明了一种有效的域内外观学习方案