Unifying Short and Long-Term Tracking with Graph Hierarchies—CVPR2023

Unifying Short and Long-Term Tracking with Graph Hierarchies

做第二个创新模块的需要将研究的重点从处理遮挡的问题转变为如何训练一个可学习的模块模型并将其应用到多目标跟踪上

这篇论文针对解决的问题是短期关联和长期关联统一的问题。

摘要概况

  • 短期关联(Short-term association):指的是在没有被遮挡的情况下,跟踪对象的任务。即对象始终处于视野内,并且跟踪算法通过对象的特征来持续关联它们。

  • 长期关联(Long-term association):指的是对于被遮挡(即不在视野内)并且之后重新出现在场景中的对象进行跟踪。这是一个更具挑战性的问题,因为对象可能在遮挡期间消失,导致跟踪算法失去对象的相关信息,需要重新识别和关联这个对象。

在这里插入图片描述

摘要中提到的主要要解决的问题是:短期对象关联和长期对象关联。针对这些任务,现有的方法通常是专门设计的,并且分别解决特定问题。但最好的方法往往是将多种技术混合使用,这虽然能提高性能,但同时也带来了更高的工程复杂度,且缺乏通用性,因此无法广泛应用于不同的情况。

因此需要一个统一而且是更为通用的方法来解决这一个问题。

通过将长视频剪辑分割为层次化的子剪辑来处理高可扩展性的问题,然后利用图神经网络(GNN)来统一处理各个时间尺度的信息。这使得模型不仅能够在长时间段内保持高效性,还能跨越不同的时间尺度进行关联,从而提高了模型的通用性和鲁棒性。

引言和相关介绍

  1. 在拥挤的场景中,当对象可能经常被遮挡并且在几个帧中未被检测到时,会出现不同的挑战。这迫使方法在遥远的时间帧中的检测之间执行关联,即,长期的联系。

事实上,大多数最先进的跟踪器使用多种方法的组合来跟踪不同的时间跨度,因此可以被认为是多级跟踪器一些短期跟踪器使用(reID)机制进行长期关联

  1. 当我们增加要链接的检测之间的时间跨度时,由于显著的外观变化和大的位移,关联变得更加模糊。因此,使用外观和运动线索的手工组合的本地跟踪器将无法扩展到任意时间跨度。

基于图的方法更鲁棒,但大时间跨度的关联需要创建非常大的图

提出的观点

提出了一种分层处理视频的方法:

层次结构中较低的层次关注短期关联,而较高的层次关注越来越长期的情景。与现有混合多级解决方案的关键区别在于,我们对所有时间尺度使用相同的可学习模型,即:层次结构级别。

  1. 在时间尺度上具有自适应能力的模型,特别强调了其数据驱动的学习方式,而不需要手动为每个时间尺度设计不同的模型。

解读:传统的方法往往需要针对不同的时间尺度(比如短期和长期)设计和调整不同的模型。手工设计(handcrafting)指的是人工构建不同的模型或策略,根据每个时间尺度的特点来处理不同的任务。

数据驱动的方式:与传统的手工设计模型不同,数据驱动的学习方法使得模型能够自动从数据中学习和调整其策略。通过对大量训练数据的学习,模型能够理解在不同时间尺度下哪些特征对目标跟踪更有效,并据此调整其处理方式。

  • 例如,在短期尺度下,模型可能会更加依赖位置、速度等快速变化的特征,而在长期尺度下,模型可能会更加关注目标的历史轨迹、外观等较为稳定的信息。

  • 针对不同时间尺度学习:这表明该方法不是简单地依赖于人为的规则来决定在不同时间尺度下使用哪些特征,而是让模型通过自动学习来识别在每种情境下最有效的信号。这种方法可以减少人工干预,提高模型的适应性。

  1. 其分层结构使其具有高度可扩展性,并能够有效地处理长剪辑.它是高度通用的,并且不对哪些线索最适合于哪些时间跨度做出任何假设,而是允许模型以数据驱动的方式获得必要的线索。

We, therefore, obtain a Strong tracker, with a Unified so-
lution across timespans, and good Scalability thanks to its
HIerarchical nature, and name it SUSHI.

  1. SUSHI的核心是一种图形方法,但我们不是在单个整体图上工作,而是在不同的时间跨度上接受数据关联的不同性质,并在图形的层次结构上操作
  • 在我们的层次结构的最低层,节点表示附近帧中的检测对象。
  • 我们使用图神经网络GNN将这些处理成短的轨迹,然后构建新的图,以在我们的层次结构的每个级别上生成越来越长的轨迹

SUSHI核心

在这里插入图片描述

从最初的每帧对象检测开始(从现在开始称为长度为1的tracklet),每个SUSHI块学习将上一级的tracklet合并为更长的tracklet。为此,每个SUSHI块构建一个图,其中节点表示来自上一级的轨迹,边缘表示轨迹假设。

构建的是一个多层级的图轨迹。

节点和边具有相关的嵌入,这些嵌入对位置、外观和运动线索进行编码,这些线索通过GNN在图中传播。

构建跟踪图的层次结构

单一(整体)追踪图的局限性。

单一(整体)追踪图的局限性”。在多目标跟踪(MOT)系统中,追踪图是一种用来描述目标之间关系的图结构,而“单一追踪图”指的是一个统一的图结构,尝试在一个整体的框架内处理所有目标的轨迹追踪

追踪图是用来表示在视频帧之间建立目标关系的工具。它的节点通常代表不同的目标,而边则表示目标之间的关联。例如,目标在不同帧之间的相对位置、外观特征等关系。
单一追踪图指的是用一个统一的图来处理所有目标的跟踪关系。也就是说,所有的目标和它们在不同时间点的状态都被整合到一个大的图结构中进行管理和更新。

  1. 给定具有C帧的输入视频剪辑,我们的目标是即使对象被长时间遮挡也能够关联对象,即,到C-1帧

  2. 基于图的追踪方法中如何处理不同时间距离之间的关联。

为了实现更长时间跨度的目标追踪,我们需要在图中 考虑跨越不同时间距离的边,即不仅仅连接相邻帧之间的目标,还要连接那些时间距离较远的目标。换句话说,图中的边不仅限于在连续帧之间建立关联,还应该在不同时间点之间建立关联,这样即使目标经历了遮挡或消失,也能够在较长时间后重新识别和追踪。

在这里插入图片描述

构建分层剪辑分区

  1. 提出了一个层次结构的较小的图形,操作在长视频剪辑,而不是一个单一的大型单片图形。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月亮已死热爱可抵万难

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值