【视频目标分割-2021 NeurIPS】Associating Objects with Transformers for Video Object Segmentation

系列文章目录

论文阅读

0. 摘要

本文研究了如何在具有挑战性的多目标场景下实现更好、更高效的嵌入学习,以解决半监督视频对象分割问题。最新的方法通过学习解码具有单一正对象的特征,因此在多目标场景下必须分别匹配和分割每个目标,这会消耗多倍的计算资源。为了解决这个问题,我们提出了一种将对象与变换器关联起来的方法(AOT),以统一匹配和解码多个对象。具体来说,AOT采用了一种识别机制,将多个目标关联到同一高维嵌入空间中。因此,我们可以像处理单个对象一样高效地同时处理多个对象的匹配和分割解码。为了充分建模多目标关联,我们设计了一种长短期变换器(Long Short-Term Transformer),用于构建层次化的匹配和传播。我们在多目标和单目标基准测试上进行了广泛的实验,以检验不同复杂性的AOT变体网络。特别是,我们的R50-AOT-L在三个流行的基准测试中超越了所有最先进的竞争对手,即YouTube-VOS(84.1% J &F)、DAVIS 2017(84.9%)和DAVIS 2016(91.1%),同时保持了超过3倍的多目标运行速度。同时,我们的AOT-T可以在上述基准测试上保持实时多目标速度。基于AOT,我们在第三届大规模VOS挑战赛中排名第一。

  • 场景:具有挑战的多目标场景
  • 困难:目前的方法在多目标场景下必须分别匹配和分割每个目标,会消耗多倍的计算资源。
  • 解决方案:(AOT)将对象和变换器关联起来以统一匹配和解码多个对象。
    • 采用了一种识别机制,将多个目标关联到同一高维嵌入空间中。这样就可以同时处理多个对象的匹配和分割解码。
    • 设计了长短期变换器,以充分建模多个目标关联,用于构建层次化的匹配和传播
  • 结果:在三个流行的基准测试中超越了所有先进的竞争对手(YouTube-VOS(84.1% J &F)、DAVIS 2017(84.9%)和DAVIS 2016(91.1%))

1. 引言

1.1 背景及问题

  • 背景
    视频对象分割(VOS)是视频理解中的一个基本任务,它在增强现实[34]和自动驾驶汽车[69]等许多潜在应用中都非常重要。本文的主要任务是半监督VOS,其目标是基于在第一帧给出的对象掩码来跟踪并分割整个视频序列中的对象。得益于深度神经网络的最近进展,许多基于深度学习的VOS算法已经被提出,并取得了有希望的性能。STM[37]及其后续工作[46, 30]利用记忆网络存储和读取预测过去帧的目标特征,并应用非局部注意力机制来匹配当前帧中的目标。FEELVOS[53]和CFBI[67, 68]利用全局和局部匹配机制,将第一帧和前一帧的目标像素或补丁与当前帧匹配

  • 问题
    尽管上述方法已经取得了显著进展,但这些方法学习解码包含单一正对象的场景特征。因此,在多目标场景下,它们必须独立匹配每个对象,并将所有单对象预测集合成一个多目标分割,如图1a所示。这种方式简化了网络架构的设计,因为网络不需要针对不同数量的对象调整参数或结构。然而,独立而不是统一地建模多个对象,在探索多目标上下文信息以学习更稳健的特征表示方面是低效的。此外,分别但并行处理多个对象需要多倍于处理单个对象的GPU内存和计算量。这个问题限制了在计算资源有限的情况下,多目标场景下的VOS的训练和应用
    在这里插入图片描述

1.2 方法

为了解决这个问题,图1b展示了一种可行的方法,可以在端到端框架中统一关联和解码多个对象。因此,我们提出了一种将对象与变换器关联起来的方法(AOT),以统一匹配和解码多个目标

  • 首先,提出了一种识别机制,为每个目标分配一个唯一身份,并将多个目标嵌入到同一特征空间中。因此,网络可以学习所有目标之间的关联或相关性。此外,可以通过利用分配的身份信息直接解码多目标分割。
  • 其次,设计了一种长短期变换器(LSTT),用于构建层次化的对象匹配和传播。每个LSTT块使用长期注意力与第一帧的嵌入进行匹配,以及短期注意力与几个附近帧的嵌入进行匹配。与仅使用一个注意力层的方法[37, 46]相比,我们发现层次化注意力结构在关联多个对象方面更为有效。

1.3 结果

我们在两个流行的多目标VOS基准测试上进行了广泛的实验,即YouTube-VOS[63]和DAVIS 2017[43],以验证所提出的AOT的有效性和效率。即使使用轻量级Mobilenet-V2[45]作为主干编码器,AOT变体网络在大规模YouTube-VOS(我们的,J &F 82.6∼84.5% & 82.2∼84.5%)的验证2018 & 2019分割上也取得了优异的性能,同时保持了超过2倍的多目标运行时间(27.1∼9.3FPS)与最先进的竞争对手(例如,CFBI[67],81.4% & 81.0%,3.4FPS)相比。
我们还在DAVIS-2017验证(85.4%)和测试(81.2%)分割上取得了新的最先进性能。
此外,AOT在单目标场景下也很有效,在流行的单目标基准测试DAVIS 2016[41]上超越了以前的方法(92.0%)。
此外,我们最小的变体AOT-T可以在所有上述基准测试上保持实时多目标速度(51.4FPS在480p视频上)。特别是,AOT在第三届大规模视频对象分割挑战赛的赛道1(视频对象分割)中排名第一。

2. 相关工作

2.1 半监督视频对象分割(Semi-supervised Video Object Segmentation)

在通常给出第一帧标注的情况下,半监督VOS方法将手动标记传播到整个视频序列中。传统方法经常通过在图结构上定义的能量来解决优化问题[4, 52, 2]。近年来,基于深度神经网络(DNN)的VOS方法得到了发展,取得了更好的结果。

  • 早期的DNN方法依赖于在测试时对网络进行微调,以使分割网络专注于特定对象
    例如,OSVOS [8]和MoNet [62]在测试时使用第一帧的真实标注对预训练网络进行微调。OnAVOS [54]通过引入在线自适应机制来扩展第一帧的微调。这些方法之后,MaskTrack [40]和PReM [31]利用光流帮助将分割掩码从一帧传播到下一帧。尽管取得了有希望的结果,但测试时的微调限制了网络的效率。

  • 最近的工作旨在实现更好的运行时间并避免使用在线微调
    OSMN [66]利用一个卷积网络来提取对象嵌入,并用另一个网络来指导分割预测。PML [11]学习像素级嵌入,并使用最近邻分类器,VideoMatch [20]使用软匹配层将当前帧的像素映射到第一帧的嵌入空间中。FEELVOS [53]和CFBI [67, 68]通过额外匹配当前帧和前一帧来扩展像素级匹配机制。RGMP [61]也从第一帧和前一帧收集指导信息,但使用了一个具有两个共享流的孪生编码器。STM [37]及其后续工作(例如,EGMN [30]和KMN [46])利用记忆网络来嵌入过去帧的预测,并应用非局部注意力机制在记忆上解码当前帧的分割。SST [15]以不同的方式使用注意力机制,即使用变换器块[51]来提取像素级亲和图和时空特征。这些特征是目标不可知的,而不是像我们的LSTT那样目标感知的,因为过去帧中的掩码信息没有在块中传播和聚合。LWL [7]提出了使用在线少样本学习者来学习解码对象分割,而不是使用匹配机制。

上述方法学习解码包含单一正对象的特征,因此在多目标场景下,它们必须独立匹配每个对象,并将所有单对象预测集合成一个多目标分割,消耗多倍于单对象情况的计算资源。这个问题限制了多目标VOS的应用和发展。因此,我们提出了我们的AOT来统一关联和解码多个目标,并且像处理单个对象一样高效。

2.1 视觉变换器(Visual Transformers)

变换器[51]被提出用于构建用于机器翻译的层次化基于注意力的网络。与非局部神经网络[56]类似,变换器块计算与所有输入元素的相关性,并通过使用注意力机制[5]聚合它们的信息。与RNN相比,变换器网络并行建模全局相关性或注意力,从而提高了内存效率,因此已在自然语言处理(NLP)任务[13, 44, 49]中得到广泛应用。最近,变换器块被引入到许多计算机视觉任务中,如图像分类[14, 50, 28]、目标检测[9]/分割[58]和图像生成[38],并已显示出与基于CNN的网络相比有希望的性能。

许多视频对象分割(VOS)方法[25, 37, 30, 46]已经利用注意力机制来匹配对象特征,并将分割掩码从过去的帧传播到当前帧。然而,这些方法在注意力过程中只考虑了一个正目标,如何构建层次化的基于注意力的传播很少被研究。在本文中,我们精心设计了一个长短期变换器块,它能够有效地在层次结构内为VOS构建多目标匹配和传播。

3. 回顾视频对象分割的先前解决方案

在视频对象分割(VOS)中,许多常见的视频场景都包含需要跟踪和分割的多个目标或对象。得益于深度网络,当前最先进的VOS方法[37, 67]已经取得了有希望的性能。然而,这些方法专注于匹配和解码单个对象。在多目标场景下,它们必须独立匹配每个对象,并将所有单对象预测集合成一个多目标预测,如图1a所示。设FN表示预测单对象分割的VOS网络,A是如softmax或软聚合[37]的集合函数,处理N个对象的后集合方式的公式如下:
在这里插入图片描述
其中It和Im分别表示当前帧和记忆帧的图像,{Y_{m_1}, …, Y_{m_N}}是所有N个对象的记忆掩码(包含给定的参考掩码和过去预测的掩码)。这种后集合方式将为单对象VOS设计的网络扩展到多对象应用,因此无需针对不同数量的对象调整网络。

尽管上述后集合方式在VOS领域普遍且直接,但并行处理多个对象需要多倍于匹配单个对象和解码分割的GPU内存和计算量。这个问题限制了在计算资源有限的情况下,多目标场景下的VOS的训练和应用。为了使多目标训练和推理与单对象一样高效,一个期望的解决方案应该能够统一地关联和解码多个对象,而不是单独处理。为了实现这一目标,我们提出了一个识别机制,将任何数量(要求小于预定义的大数)的目标掩码嵌入到同一高维空间中。基于识别机制,我们设计了一个新颖且高效的框架,即关联对象与变换器(AOT),用于从记忆帧到当前帧统一和层次化地传播所有对象嵌入

正如图1b所示,我们的AOT在端到端框架内关联和分割多个对象。首次,处理多个对象可以像处理单个对象一样高效(见图1c)。与以前的方法相比,我们在多目标场景下的训练也更高效,因为AOT可以统一关联多个对象区域,并学习它们之间的对比特征嵌入。

4. AOT方法

在本节中,我们介绍了我们提出的用于高效多目标VOS的识别机制。然后,我们基于识别机制设计了一个新的VOS框架,即长短期变换器(Long Short-Term Transformer),用于构建层次化的多目标匹配和传播。

4.1 多目标关联的识别机制

不是很懂,建议看源码来辅助理解
许多最近的VOS方法[37, 30, 46]利用了注意力机制并取得了有希望的结果。为了公式化,我们定义查询嵌入Q ∈ RHW ×C,记忆帧的键嵌入K ∈ RT HW ×C,以及记忆帧的值嵌入V ∈ RT HW ×C,其中T,H,W,C分别表示时间、高度、宽度和通道维度。常见的基于注意力的匹配和传播的公式为:
在这里插入图片描述
其中,通过相关函数Corr计算匹配图,然后值嵌入V将传播到当前帧的每个位置。

在常见的单对象传播[37]中,通过额外的记忆编码器网络将记忆帧中的二进制掩码信息嵌入到V中,因此也可以使用等式2通过注意力机制传播到当前帧。紧随其后的卷积解码器网络将解码聚合的特征并预测当前帧的单对象概率logit。

在端到端网络中传播和解码多目标掩码信息的主要问题是如何应对不同目标数量的网络适应。为了克服这个问题,我们提出了一个由识别嵌入和基于注意力机制的解码组成的识别机制。
在这里插入图片描述

图2:(a) 我们的关联对象与变换器(AOT)的概览。多目标掩码通过使用我们的识别机制进行嵌入。此外,一个L层长短期变换器负责统一和层次化地匹配多个对象。 (b) 为转移N个对象掩码而设计的ID实体分配(ID)的示意图。

首先,提出了一个识别嵌入机制,将多个不同目标的掩码嵌入到同一特征空间中进行传播。如图2b所示,我们初始化了一个身份库D ∈ RM×C,其中存储了M个具有C维的识别向量。为了嵌入多个不同目标的掩码,每个目标将随机分配一个不同的识别向量。假设视频中有N(N < M)个目标,将目标的一位掩码Y ∈ {0, 1}T HW ×N嵌入到识别嵌入E ∈ RT HW ×C中的公式,通过从库D中随机分配识别向量是:
在这里插入图片描述

其中P ∈ {0, 1}N×M是一个随机置换矩阵,满足PtrP等于一个M × M单位矩阵,用于随机选择N个识别嵌入。在ID分配之后,不同的目标具有不同的识别嵌入,因此我们可以通过将识别嵌入E附加到注意力值V来传播所有目标识别信息,即:
在这里插入图片描述
其中V’ ∈ RHW ×C从传播中聚合了所有多个目标的嵌入。

对于识别解码,即从聚合特征V’中预测所有目标的概率,我们首先使用卷积解码网络FD预测库D中每个身份的概率logit,然后选择分配的并计算概率,即:
在这里插入图片描述
其中LD ∈ RHW ×M是所有M个身份的概率logit,P与身份分配中使用的相同选择矩阵,Y’ ∈ [0, 1]HW ×N是所有N个目标的概率预测。

对于训练,可以使用常见的多类分割损失,如交叉熵损失,来优化多目标Y’关于真实标签。身份库D是可训练的,并在训练开始时随机初始化。为确保所有识别向量都有机会相互竞争,我们在每个视频样本和每次优化迭代中随机重新初始化识别选择矩阵P。

4.2 用于层次化匹配和传播的长短期变换器

先前的方法[37, 46]总是只使用一层注意力(等式2)来聚合单个对象信息。在我们的基于识别的多目标流水线中,我们发现单层注意力无法完全模拟多目标关联,后者自然应该比单个对象过程更复杂。因此,我们考虑使用一系列注意力层来构建层次化的匹配和传播。最近,变换器块[51]已被证明在构建视觉任务中的层次化注意力结构方面是稳定和有希望的[9, 14]。基于变换器块,我们精心设计了一个长短期变换器(LSTT)块,用于多目标VOS。

按照常见的变换器块[51, 13],LSTT首先使用自注意力层,负责学习当前帧内目标之间的关联或相关性。然后,LSTT额外引入了一个长期注意力,用于从长期记忆帧聚合目标信息到当前帧,以及一个短期注意力,用于从附近的短期帧学习时间平滑性。最后一个模块是基于两层前馈MLP,中间有GELU[19]非线性。图2c显示了一个LSTT块的结构。值得注意的是,所有这些注意力模块都以多头注意力[51]的形式实现,即多个注意力模块后跟连接和线性投影。然而,我们仅介绍他们的单头公式,以简化说明。

长期注意力负责从过去的记忆帧中聚合目标信息,这些帧包含参考帧和存储的预测帧,到当前帧。由于当前帧和过去帧之间的时间间隔是变化的,并且可以是长期的,因此很难保证时间平滑性。因此,长期注意力采用了类似等式2的非局部注意力。设Xt l ∈ RHW ×C表示时间t和块l中的输入特征嵌入,其中l ∈ {1, …, L}是LSTT的块索引,长期注意力的公式为:
在这里插入图片描述
其中Xm l = Concat(Xm1 l , …, XmT l )和Y m = Concat(Ym1, …, YmT )是记忆帧的输入特征嵌入和目标掩码的索引m = {m1, …, mT }。此外,WK l ∈ RC×Ck和W V l ∈ RC×Cv是匹配和传播的空间投影的可训练参数。与使用不同的投影Xt l和Xm l不同,我们发现使用类似孪生的匹配,即在同一嵌入空间内的特征之间进行匹配(第l个特征与相同的WK l投影),LSTT的训练更加稳定。

短期注意力用于聚合每个当前帧位置的空间时间邻域中的信息。直观地说,连续视频帧之间的图像变化总是平滑和连续的。因此,相邻帧中的目标匹配和传播可以限制在一个小的空间时间邻域内,从而比非局部过程更有效。考虑n个邻近帧的索引n = {t − 1, …, t − n}位于空间时间邻域内,这些帧的特征和掩码是Xn l = Concat(Xt−1 l , …, Xt−n l )和Y n = Concat(Y t−1, …, Y t−n),然后每个空间位置p的短期注意力公式为:
在这里插入图片描述
其中Xt l,p ∈ R1×C是Xt l在位置p的特征,N§是以位置p为中心的λ × λ空间邻域,因此Xn l,N §和Y n l,N §分别是空间时间邻域的特征和掩码,形状为nλ2 × C或nλ2 × N。

当提取第一帧t = 1的特征时,没有记忆帧或前一帧,因此我们用X1 l代替Xm l和Xn l。换句话说,长期注意力和短期注意力变成了自注意力,而无需调整网络结构和参数。

结论

本文提出了一种新颖且高效的方法,通过将对象与变换器关联起来,用于视频对象分割,并在三个流行的基准测试中取得了优异的性能。我们提出了一个简单而有效的识别机制,用于在多目标场景下统一关联、匹配和解码所有对象。首次,通过使用识别机制,处理VOS中的多个对象可以像处理单个对象一样高效。此外,我们设计了一个长短期变换器(LSTT),用于构建层次化的对象匹配和传播,用于VOS。层次化结构使我们能够通过调整LSTT的数量,灵活地在实时速度和最先进性能之间平衡AOT。我们希望识别机制将有助于简化未来多目标VOS及相关任务(例如,视频实例分割、交互式VOS和多目标跟踪)的研究,并且AOT将作为一个坚实的基准。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值