【视频目标分割VOS-2023ECCV】Scalable Video Object Segmentation with Simplified Framework

最新推荐文章于 2025-05-06 17:10:44 发布

无敌悦悦王

最新推荐文章于 2025-05-06 17:10:44 发布

阅读量1k

点赞数 11

分类专栏：文献阅读视频目标分割文章标签：人工智能图像处理计算机视觉 python 目标跟踪

本文链接：https://blog.csdn.net/weixin_43571113/article/details/142845692

版权

文献阅读同时被 2 个专栏收录

22 篇文章

订阅专栏

视频目标分割

22 篇文章

订阅专栏

摘要

背景：
目前流行的视频对象分割（VOS）方法通过几个手工制作的模块来实现特征匹配，这些模块分别执行特征提取和匹配。然而，根据经验，上述手工设计会导致目标交互不足，从而限制了 VOS 中的动态目标感知特征学习。

方法：
为了解决这些局限性，本文提出了一个可扩展的简化 VOS（SimVOS）框架，利用单个变压器主干来执行联合特征提取和匹配。具体来说：
1、SimVOS 采用了可扩展的 ViT 主干网，可同时进行特征提取以及查询特征和参考特征之间的匹配。这种设计使 SimVOS 能够学习更好的目标器特征进行准确的掩码预测。
2、更重要的是，SimVOS 可以直接将训练有素的 ViT 骨干（如 MAE [21]）用于 VOS，从而缩小了 VOS 与大规模自监督预训练之间的差距。
3、为了实现更好的性能-速度权衡，我们进一步探索了帧内注意力，并提出了一个新的标记细化模块，以提高运行速度并节省计算成本。

结果：
在实验中，我们的 SimVOS 在流行的视频对象分割基准（即 DAVIS-2017 (88.0% J & F)、DAVIS-2016 (92.9% J & F) 和 YouTube-VOS 2019 (84.2% J & F)）上取得了最先进的结果，而无需应用以往 VOS 方法中使用的任何合成视频或 BL30K 预训练。

引言

1.1 背景和难点

视频对象分割在视频分析和场景理解中是一个重要且基本的计算机视觉任务，在这篇论文中，我们专注于半监督VOS任务，其目标是使用仅在视频第一帧中给出的目标掩模注释，来分割和跟踪视频中每一帧中感兴趣的对象。VOS中的主要挑战主要在于两个方面：1）如何有效地将目标与背景干扰物区分开来；2）如何在视频的多个帧中准确匹配目标。

在过去几年中，基于匹配的现代VOS方法因其在流行VOS基准测试上的出色表现而受到广泛关注[56, 34, 35]。典型的方法STM[32]及其后续工作[8, 59, 7]主要使用几个定制的模块来执行半监督VOS，包括特征提取、目标匹配和掩模预测模块。这些方法中的整个掩模预测过程可以分为两个连续的步骤：1）在之前的帧（即记忆帧）和新进入的帧（即搜索帧）上进行特征提取；以及2）在搜索帧中进行目标匹配，这通常是通过计算记忆帧嵌入和搜索帧嵌入之间的逐像素匹配来实现的。

尽管上述基于匹配的方法取得了良好的性能，但这些方法中使用的特征提取和匹配模块分离的设计仍有一些局限性。首先，分离的架构无法提取动态的目标感知特征，因为在特征提取过程中，记忆帧和搜索帧嵌入之间没有交互。因此，特征提取模块在离线训练后被视为固定的特征提取器，无法处理视频中不同帧中外观变化较大的对象。其次，基于提取的特征构建的匹配模块需要精心设计，以执行查询和记忆特征之间的充分交互。最近的工作（例如，FEELVOS [44] 和 CFBI [58]）探索使用局部和全局匹配机制。然而，由于提取的固定特征的表达能力有限，它们的性能仍然受到影响。

在这里插入图片描述
图1：(a) 传统VOS方法[32, 8]和 (b) 我们提出的SimVOS之间的流程比较。以前的方法是利用定制的独立特征提取和匹配模块来预测分割掩模。我们的SimVOS去除了手工设计，采用统一的变换器骨干网络进行联合特征提取和匹配，为精确的VOS提供了一个简化的框架。

1.2 本文的方法

为了解决上述问题，本文提出了一个简化的VOS框架（SimVOS），用于联合特征提取和匹配。这个基本思想允许SimVOS学习动态的目标感知特征，以实现更准确的VOS。

受到最近在计算机视觉中用通用架构替换手工设计[3, 11, 61]的成功启发，我们使用ViT[11]作为骨干网络和一个掩模预测头来实现SimVOS。正如图1所示，这种新设计去除了以前基于匹配的VOS方法中使用的定制的独立特征提取和匹配模块，从而促进了VOS在一个更通用和更简单的系统中的发展。
除了提供一个简单而有效的VOS基线外，我们工作的另一个目标是弥合VOS与大规模自监督预训练社区之间的差距。最近，已经取得了显著进展[21, 36, 20, 4]，显示出大规模自监督模型在一些下游任务（包括对象分类[21]、检测[25]和跟踪[61, 3]）中的优越性能。然而，现有的VOS方法通常依赖于特定任务的定制模块，其架构是专门设计的，带有VOS特定的先验知识，这使得这些方法难以利用标准的大规模自监督模型进行VOS。根据我们所知，利用大规模自监督模型来开发通用架构以用于VOS的研究尚未被探索。我们的工作朝着一个简单而有效的VOS框架迈进，该框架可以自然地从大规模自监督预训练任务中受益。
将记忆帧和查询帧作为输入传递给基础的ViT进行掩模预测可能会导致较大的计算成本（平方复杂度）。为了实现更好的性能与速度的权衡，我们提出了一个令牌细化模块，以降低计算成本并提高SimVOS的运行速度。这个变体的运行速度比SimVOS基线快2倍，且在VOS性能上仅有小幅下降。

1.3 结果

我们在多个流行的VOS基准测试上进行了实验，结果表明我们的SimVOS达到了最先进的VOS性能。总之，本文的主要贡献如下：

我们提出了一个简化的VOS框架（SimVOS），它去除了以前方法中的手工制作的特征提取和匹配模块[32, 8]，通过单一可扩展的变换器骨干网络执行联合特征提取和交互。我们还展示了大规模自监督预训练模型可以为VOS任务带来显著的好处。
我们提出了一个新的令牌细化模块，以实现可扩展视频对象分割的速度和准确性之间的更好权衡。
我们的SimVOS在流行的VOS基准测试上取得了最先进的性能。具体来说，不使用任何合成数据预训练，我们的变体SimVOS-B在DAVIS-2017（88.0% J &F）、DAVIS-2016（92.9% J &F）和YouTube-VOS 2019（84.2% J &F）上设定了新的最先进的性能。