【视频目标分割-VOST数据集】Breaking the “Object” in Video Object Segmentation

无敌悦悦王

已于 2024-09-30 10:13:30 修改

阅读量1k

点赞数 20

分类专栏：文献阅读数据集介绍视频目标分割文章标签：人工智能图像处理计算机视觉 python 数据挖掘目标跟踪自动驾驶

于 2024-09-11 15:55:16 首次发布

本文链接：https://blog.csdn.net/weixin_43571113/article/details/142101687

版权

文献阅读同时被 3 个专栏收录

22 篇文章

订阅专栏

视频目标分割

21 篇文章

订阅专栏

数据集介绍

2 篇文章

订阅专栏

系列文章目录

论文阅读

0. 摘要

当物体变幻时，它的外观可能转瞬即逝。例如当鸡蛋被打碎或者纸张被撕破时，他们的颜色、形状和质地都会发生巨大的变化。除了身份本身外，几乎不保留任何原始特征。然而在现有的视频分割基准中，基本上都没有注意这一重要现象。在这项工作中，我们通过收集一个新数据集（变换下的视频对象分割-VOST）来填补这一空白。该数据集由700多个在不同环境中捕获的高分辨率视频组成，这些视频平均长度为21秒，并用实例掩码进行密集标记。我们采用谨慎的多步骤方法，以确保这些视频重点关注复杂的物体变换，捕捉它们的全时间范围。然后我们对最先进的VOS方法进行了广泛评估，并有了一些重要发现。我们发现现有方法的局限在于过度依赖静态外观线索，这促使我们对表现最好的基线方法提出了一些修改建议，通过更好地时空信息建模，提高其能力。更广泛的说，我们的工作强调了进一步研究学习。
在这里插入图片描述

图1. DAVIS’17数据集的视频帧（上）和我们提出的VOST（下）。虽然现有的VOS数据集具有许多挑战，如变形和姿势变化，但对象的整体外观变化很小。我们的工作集中在对象转变上，外观不再是一个可靠的线索，需要更高级的时空建模。

1. 引言

引言总结：视频分割的核心是时间信息，静态信息只能用作辅助，而目前的VOS数据集中的物体仅发生翻转、旋转和小形变的变化，这些变化让同一物体在不同视频帧之间仍保存着较强的关联，使得现有模型即使没有过多关注时间信息也能将物体进行较好的分割。因此本文提出了一个新的数据集VOST，该数据集主要包含一系列物体发生了重大形变的视频片段，每个片段平均21秒，该数据集弥补了之前VOS领域的空白。并且基于VOST数据集，论文比较了先前的具有代表性的VOS model，并对这些model进行了一些修改，使model能进行更好的时空建模。

1.1背景及问题

在人类分割和跟踪对象时，时空线索是核心，静态外观只起辅助作用。在最极端的情况下，我们甚至可以仅靠一致的运动来定位和跟踪对象，而不需要任何独特的外观。这种后外观分析的方法增加了对感官噪声的鲁棒性，并使得对象性推理成为可能。相比之下，现代计算机视觉模型在视频分割中以先外观分析作为范例。确实，目前最先进的方法可以有效存储与实例标签相关联的补丁并在目标帧中找到最符合的补丁来进行分割。

这段指的是，为什么使用先外观设计的model还能取得不错的成绩
造成这种显著性差异的原因是什么？一些是算法方面的（例如目标识别模型一开始就是为静态图像设立的），但最关键的原因还是在于使用的数据集。例如图一最上行的霹雳舞，它来自DAVIS数据集的验证集：尽管舞者的身体经历了重大的形变以及姿势变换，但是人物的整体外观依然保持一致，这是一个强烈的暗示。

1.2 做法

然而，这个例子代表了许多VOS数据集，它们只包含物体的一小部分形态。除了翻转、旋转和小形变外，物体还可以发生形变，例如香蕉可以被剥皮、纸张可以被裁剪、粘土可以被塑性成砖块。这些形变可以显著的改变物体的颜色、纹理和形状，使得物体几乎不保留除自身身份信息外的任何信息（见图一底部和图2）。正如我们论文所展示的，在物体形变时跟踪物体本身对人类来说非常容易但对于VOS模型来说却具有挑战性。在这篇工作中，我们将填补这一空白并研究物体发生巨大形变时的分割问题。

我们首先在第三节中收集了一个专注于这些场景的数据集，我们利用最近的大规模、以自我为中心的视频收集，它们[14,23]包含成千个具备活动标签的人类-物品互动的例子，我们仔细过滤这些视频以找到只包含发生重大形变的片段（具体的寻找方式是改变动作状态标签并辅以人工检查，这些数据被称为VOST），共有713个片段，包含51种转换和155个物体类别，平均一个片段时长为21，2秒。我们随后密集的标注这些视频数据，得到超过175000个mask。mask的标注遵守时空一致性原则：如果一个物体在第一帧中被认为是同一个物体，那么在后面的帧中，它的所有部分都保持同一身份（如图2所示）。这一段看不懂的话可以参考3.1节，简单来说就是每个视频包含”拿“、”切“、”看“等动作标签，去掉那些不会引起物体形变的动作标签视频（比如，看和拿），然后对剩余的视频进行人工审查，找到物体形变大的视频数据。

在这里插入图片描述

图2展示了VOST中的代表性样本，在三个不同的时间步骤上的注释（完整结果请查看视频）。颜色表示实例ID，灰色代表被忽略的区域。VOST捕捉了多种环境中的广泛转变，并为最具挑战性的序列提供了完美的像素级标签。

1.3 结果

有了这个独特的数据集，我们在第4节中分析了最先进的VOS算法。我们努力概况所有具有代表性的基线集合，包括经典的第一帧匹配方法、局部掩码传播目标、替代的对象级架构和主流的基于内存的模型。首先，我们观察到现有的方法确实无法分割发生了重大形变的物体，正如VOST和DAVIS’17之间的性能差距所表明的（见表2）。对结果的更详细分析揭示了以下发现：

（1）方法的性能与它们对静态外观线索的依赖成反比；
（2）通过提高现有架构的时空建模能力，可以在VOST上取得进展；
（3）这个问题不容易通过将现有模型在更多的数据上进行训练来解决。
在这里插入图片描述

表1。主要视频对象分割数据集的统计数据（*： train/val公开标注；✝包括一小部分的对象转换标注）。与所有现有的VOS基准测试不同，VOST专注于建模复杂对象转换的具体挑战。这促使我们的设计决定给较长的视频标注密集的mask

我们在第5节中总结了与建模对象转换相关的主要挑战。我们希望这项工作将激发进一步探索更健壮的视频对象表示。我们的数据集、源代码和模型都可以在vostdataset.org上找到。

2. 相关工作

在本篇工作中，我们研究了物体变换下的视频对象分割，并且分析了在这个新颖任务下的现存VOS方法。我们的成果受人类对物体的感知而启发，接下来我们将回顾这写话题下的最相关工作。

2.1 VOS(Video Object Segmentation)

VOS被定义为从背景视频中对前景物体进行像素级分割。构建前景要么由独立运动定义（无监督）要么由在第一帧中手动分割的mask定义（半监督）。早期的数据集缺乏规模性和一致性，DAVIS基准测试对社区来说是重要的一步，因为它提供了50个具有各种挑战的高分辨率序列。虽然DAVIS引起了一系列新的VOS方法，但它将VOS视为一个二进制的前景、后景分离问题。

相比之下DAVIS’17不仅将数据集扩展到150个视频，还引入了实例标签。即给出完整的像素级的视频对象掩码分割，并区分实例对象。虽然DAVIS关注的数据质量，但它的数量不足，这迫使大多数方法不得不对静态图像或合成视频进行预训练。这个问题被大规模的YouTube-VOS基准解决，它包含了3252个视频和78种类别。合成视频指的是将静态图像进行旋转、翻转、放大、缩小、不同物体叠加等

最近为了保持数据规模的同时保持注释成本的可控，一些工作被提出以较低的fps中标记视频，并使用插值的方式获得密集的标注。然后，estimated labels被自动过滤，只保持confident interpolations。虽然这种方法在许多情况下都工作得很好，但在附录的D节中，我们证明了它在我们感兴趣的最具挑战性的场景中确实失败了。

值得注意的是，这些数据集中都没有大的物体形变。因此，我们的努力是对现有工作的补充。我们在表1中的VOST与主要VOS基准进行了比较，说明了我们的关键设计决策。特别是，我们对相对较长的视频进行标签，以捕获每个转换的全部范围，并提供时间密集的实例级标签，因为当对象转换时无法使用插值的方式进行标注。

2.2 VOS方法

VOS方法可以被多种方式分类，这里我们只关注半监督分类方法并跟踪该方法的历史，以确定主要趋势。早期，预深度学习方法通过优化能量函数的方法将第一帧的mask传播到其他帧，但由于它们的启发式性质无法进行泛化，

首先深度学习方法必须解决缺乏训练数据的问题，因此将视频分割建模成图像级问题。因此，这些工作提出先在cnn上进行二值分类预测，这个阶段使用的是COCO数据集，然后在测试视频的第一帧上进行几次迭代来微调模型。虽然这些方法优于启发式的方法，但它的计算量大并且对外观的变化缺乏稳定性。这些问题在[11,27,64]中得到了单独解决，这些方法用链家的补丁级匹配取代了昂贵的微调。并且[33,37,41,57]引入了在线适应机制。

近年来，基于记忆的模型已经变成了半监督方法的主流，这个类别的早期方法通过与前一帧的额外匹配扩展了第一帧的匹配机制。这个机制可以看成一个容量为2的记忆模块。该体系结构的更高级版本包括通过存储前几个帧[40,46]来增加内存容量，使用转换器[17,55]从存储器[18,67]中检索对象标签，引入内存压缩以支持更长的序列[12,35]，以及提高内存读取操作[13,47,61]的效率。

其他的VOS方法包含监督方法和最近的无监督掩码传播方法，它并不维持目标的外观建模。这些方法非常高效，但却无法处理遮挡并且会在长序列中发生偏移。一些工作建议在外观上进行对象匹配而不是在补丁级别上，但是它们的准确率非常的低。最后连贯的动作对于人类的客体感知而言是一个重要的信号，但是它在无监督的VOS方法上研究最多。

在这篇工作中，我们在具有较大形变的任务上评估了一系列具有代表性的半监督方法。我们的实验揭示了外观优先范式的局限性，激发了对时空结构的探索。

2.3 人类对象感知

人类的物体知觉是由时空凝聚力驱动的。在发育的早期阶段，婴儿使用时空上的有界性和凝聚力的概念，而不是静态的，格式塔线索，如形状或纹理，将表面分组成物体[50–52]。在成人中，对象文件理论[29]假设，我们的视觉系统通过根据时空因素对视觉原语进行分组来个性化每个对象。最重要的是，物体的个性化先于其外观识别，如[25,29,45]所示。也就是说，人类可以把某样东西的外观看作“同样的东西”，而它的外观仍在变化，并可能随着时间的推移发生巨大的变化。在最极端的情况下，个性化可以在没有任何独特的物体外观的情况下发挥作用，如Gao和Sholl [22]所示。

最近，彼得斯和克里格斯科特·[43]总结了大脑和神经网络中物体表征之间的差异，包括时空线索和外观线索之间的二分法。然后，他们认为，跨越这两种表征之间差异的最好方法是引入需要更复杂的时空推理的新型机器视觉任务。在这项工作中，我们通过扩展视频对象分割的设置来支持对象转换，朝着这个方向迈出了一步。

3. 数据集设计与收集

在本节中，我们讨论了我们收集VOST的方法。关键步骤包括选择代表性视频、用实例掩码对它们进行注释以及定义评估协议。

3.1 视频选择

我们选择从最近的大规模、以自我为中心的动作识别数据集中获取视频，这些数据集为大量活动提供了时间注释。特别是，我们使用了EPIC-KITCHENS [14]和Ego4D [23]，前者捕捉了厨房中的活动，如烹饪或清洁，后者提供了更广泛的场景，包括户外场景。

值得注意的是，VOST的以自我为中心的重点仅仅是因为我们用来获取视频的数据集的特点。问题本身与相机视点无关，我们期望在VOST上开发的方法将推广到第三人称视频。虽然这些数据集包含了数万个剪辑，但绝大多数动作（例如，“拿”或“看”）并不会导致对象转变。为了自动过滤掉这些不相关的剪辑，我们利用了语言理论中的“状态变化动词”的概念[21, 31]。也就是说，我们不是手动过滤视频本身，而是首先过滤动作标签。这大大减少了我们必须考虑的剪辑总数到10,706个（EPIC-KITCHENS中有3,824个，Ego4D中有6,882个）。

尽管上述所有剪辑都包含了对象状态变化，但并非所有剪辑都会导致显著的外观变化。例如，将毛巾对折或摇晃画笔几乎不会改变它们的整体外观。为了专注于更具挑战性的场景，我们手动审查每个视频，并按1到5的等级标记其复杂性，其中1表示没有可见的对象转变，5表示外观、形状和质地发生了重大变化（有关详细信息，请参阅附录B.1）。此外，在这个阶段，我们将表示相同转变的几个步骤（例如，连续切割洋葱）合并。在收集了这些标签后，我们发现野外的大多数视频并不具有挑战性，但我们仍然剩下986个4-5等级的剪辑，捕捉了这些复杂转变的整个时间范围。

最后，我们根据两个标准进一步过滤剪辑。首先，一些视频几乎无法用密集的实例掩码准确标记（例如，由于过度的运动模糊），所以我们跳过它们。其次，有一些大的近乎重复的剪辑集（例如，有116个由同一演员在相同环境中塑造砖块的粘土剪辑），所以我们对它们进行子采样以减少偏见。最终的数据集包含713个视频，涵盖了155个对象类别的51种转变。
在这里插入图片描述

图3.VOST的统计信息：左侧的转换分布，以及右侧的最常见转换和对象类别之间的共现统计信息。虽然有一些倾向于常见的活动，如切割，但分布的尾部足够重。此外，切割具有广泛的语义意义，从而导致不同的转换。

请注意，根据标准VOS协议[44, 62]，语义标签仅用于数据收集，并不作为算法的输入。转变的分布和转变与对象之间的共现统计信息如图3所示。首先我们观察到，尽管对更常见动作（如切割）存在一些偏见，但交互的长尾足够重。此外，从图的右侧的相关性统计可以看出，切割具有非常广泛的语义含义，可以应用于几乎所有对象，导致非常不同的转变。总体而言，相关性统计的熵相当大，说明了我们数据集的多样性。

3.2 注释收集

为了标记上述选定的视频，我们首先调整每个剪辑的时间边界，以紧密包围整个转变的持续时间，特别长的序列（一分钟或更长）除外。为了平衡注释的成本和时间密度，我们选择以5 fps对视频进行标记。一个关键问题是如何在剪辑中标记对象分成部分（例如，由于切割或破碎）。为了避免歧义，我们采用了最直接和通用的原则：如果一个区域在视频的第一帧中被标记为对象，所有源自它的部分都保持相同的身份。例如，图2中破碎鸡蛋的蛋黄保持了它们原始对象的身份。

这种方法还确保了数据中有一个明确的信号（时空连续性），算法可以用来实现泛化。然而，有些例子中不可能为一个区域提供准确的实例掩码。在图2的第二行中，我们展示了两个这样的例子。在第一个例子中，一块粘土正在经历快速运动，使得建立一个清晰的边界变得不可能。在第二个例子中，几个鸡蛋的蛋白混合在一起，无法将它们彼此分开。我们选择用紧密的“忽略”段（图中标为灰色）标记这些模糊的区域，而不是跳过这些视频，这些在训练或评估时都不使用。

这种灵活的方法允许我们一致地注释甚至最具挑战性的视频。鉴于任务的复杂性，我们聘请了一个由20名专业注释者组成的固定团队，负责整个项目期间的工作。他们接受了有关任务和边缘情况的详细指导，我们在附录B.2中详细介绍了这些指导。注释者首先接受了4周的培训，以确保一致的行为。每个视频由一名注释者使用Amazon SageMaker GroundTruth工具进行多边形标记，如图4所示。对于包含多个对象的视频，提供了额外的“实例ID”标签。然后，视频由一小群留出的熟练注释者进行审查，并返回给原始工作者进行更正。这个过程重复进行，直到不能再识别出更多问题为止。平均而言，每个视频进行了3.9次注释-审查周期，以确保最高的标签质量。总体而言，收集了175,913个掩码，平均跟踪持续时间为21.3秒。我们在附录C中报告了数据集的额外统计信息。