Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos
用于无标记视频自监督学习的多模态聚类网络
0.论文摘要
多模态自监督学习越来越受到关注,因为它不仅允许在没有人工监督的情况下训练大型网络,还允许跨各种模态搜索和检索数据。在这种情况下,本文提出了一个框架,该框架从预训练的主干开始,学习一个公共的多模态嵌入空间,除了跨不同模态共享表示之外,还强制对语义相似的实例进行分组。为此,我们在训练管道中使用多模态聚类步骤扩展了实例级对比学习的概念,以捕获跨模态的语义相似性。由此产生的嵌入空间使得能够跨所有模态检索样本,甚至从不可见的数据集和不同的域中检索样本。为了评估我们的方法,我们在HowTo100M数据集上训练我们的模型,并评估其在两个具有挑战性的领域的零样本检索能力,即文本到视频检索和时间动作定位,显示了四个不同数据集上的最新结果。
1.研究背景
为了稳健地学习视觉事件和概念,人类很少单独依赖视觉输入。相反,通过组合多种感觉信号以及各种语言表示,丰富的多模态环境被用于理解。许多最近的技术试图模仿这种范式来训练有效的计算机视觉模型,特别是那些从自然存在多种模态的视频中学习的模型[1,2,36]。
在多模态视频数据上学习既有好处也有挑战。每个视频实例具有多种模态的信息。例如,除了视觉和音频模态之外,与视频中的口头叙述相对应的文本信息还提供了一种有价值的语言模态[7,21,25]。在这项工作中,我们关注学习跨多种模态的联合嵌入空间的问题。鉴于来自不同模态的特征通常不可比较,目标是学习到公共空间中的投影,在公共空间中,来自不同域但具有相似内容的特征彼此靠近,以允许跨模态的直接检索。然而,创建一个有效的联合多模态嵌入空间并不容易。首先,这些模态中的每一个都是不同的,即关于其源、如何对其进行采样和处理以及其产生的特征表示。此外,在现实世界的数据中,不幸的是,可用于从每个模态中学习这些投影的监督很弱,因为例如,音频序列可能与其视觉表示不对齐,并且相应的叙述可能存在也可能不存在于相同的时间间隔[2, 32]。
为了处理这种性质的多模态数据,最近的几种方法使用对比损失[18, 19]来学习例如联合嵌入空间中的特征表示。目标是使从同一时间实例提取的样本彼此更接近,同时将来自不同时间的样本分开。最近的工作[1, 32]表明,这种训练对于在没有额外监督的情况下在大规模数据上预训练模型是有用的,并且所得模型在几个任务上实现了有竞争力的性能,例如,当在各种数据集上进行微调时,在动作分类中。对比损失产生的一个问题是,该标准没有考虑样本在不同时间的语义结构和相似性:两个样本只要出现在不同时间,就被视为负样本对,而不管它们的语义相似性如何。这会对学习的表征产生相当大的不利影响。在学习表示的不同公式中,不是比较单个实例,而是首先使用某个聚类算法创建实例的聚类[2, 5, 11, 29]。这种方法鼓励语义上彼此相似的样本(即,同一聚类中的样本)在嵌入空间中接近。然而,如果我们对来自多模态的特征进行聚类,这些聚类可能仅在模态中单独出现,将音频实例与音频实例、视觉到视觉等聚类。因此,将来自不同模态的实例拉在一起的机制对于在联合空间中聚类来自不同模态的特征是至关重要的。这导致了我们提出的将这两种方法视为互信息的方法。
我们提出了一个多模态学习框架,该框架通过从视觉、音频和语言模态训练跨模态投影头来学习联合表征,并使用自然叙述视频的大型语料库来解释嵌入的语义相似性。所提出的多模态聚类网络(MCN)采用了一种新的架构来结合来自前面描述的两种表示学习范式的有前途的想法:通过实例级的对比损失和聚类级的语义一致性进行学习。作为我们方法的另一个新特征,我们使用多模态表示来探索联合聚类,而不是使用单独模态的聚类。结果特征允许我们在线性时间内跨不同模态进行检索。图1提供了我们方法的高级概述。
图1:多模态聚类网络(MCN)结合了对比损失和聚类损失,对比损失学习不同模态(如视频、音频和文本)之间的特征表示接近,聚类损失从不同视频或不同剪辑中绘制语义相关的实例,例如描绘相同语义概念(例如,切碎或油炸)的场景。(黄色方框)。
为了评估我们提出的方法,我们在两种情况下解决了零样本学习的挑战性问题:多模态视频检索和多模态时间动作定位。我们在HowTo100M数据集[33]上训练我们的系统,并评估其在YouCook2[44]和MSR-VTT[42]数据集上的检索能力,以及其在CrossTask[46]数据集上的动作检测任务和在挖掘YouTube[26] 数据集上的时间动作分割任务上的时间动作定位。仅使用来自预训练主干的特征,MCN在绝对召回率上显著优于最佳文本到视频检索基线超过3%,在召回率上优于时间动作定位基线超过3.1%,两者都是在零样本设置中。
贡献。这项工作的贡献有三个:(i)我们通过结合对比损失和聚类损失的优点,提出了一种用于多模态联合空间学习的新方法。与使用单独模态创建聚类的先前工作不同,我们的方法显示了使用多模态联合聚类的重要好处。(ii)我们证明了所提出的模型可以在联合空间中跨三种模态(视频、音频、文本)进行学习。(iii)我们在零样本设置中展示了多个下游任务的显著性能增益。这些结果表明,学习到的公共空间表示可以改进最先进的结果,而无需对目标数据集进行任何额外的训练。
2.相关工作
从多模态数据中学习
当前的方法不是收集新的带注释的数据集[12, 38]来构建各种最先进的视觉识别模型,而是利用多个社交媒体平台上可用的大量视频。当特定的语言资源(如自动生成的语音识别字幕)在叙述视频数据集中可用时,如How2[39]或HowTo100M[33],则使用利用这些资源的适当代理任务。这种视觉字幕对最近被广泛用于视觉和语言任务的自监督模型中[3, 16, 17, 28, 31, 35, 40, 45]。在其他方法如[2, 6, 8, 21, 30, 37]中,通过仅使用相应的原始语音信号来避免对这些语言转录的需要。最近,从解说视频以及生成的语音字幕从头开始训练的模型也已经成功开发[32]。视频中自然存在的三种模态,即视觉、音频和语言流,通过[1]中该学习框架的多模态变体进一步集成。与这些工作不同,我们在本文中的目标是学习一个零样本多模态下游任务的三种模态中的联合嵌入,其中我们创建了一个嵌入空间,不同模态的特征可以直接比较。
对比学习
几种最先进的图像自监督表征学习方法的核心技术是实例对比学习[13, 22]。在该范例中,训练模型以将从相同实例(例如,图像的变换或裁剪)提取的样本彼此靠近放置,同时将来自不同实例的样本进一步推开。鉴于其与噪声对比估计(NCE)的相似性,其中两个样本只要来自不同的时间段,就被视为负样本对,在MIL-NCE[32]中,多实例学习和NCE的优点被结合起来。这种方法的优点在于,它现在允许补偿在视频和相应的文本字幕中固有地发现的未对准。上述实例对比学习的一个固有缺点是,当构建正对和负对时,它与样本之间的固有语义相似性是不可知的。在我们的工作中,我们通过引入一个聚类组件来学习批处理中多模态实例之间的语义相似性,从而将跨模态的实例级相似性放宽到语义级相似性,从而缓解了这个问题。
深度无监督聚类
考虑到在大型数据集中计算所有成对比较的高成本,更实用的解决方案是在训练期间区分实例组,而不是在每个个体实例上应用上面讨论的对比学习范例。这是通过首先预训练模型以以简单的级联方法导出数据的合适特征表示来完成的。保持表示固定,然后使用聚类算法对实例进行分组,然后使用派生的类分配作为监督来更新模型的权重[10, 43]。相比之下,最近的技术不是保持聚类步骤独立于表征学习阶段,而是联合学习视觉嵌入和聚类分配[5, 6, 11, 41]。虽然这两种方法都可以通过集成整个数据集的全局信息来产生有利于下游任务的可解释聚类结果,但在大型数据集上运行聚类算法会减慢训练速度。然而,这个问题可以通过以在线方式执行聚类来解决[11]。这些在线模型同时学习聚类和表示图像数据。然而,为了提高聚类的性能,利用叙述视频中存在的各种模式中可用的相关但非常互补的信息也是至关重要的[5]。为了学习更好的音频和视频特征提取器,最近的工作XDC[2]和SeLaVi[5]将这种聚类思想扩展到多模态空间。虽然这些方法专注于分别为每个领域学习更好的特征提取器,但我们的目标是学习联合多模态嵌入。如图2所示,这些跨域聚类方法(左)创建单独的聚类,并使用跨域伪标签作为每个特征提取器的监督。相比之下,我们的模型(右)在所有模态中创建了一个公共嵌入空间,并联合执行聚类。
图2:跨域聚类与联合聚类。(a)以前的方法,如XDC,在单独的空间执行聚类,并使用伪标签作为对其他域的监督。(b)我们的方法在联合空间中对来自不同模态的特征进行聚类,以学习多模态聚类。最好用彩色观看。
3.学习聚类多模态数据
为了从未标记的叙述视频有效地构建联合表示空间,我们从 n n n个叙述视频剪辑开始。每个视频剪辑与其对应的视觉表示、音频表示和文本叙述相关联。给定该输入,学习联合嵌入空间,其中具有语义相似的视觉、音频和文本内容的视频剪辑的嵌入彼此靠近,并且当内容不相似时分开,如图1所示。
使用[32]中的符号,对于每个剪辑,让视频 v ∈ V v ∈ \mathcal{V} v∈V表示其视觉表示, a ∈ A a ∈ \mathcal{A} a∈A表示其相应的音频, t ∈ T t ∈ \mathcal{T} t∈T表示其使用自动语音识别(ASR)系统生成的匹配文本叙述。给定一组 n n n个相关的视频、音频和文本叙述 { ( v i , a i , t i ) } i = 1 n ∈ ( V × A × T ) n \{(v_i, a_i, t_i)\}^n_{i=1} ∈ (\mathcal{V} ×\mathcal{A}×\mathcal{T} )^n {(vi,ai,ti)}i=1n∈(V×A×T)n,如图3(a)所示,我们首先构建三个参数化映射,它们从原始视频、音频和文本信号中导出嵌入表示。变换 f : V → R d f : \mathcal{V} → \mathbb{R}^d f:V→Rd从视频剪辑 V V V导出 d d d维嵌入表示 f ( v ) ∈ R d f(v) ∈ \mathbb{R}^d f(v)∈R