Attention Bottlenecks for Multimodal Fusion
多模态融合的注意力瓶颈
NeurIPS’2021
摘要
人类通过同时处理和融合来自视觉和音频等多种模态的高维输入来感知世界。与之形成鲜明对比的是,机器感知模型通常是模态特定的,并且针对单模态基准进行了优化,因此来自每个模态的最终表示或预测的后期融合(“后期融合”)仍然是多模态视频分类的主导范例。相反,我们引入了一种新颖的基于Transformer model的架构,该架构使用“融合瓶颈”进行多层模态融合。与传统的成对自我注意相比,我们的模型迫使不同模态之间的信息通过少量的瓶颈潜伏,要求模型整理和浓缩每个模态中的相关信息,并分享必要的信息。我们发现这种策略提高了融合性能,同时降低了计算成本。我们进行彻底的消融研究,并在包括Audioset、Epic-Kitchens和VGGSound在内的多个视听分类基准上取得了最先进的结果。所有代码和模型都将被发布。
1.引言
同时的多模态感觉是人类知觉学习的重要推动者[50]。然而,对于人工学习系统来说,由于许多因素,为模态融合设计统一模型是具有挑战性的:(i)模态之间学习动态的变化 [56],(ii)不同的噪声拓扑,一些模态流比其他模态流包含更多的任务信息,以及(iii)专门的输入表示。音频和视觉之间的输入表示差异尤其明显——许多最先进的音频分类方法依赖于短期傅立叶分析来产生log-mel频谱图,通常将它们用作为图像设计的CNN架构的输入[26, 48]。这些时间-频率表示对图像具有不同的分布——多个声学对象可以具有相同频率的能量,并且CNN的平移不变性可能不再是期望的属性(虽然声学对象可以在时间上移位,但频率的移位可能会完全改变含义)。相比之下,视频中的视觉流是三维的(两个空间和一个时间),并且虽然图像的不同空间区域对应于不同对象,但存在跨多个帧的高冗余的独特挑战。因此,对于不同的模态,输入表示以及因此神经网络架构和基准往往会有很大的不同。因此,为了简单起见,多模态融合的主要范例通常由一种特别方案组成,该方案涉及通过输出表示或分数集成独立的音频和视频网络,即“后期融合”[22,44]。
在这项工作中,我们提出了一个新的基于Transformer model的视频视听融合模型。尽管最初是为NLP任务提出的,但最近人们对transformers[54]作为通用感知模型[29]产生了兴趣,因为它们能够模拟标记之间的密集相关性,同时对它们的输入做出很少的假设(并且因为连续的感知输入可以被标记化)。通过将密集的连续信号分成块(patches)并对其进行展平到1D的token。Transformer已被证明在图像(ViT[16])和视频分类(ViViT[6])以及最近的音频分类(AST[23])方面具有竞争力。因为这些模型能够优雅地处理可变长度序列,所以自然的第一个扩展是将视觉和听觉patches的序列馈送到Transformer model,而对架构的改变最小。这种“早期融合”模型允许注意力在图像中的不同空间和时间区域之间自由流动,以及在音频频谱图中跨频率和时间流动。虽然理论上很吸引人,但我们假设模型所有层的完全成对注意力是不必要的,因为音频和视频输入包含密集、细粒度的信息,其中大部分是冗余的。对于视频来说尤其如此,如[6]的“因式分解”版本的性能所示。由于成对注意力与token序列长度的二次复杂性,这种模型也不能很好地扩展到更长的视频。为了缓解这一点,我们提出了两种方法来限制模型中的注意力流动。第一个来自多模态学习中的一个常见范例,即将跨模态流限制到网络的后期层,允许早期层专门学习和提取单模态模式。此后,这被称为“中间融合”(图1,中左),其中引入跨模态相互作用的层被称为“融合层”。这种情况的两个极端版本是“早期融合”(所有层都是跨模态的)和“晚期融合”(所有层都是单模态的),我们将其作为基线进行比较。我们的第二个想法(也是主要贡献)是限制层内token之间的跨模态注意力流。我们通过允许注意力在一个模态内自由流动来做到这一点,但迫使我们的模型在与另一个模态共享之前整理和“浓缩”来自每个模态的信息。核心思想是引入一小组潜在融合单元,形成“注意力瓶颈”,层内的跨模态交互必须通过该瓶颈。我们证明了这个“瓶颈”版本,我们称之为多模态瓶颈Transformer model(MBT),优于或匹配其无限制的对应版本,但具有更低的计算成本。
具体来说,我们做出了以下贡献:(i)我们提出了一种新的视听融合架构(MBT)。我们的模型通过紧密的融合“瓶颈”限制了潜在单元之间的跨模态信息流动,这迫使模型收集和“浓缩”每个模态中最相关的输入(因此仅与其他模态共享必要的输入)。这避免了完全成对注意力的二次缩放成本,并以更少的计算导致性能增益;(ii)我们将MBT应用于图像和频谱图patches(图2),并探索与融合层、输入采样和数据大小相关的许多消融;最后(iii)我们在许多流行的视听基准上为视频分类设定了新的最先进的水平,包括AudioSet[21]、Epic-Kitchens100[12]和VGGSound[10]。在Audioset数据集上,我们比当前的技术水平高出5.9 mAP(相对提高12.7%)。
2.相关工作
视听学习
视听多模态学习有着丰富的历史,无论是在深度学习时代之前还是期间[47]。鉴于可用数据和计算资源有限,早期工作侧重于相对简单的早期阶段(例如堆叠手工设计的特征)和后期阶段(例如分数融合)技术[11]。深度学习允许更复杂的策略,其中模态特异性或联合特征被隐式学习来间接融合。这一结果使得一系列下游监督视听任务取得了重大进展[43,34,17]。在监督设置中,可以联合训练多个特定于模态的卷积网络,然后通过求和[32]或通过“横向连接”[57]组合其中间激活。在无监督环境中,视听学习通常用于学习良好的单模态表示,一种流行的预训练任务是通过对比损失同步来自不同模态的信号[4, 5, 7, 44, 30, 2, 3],然而每个模态通常在这种设置下单独编码。
多模态Transformer
Transformer的自注意力操作提供了连接多模态信号的自然机制。多模态Transformer已经应用于各种任务,包括音频增强 [17, 53]、语音识别 [24]、图像分割[58, 53]、跨模态序列生成[39, 37, 49]、图像和视频检索 [25, 20, 8]、视觉导航[46]和图像/视频字幕/分类[41, 52, 51, 36, 28]。对于许多作品,Transformer的输入是单模态CNN的输出表示[35, 20]——与这些作品不同,我们自始至终使用Transformer model块,仅使用单个卷积层来光栅化2D patch。来自不同模态的token通常直接组合作为Transformer的输入[38],例如,最近发布的感知器模型[29]引入了一种迭代注意力机制,该机制将级联的原始多模态信号作为输入,这对应于我们的“早期融合”基线。相比之下,我们仔细检查了不同模态融合策略的影响,包括将跨模态注意力流限制到我们模型的后期层,以及通过我们提出的多模态瓶颈Transformer model(MBT)中的瓶颈“引导”跨模态连接。
3.多模态融合Transformer
在本节中,我们描述了我们提出的多模式瓶颈Transformer model(MBT)。我们首先总结了最近提出的视觉Transformer model(ViT) [16]和音频频谱图Transformer model(AST) [23],分别为图像和音频分类开发,在3.1.节。然后,我们描述了我们对视听融合案例的扩展。我们讨论了三种不同的令牌融合策略(第3.2节),最后讨论了整个模型中的融合路径(第3.3节),这涉及到将多模态融合限制在模型的某些层。
3.1 ViT和AST体系结构
视觉Transformer model(ViT)[16](以及最近对音频-音频频谱图Transformer model(AST)[23]的扩展)采用了最初为自然语言处理设计的Transformer model架构[54],以最小的变化处理2D输入。关键的见解是从RGB图像(或音频频谱图)中提取N个不重叠的patch, x i ∈ R h × w x_i∈\mathbb{R}^{h × w} xi∈Rh×w,并将它们转换成一系列1D token z i ∈ R d z_i∈\mathbb{R}^d zi∈Rd,如下所示:
这里, E \mathbf{E} E是将每个令牌映射到 R d \mathbb{R}^d Rd的线性投影, z c l s z_{cls} zcls是附加到该序列的特殊令牌,以便其在最后一层的表示可以传递给分类器用于分类任务[15], p ∈ R ( N + 1 ) × d \mathbf{p} ∈ \mathbb{R}^{(N+1)×d} p∈R(N+1)×d是添加到令牌以保留位置信息的学习位置嵌入(因为所有后续的自注意力操作都是排列不变的)。
然后,令牌通过由L个Transformer model层序列组成的编码器。每个Transformer model层由多头自注意力(MSA)、层归一化(LN)和使用残差连接应用的多层感知器(MLP)块组成。我们将Transformer model层 z l + 1 = T r a n s f o r m e r ( z l ) z^{l+1}= Transformer(z^l) zl+1=Transformer(zl)表示为
这里,MSA操作[54]计算点积注意力[54],其中查询、键和值都是同一张量的线性投影, M S A ( X ) = A t t e n t i o n ( W Q X , W K X , W V X ) MSA(\mathbf{X}) = Attention(\mathbf{W}^Q\mathbf{X}, \mathbf{W}^K\mathbf{X}, \mathbf{W}^V\mathbf{X}) MSA(X)=Attention(WQX,WKX,WVX)。我们进一步定义了两个张量 X \mathbf{X} X和 Y \mathbf{Y} Y之间的多头交叉注意力(MCA),其中X形成查询,Y形成用于将查询重新加权为 M C A ( X , Y ) = A t t e n t i o n ( W Q X , W K Y , W V Y ) MCA(\mathbf{X}, \mathbf{Y}) = Attention(\mathbf{W}^Q\mathbf{X}, \mathbf{W}^K\mathbf{Y}, \mathbf{W}^V\mathbf{Y}) MCA(X,Y)=Attention(WQX,WKY,WVY)的键和值。这将在我们的多模式案例中使用,如下所述。
3.2 多模态Transformer
我们现在描述我们对多模态情况的扩展。我们首先讨论三种不同的令牌融合策略。