Abstract
多模态人类语言时间序列数据建模的两个主要挑战:1)由于每个模态序列的采样率可变而导致的固有数据未对齐; 2)跨模态元素之间的长期依赖关系。
引入了多模态转换器 (MulT) 以端到端的方式通用解决上述问题,而无需显式对齐数据。模型的核心是定向成对跨模态注意,它关注跨不同时间步长的多模态序列之间的交互,并潜在地将流从一个模态适应到另一个模态。
1 Introduction
音频和视觉流的受体可能因可变接收频率而异,因此我们可能无法获得它们之间的最佳映射。皱眉的脸可能与过去所说的悲观词有关。通常表现出“未对齐的”性质,需要推断跨模态的长期依赖关系。
电影评论中的示例视频剪辑。[上]:词级对齐的图示,其中视频和音频特征在每个口语单词的时间间隔内进行平均。[下] 文本(“spectacle”)和视觉/音频之间的跨模态注意力权重的图示。
2 Related Works
本文从 NMT(神经机器翻译)吸收了强大的灵感,以扩展到多模态设置。虽然 NMT 转换器专注于从源文本到目标文本的单向翻译,但人类多模态语言时间序列既不像词嵌入那样充分表示也不离散,每个模态的序列具有截然不同的频率。因此,建议不要明确地将一种模态翻译成另一种模态,而是通过注意力潜在地适应跨模态的元素。因此,我们的模型 (MulT) 没有编码器-解码器结构,但它是由多层成对和双向跨模态注意块构建的,这些注意块直接关注低级特征(同时去除自注意力)。
3 Proposed Method
多模态Transformer (MulT)(图 2)来建模未对齐的多模态语言序列。在高层次上,MulT 通过来自多个方向成对交叉模态Transformer的前馈融合过程合并多模态时间序列。具体来说,每个跨模态Transformer通过学习两种模态特征的注意力,使用来自另一个源模态的低级特征反复强化目标模态。因此,MulT 架构使用这种跨模态转换器对所有模态对进行建模,然后使用融合特征进行预测的序列模型(例如自注意力Transformer)。
3.1 Crossmodal Attention
我们考虑两种模态 α 和 β,它们中的每一个都有两个(可能未对齐的)序列,分别表示为和
。对于本文的其余部分,
和
用于表示序列长度和特征大小。受 NMT中将一种语言翻译成另一种语言的解码器转换器的启发,我们假设融合跨模态信息的一个很好的方法是提供跨模态的潜在适应;即 β 到 α。
我们将Querys定义为 ,Keys定义为
,Values定义为
,其中
,
和
是权重。从β到α的潜在适应表现为跨模态注意
:
的长度与
(即
)相同,同时在
的特征空间中表示。具体来说,等式 (1) 中的缩放(通过
)softmax 计算一个分数矩阵
,其
个条目测量模态 α 的第 i 个时间步长给出的注意力到模态 β 的第 j 个时间步长。因此,
的第 i 个时间步长是
的加权和,权重由 softmax(·) 中的第 i 行决定。我们将等式 (1) 称为单头跨模态注意力,如图 3(a) 所示。
继之前关于Transformer的工作之后,我们在跨模态注意力计算中添加了残差连接。然后,注入另一个位置前馈子层以完成跨模态注意块(见图 3(b))。每个跨模态注意块直接从低级特征序列(即图 3(b) 中的 适应,不依赖于自注意力,这使得它不同于 NMT 编码器解码器架构(即采用中间级特征)。我们认为,从低级特征执行适应有利于我们的模型保留每个模态的低级信息。
3.2 Overall Architecture
多模态语言序列通常涉及三种主要模态:语言 (L)、视频 (V) 和音频 (A) 模态。我们用 表示来自这 3 个模态的输入特征序列(及其维度)。
Temporal Convolutions.为了确保输入序列的每个元素对其邻域元素有足够的认识,我们将输入序列通过一维时间卷积层传递:
其中 是模态 {L, V, A} 的卷积核的大小,d 是公共维度。卷积序列有望包含序列的局部结构,序列是以不同的采样率收集的。此外,由于时间卷积将不同模态的特征投影到相同的维度 d,因此点积在跨模态注意模块中是可以接受的。
Positional Embedding.为了使序列携带时间信息,我们将位置嵌入 (PE) 增强为 :
其中 计算每个位置索引的(固定)嵌入,
是为不同模态生成的低级位置感知特征。
Crossmodal Transformers.基于跨模态注意块,我们设计了跨模态转换器,使一种模态能够从另一种模态接收信息。在下文中,我们使用将视觉 (V) 信息传递给语言 (L) 的示例,用“V → L”表示。我们将每个跨模态注意块的所有维度 固定为 d。每个跨模态transformer由 D 层跨模态注意块组成(见图 3(b))。形式上,跨模态转换器为 i = 1 向前计算。, D 层:
其中 是由 θ 参数化的位置前馈子层,
表示第 i 层
的多头(注意:d 应该可以被头的数量整除,LN 表示层归一化。
在这个过程中,每个模态都通过来自多头跨模态注意模块的低级外部信息不断更新其序列。在跨模态注意块的每个级别,来自源模态的低级信号被转换为一组不同的键/值对以与目标模态交互。根据经验,我们发现跨模态转换器学会跨模态关联有意义的元素。
最终的 MulT 基于对每对跨模态交互进行建模。因此,在考虑 3 个模态(即 L、V、A)的情况下,我们总共有 6 个Transformer(见图 2)。
Self-Attention Transformers and Prediction.作为最后一步,我们将共享相同目标模态的跨模态转换器的输出连接起来,以产生 。例如,
。然后,它们中的每一个都通过一个序列模型来收集时间信息进行预测。我们选择自注意力transformer ,最终,提取序列模型的最后一个元素通过全连接层进行预测。
3.3 Discussion about Attention & Alignment
在对未对齐的多模态语言序列建模时,MulT 依赖于跨模态注意块来合并跨模态的信号。虽然多模态序列在训练之前(手动)与之前的工作中的相同长度对齐,但我们注意到 MulT 通过完全不同的视角查看未对齐的问题。具体来说,对于 MulT,多种模式元素之间的相关性纯粹基于注意力。换句话说,MulT 不通过(简单地)对齐模态不对齐;相反,跨模态注意力鼓励模型直接关注存在强信号或相关信息的其他模态中的元素。因此,MulT 可以以传统对齐不容易揭示的方式捕获远程跨模态意外事件。另一方面,经典的跨模态对齐可以表示为一个特殊的跨模态注意矩阵。
4 Experiments
5 Discussion
在本文中,我们提出了多模态Transformer (MulT) 来分析人类多模态语言。MulT 的核心是跨模态注意机制,它提供了一种潜在的跨模态适应,通过直接关注其他模态中的低级特征来融合多模态信息。尽管以前的方法主要集中在对齐的多模态流上,但 MulT 作为一个强大的基线,能够捕获远程意外事件,而不管对齐假设如何。
MulT 在未对齐的人类多模态语言序列上的结果为其未来应用提出了许多令人兴奋的可能性(例如,视觉问答任务,其中输入信号是静态和时间演化信号的混合)。