【论文链接】https://arxiv.org/abs/2209.14156
问题动机
人类通过来自多种模态的信号来感知和学习外部世界。为了在机器中体现这种人类学习,大量的研究工作致力于开发视觉和语言 (VL) 模型,这些模型可以理解视觉和语言模式之间的联合语义,并解决视觉问答等任务。此外,我们目睹了 AI 模型在虚拟助手和智能扬声器等现实世界产品中的使用越来越多,其中视频和音频等感知级信号是输入的自然形式。直观地,对此类信号的直接建模可能会产生更紧凑和有效的表示。然而,在没有书面语言的情况下,使用只接受低级视觉和听觉输入的转换器来学习 VL 表示并非易事。挑战在于文本和声音信号之间的差异;文本是离散的、信息密集的,而声音信号是连续的、信息稀疏的。
解决方法
在这项工作中,我们提出了基于视频数据作为原始视觉和音频输入的自然来源的视觉和语言表示学习的无文本视觉语言Transformer (TVLT)。下图是以前的 VL 架构与我们提出的无文本框架 TVLT 的比较。从 VL 管道中移除自动语音识别 (ASR) 可带来效率提升,同时保持竞争性能。对于推理时间计算,我们使用 8 个视频帧和 20 秒音频。
TVLT 接受低级视频帧和音频频谱图作为输入。我们为 TVLT 采用极简主义设计,其中同质变换器块用于编码器和解码器。 TVLT 通过重建连续视频帧和音频频谱图(屏蔽自动编码)的屏蔽补丁和对比建模来对齐视频和音频。更重要的是,TVLT 不假设书面语言的存在,也不涉及文本输入的显式建模,例如自动语音识别 (ASR) 或标记化,这些是现有 VL 模型成功地将书面概念与视觉线索。
1. 输入embeddings
TVLT 的输入嵌入是 (1) 模态嵌入,(2) 视频的时间/空间嵌入,(3) 音频的时间/频率嵌入,以及 (4) 视觉/音频补丁嵌入的总和。
2. 多模态编码器-解码器
TVLT 的主要架构是一个Transformer,由一个 12 层编码器(隐藏大小 768)E 和一个 8 层解码器(隐藏大小 512)D 组成。预训练后,我们仅使用编码器表示对下游任务进行微调。
预训练目标:凭借我们的最小化和模态不可知论设计,TVLT 预训练有两个目标:(1) 视觉-音频匹配,(2)掩码自动编码。对于每个训练批次,我们通过单独的前向传递计算每个目标,并使用它们的加权和作为最终损失。
掩码策略:
(1)视觉掩码。遵循 MAE,我们随机屏蔽 75% 的视觉块,并且屏蔽独立应用于每个视频帧。
(2)音频掩码。按照 MAE-AST,我们随机屏蔽了 75% 的频谱图块。为了更好地捕获与语音相关的音频表示,我们强调语音音频的音频掩蔽。
实验结果
启发
本文通过进一步挖掘音频和视频的信息,接收低级的视觉和音频信号以进行视觉和语言表征学习,可以和基于文本的模型达到相当的性能,同时还加快了速度。多模态情绪分析的三种模态中一般以文本为主导,音频和视频为辅助作用,导致如果文本信息没有明确情绪信号,容易分类错误,可以考虑使用该模型进一步对音频和视频信息的理解。