Vision+X:基于数据的多模态学习综述
0.论文摘要和信息
摘要
摘要——我们以多感官的方式感知世界并与世界交流,不同的信息源由人脑的不同部分复杂地处理和解释,构成一个复杂但和谐统一的感知系统。为了赋予机器真正的智能,近年来随着新兴技术的进步,结合各种来源数据的多模态机器学习已经成为越来越受欢迎的研究领域。在本文中,我们从一个新的角度对多模态机器学习进行了综述,不仅考虑了纯粹的技术方面,还考虑了不同数据模态的内在本质。我们分析了每种数据格式的共性和独特性,主要包括视觉、音频、文本和运动,然后介绍了通过数据模态组合(如视觉+文本)分类的方法进步,稍微强调视觉数据。我们从表征学习和下游应用层面调查了关于多模态学习的现有文献,并根据它们与数据性质的技术联系提供了额外的比较,例如,图像对象和文本描述之间的语义一致性,以及视频舞蹈动作和音乐节拍之间的节奏对应性。我们希望利用数据模态的内在性质和技术设计之间的一致性以及现有差距,将有利于未来的研究,以更好地解决与具体多模态任务相关的特定挑战,促使统一的多模态机器学习框架更接近真实的人类智能系统。
作者信息
Ye Zhu, Member, IEEE, Yu Wu, Member, IEEE, Nicu Sebe, Senior Member, IEEE, and Yan Yan, Senior Member, IEEE
1.引言
我们通过人类的多感官系统,通过看到物体、听到声音、说语言以及书写和阅读文本来感知世界并与之交流。来自这些不同来源的信息由人脑的不同部分处理,如[5]、[20]、[252]所示。例如,枕叶充当视觉处理的主要中心,解释物体的距离和位置,而颞叶处理听觉信息,帮助我们理解声音。由后上颞叶韦尼克区促进的语言理解对于解码书面和口头单词都是至关重要的。其他感官信息,如触摸和运动,由不同的大脑区域处理。这些整合而又不同的功能形成了一个复杂而和谐的人类感知系统。人类神经处理中的专业划分突出了不同模态之间的独特和共享特征,启发我们根据本文中的数据思考多模态机器学习问题。
历史上,视觉、音频和文本数据通常在单独的研究领域(即计算机视觉、数字信号处理和自然语言处理)中进行研究。随着为机器带来真正的智能的最终目标,人工智能(AI)的研究已经远远超出了单一感知视角的开发,而是进入了一个以协作方式研究多个感知系统相互作用的时代,就像在人脑系统中一样。随着近年来多模态学习的研究变得越来越流行,我们提出了一个调查,不仅研究了最近文献的技术发展,而且阐述了数据特征,以及检查了这种技术设计的逻辑和它们各自的数据性质之间的联系。
为了更好地构建论文,我们采用了以计算机视觉文献为中心的分类法,使用视觉作为主要数据模态,同时结合其他数据模态,包括音频、文本等。这些模式有共性,但在性质、形式和评估标准方面也有独特的特征。例如,音频数据可以被分类为音乐、语音或环境声音,其中语音与文本密切相关,而音乐通常以更主观的方式与运动相关联。然后,我们讨论多模态表示学习,区分监督和非监督设置,以及用于处理各种模态的流行网络架构。这种分类强调了研究重点从传统的手动注释数据的监督学习到对未标记数据的大规模预训练的转变。
随后,我们深入研究了多模态学习的下游方面,将多模态应用分为两个主要方向:判别应用和生成应用。对于每个方向,我们以视觉+X的形式对现有文献进行分组,其中X主要代表非视觉数据模态。该框架强调了跨不同场景的多模态学习的适应性和实用性。例如,类似于人类的多感官感知,结合视觉和语言对于字幕等任务至关重要,字幕提供视觉内容的文本描述,或基于视觉线索想象声音。回顾各种突出的多模式任务表明,尽管数据模式和目标不同,但出现了共同的技术方法。我们的详细分析研究了这些技术复杂性及其对底层数据属性的反映,加强了数据类型和模型策略之间的联系。这一探索也解决了多模态学习中的普遍挑战和未来方向。
与其他关于多模态学习的调查[15]、[18]、[91]、[115]、[143]、[283]相比,我们从数据本身的独特角度来解决问题。这种新颖的视角使我们能够在多模态数据的固有特征和方法的设计之间建立联系,从而在两个主要方面对多模态研究的未来进行深刻的讨论。一方面,我们认为强调和利用特定数据模态的独特特征将有助于解决与这些模态相关的具体应用问题。另一方面,认识到不同模态之间的共性将使研究人员能够构建一个更加统一和协作的框架,反映真实人类智能系统的能力。
如图1所示,论文的总体结构如下:第2节,我们首先根据不同模态的数据特征提供分析,重点是视觉、音频和文本。接下来,我们在第3节中探索多模态表征学习,根据当前流行的模型架构和不同的学习设置进行细分。在第4和第5节中,我们分别提出了具有判别和生成任务的具体多模态应用。除了任务和技术介绍之外,我们还通过将现有文献与其数据特征联系起来,做出了额外的努力,如第2节所述,揭示在特定方法和模型中处理和寻址哪个数据属性。第6节中,上述回顾构成了我们讨论现有挑战和未来可能方向的基础。第7节包括结束语和结论。
图1。我们综述的总体结构。我们首先介绍不同的数据模态及其特征,以及多模态数据集的例子。然后,我们介绍了按学习环境分类的表征学习领域。接下来,我们主要将应用领域分为判别方向和生成方向,并根据数据模态的组合进行更详细的分类。
2.数据分析
在本节中,我们通过分析多种数据模态的特征和共性来阐述它们的内在本质。附录A中列出了常用的多模态数据集,并提供了详细说明。
各种多模态数据集概述。R和S分别表示真实世界和合成性质。我们在本表中只列出了与多模态和跨模态问题相关的典型应用。一些大规模基准数据集(如MSCOCO)也广泛用于其他任务,如目标分割和检测。上述数据集的详细介绍见附录A。
2.1 视觉
我们将视觉数据分为图像和视频。作为人类感官系统和计算机视觉文献中的主要信息源,视觉数据因其高维度而通常被认为是“原始数据”。它包含了丰富的功能和细节,代表了丰富的视觉内容。然而,连续空间和时间方面的冗余对多模态学习任务中的处理、分析和有效利用提出了挑战。
图像
图像是计算机视觉研究的基础,其特征在于它们对变换的固有不变性。这一关键属性推动了经典图像处理方法和CNN等深度学习技术的发展,以提取有意义的视觉特征。
在深度学习之前,图像处理和计算机视觉研究主要旨在通过使用机器学习技术的手动特征提取和分析管道来破译图像内容和模式。例如,尺度不变特征变换(SIFT)[156]和定向梯度直方图(HOG)[54],以及加速鲁棒特征(SURF) [17]是主要用于计算机视觉和图像处理的流行图像特征描述符的三个例子。在提取这些描述性特征后,使用一些机器学习算法,如支持向量机(SVM)[51]和主成分分析(PCA)[267]来进一步分析特征数据。随着深度神经网络架构[95]、[131]、[216]的快速发展以及ImageNet[62]、[202]等大规模图像数据集的可用性,计算机视觉进入了一个新时代,特征提取和分析的经典过程已被自动集成到神经网络设计中。
此外,计算机视觉在图像领域的应用已经从简单的图像分类[216], [216]广泛扩展和丰富到各种任务场景,如图像内的目标检测[310]和分割 [154]。除了上述旨在从现有图像中挖掘数据模式的判别任务应用之外,还有另一个应用分支旨在使用生成神经网络合成图像数据。
视频
视频是计算机视觉界广泛研究的另一种常见视觉数据形式[177]、[183]、[281]。与静态图像不同,视频跨时间维度封装信息。例如,视频中的人类动作通常由随时间在连续视频帧中描绘的一系列特定移动来定义,因为视觉上下文中的这种一致性和变换只能以视频的格式呈现。视频数据的这种时间特性也影响基于视频的应用,这些应用通常需要对时间元素(例如,动作、运动、光流)的额外理解和分析[46]、[230]。虽然由神经网络编码的常规图像表示可以应用于单个帧,但是提取视频表示需要寻址时间相关帧之间的连接。学习视频数据表示的直观和经典方法是将传统的2D卷积神经网络扩展到具有额外时间维度的3D架构中,一个值得注意的例子是为视频中的动作识别提出的I3D模型[30]。
关于基于视频的应用,这些任务类似于图像领域中的任务,其中最流行的判别任务包括视频分类(有时称为动作识别)[30]和分割[241],以及寻求直接合成视频的生成任务[243]。对于后者,OpenAI[24]的Sora作为最新的大型视频生成器脱颖而出。
2.2 音频
传统上,音频处理的研究主要停留在数字信号处理的研究领域。在本次调查中,我们重点介绍三种主要类型的音频数据:语音、音乐和环境声音。
这些音频类型中的每一种在各种多模态任务应用中都具有相关性和适用性,进一步强调了多模态学习背景下音频数据的多样性。与视觉数据类似,音频信号是一种可以直接从环境中捕获的“原始数据”。然而,与静态图像不同,音频信号在时间维度上具有固有的连续性。
音乐
音乐是一种特殊类型的音频数据,在我们的日常生活中发挥着重要作用。音乐作为一种表现艺术形式,被认为是一个人内心世界的载体和反映。一般来说,音乐本身有传统古典音乐、交响乐、现代流行音乐、乡村音乐等多种流派。音乐也可以分为叙事音乐和插入音乐两类。叙事音乐是故事叙述中不可或缺的一部分,存在于故事的世界中,并被故事中的角色感知。相比之下,附带音乐只是为了观众的体验,强调情感和场景,而不是故事世界的一部分。音乐分类通常是主观的,对特定流派的分类不太严格。这些类型的一个共同特征是具有高听觉质量的音乐片段具有相对大的采样率。例如,对于CD质量的音乐,采样率为44.1 kHz[67],这导致一分钟音乐作品超过200万个数据点。
从科学研究的角度来看,音乐音频波形的高维度给数据处理带来了困难,因此,研究人员开发了不同形式的音乐数据表示。在这项调查中,我们根据音乐数据表示是否是通过深度学习技术获得的。对于“非基于学习的”音乐表征,我们可以进一步将它们分为连续和离散的子类别。用于音频(包括音乐)的最一般的基于非学习的连续数据格式是如图2(a)所示的波形。波形是描述由空气振动在时域中测量的声压变化的二维数据。另一种流行和通用的音频表示类型是频谱图。与强调音频信号的时间变化的波形相比,频谱图还反映了声音随时间的频率含量,如图2(b)所示。在大多数情况下,我们将波形称为原始音频数据。1D 钢琴卷轴[72]和2D乐器数字接口(MIDI)是经典的离散表示[22]。如图2©所示,1D 钢琴卷轴是稀疏数据表示格式,其中水平轴是时间戳,并且垂直轴表示声学音高。2D MIDI可以被解释为具有乐器类型的合成钢琴卷帘格式,如图2(d)中由不同颜色表示的。1D pianoroll和2D MIDI离散形式都可以通过预定义的音乐合成器解码回原始音频空间。另一方面,“基于学习的”表示可以类似地由它们的离散和连续性质来指定。深度学习的最新进展引入了新的基于学习的离散表示,即矢量量化(VQ),以进一步将高维数据减少到离散token空间[179], [197]。基于连续学习的音乐表示与视觉数据中的音乐表示具有相似的属性,其中我们通常采用神经网络(如CNN)将原始音频信号编码为具有所需维度的嵌入特征。
图2.不同音频数据表示的图示。从上到下:(a)波形中的原始音频数据;(b)melspectrogram中的音频数据;(c)来自[72]的1D钢琴卷中的音乐片段,其中水平轴和垂直轴分别表示时间戳和音频音高;(d)来自[184]的MIDI音乐作品,其中颜色代表不同的乐器类型。
与其他数据模态相比,音乐音频信号在应用于特定下游任务时具有几个需要考虑的独特特征。首先,音乐数据是一个序列,其中应该强调完整音乐作品内的时间一致性。此外,除了时间维度之外,音频数据通常通过其频谱图表示形式的频率特征来表征。除了时间连贯性,节奏是评估音乐质量时需要考虑的另一个重要的独特音乐特征。
语音
语音主要是指口语的音频信号,与自然语言有着内在的对应关系。语音的数据表示类似于音乐,其中波形和频谱图是非基于学习的类别中常用的类型。然而,语音音频的一个显著独特性在于其与语言的自然相关性,其中语音音频的离散表示与语言标记对齐。因此,与音乐音频中使用的基于学习的VQ表示相比,语音的离散语言token驱动表示具有更统一的格式。当涉及到架构