【综述】Vision + X: A Survey on Multimodal Learning in the Light of Data-CSDN博客

本文链接：https://blog.csdn.net/weixin_46231495/article/details/146373792

介绍

Comment: Survey paper on multimodal learning and generation, to appear at IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

论文于2022年10月提交，2024年6月接收。内容不新，也不深。主要起到一个，介绍科普的作用。

**题目：**视觉 + X：数据视角下的多模态学习综述
摘要：
我们以多感官的方式感知和与世界交流，不同的信息源由人类大脑的各个部分进行复杂的处理和解释，从而构成一个复杂却和谐统一的感知系统。近年来随着技术进步的涌现，为了使机器具备真正的智能，融合多源数据的多模态机器学习已成为一个日益流行的研究领域。

在本文中，我们从一种新颖的视角对多模态机器学习进行了综述。首先分析了涵盖视觉、音频、文本和运动等数据格式的共性与独特性，并按照数据模态的组合（如视觉+文本）展示了方法论的进展，其中略微倾向于对视觉数据的强调。
我们研究了现有关于多模态学习的文献，从表示学习和下游应用两个层面进行分析，并根据其与数据性质的技术联系提供了额外的比较，例如图像对象与文本描述之间的语义一致性，以及视频舞蹈动作与音乐节拍之间的节奏对应关系。

我们希望利用对齐以及数据模态内在性质与技术设计之间的现有差距，将有助于未来的研究更好地解决与具体多模态任务相关的特定挑战，推动一个更接近真实人类智能系统的统一多模态机器学习框架。

总结：

在本文中，我们从数据特征的独特视角对多模态学习领域进行了综述。我们首先主要分析了视觉、音频和文本等不同数据模态的内在特性。接着，我们介绍了多模态表示学习，并根据学习设置对现有文献进行了分类。在多模态领域的一般表示学习之后，我们进一步介绍了具体的任务应用，这些应用分为判别性和生成性两类，每类都以“视觉 + X”的形式按特定数据组合划分为子类。对于判别性任务，我们在介绍任务相关工作后，还从数据的角度进行了回顾，分析了现有技术设计及其与不同模态数据特性之间的联系。对于生成性任务，我们在详细解释任务之前，首先介绍了流行的生成骨干模型。最后，我们讨论了多模态学习领域的挑战和未来发展方向。
在这里插入图片描述

1 引言

人类神经处理中的专门分工，突出了不同模态之间独特和共享的特征，这启发我们在本文中从数据的角度思考多模态机器学习问题。

当今人工智能（AI）的研究以赋予机器真正智能为最终目标，已远远超越了单一感知视角的探索，而是进入了一个研究多感知系统协同作用的时代，正如人类大脑系统一样。随着近年来多模态学习研究日益流行，我们提出了一项综述，不仅研究了近期文献的技术发展，还详细阐述了数据特征，并探讨了此类技术设计逻辑与其各自数据性质之间的联系。

为了更好地构建论文结构，我们采用了一种以计算机视觉文献为中心的分类法，将视觉作为主要的数据模态，同时结合其他模态，包括音频、文本等。这些模态既有共同点，又在性质、格式和评估标准方面具有独特特征。例如，音频数据可以分为音乐、语音或环境声音，其中语音与文本密切相关，而音乐通常以更主观的方式与运动相关联。随后，我们讨论了多模态表示学习，区分了有监督和无监督的设置，并介绍了处理各种模态的流行网络架构。这种分类强调了研究重点从传统的有监督学习（使用人工标注数据）向大规模无标签数据预训练的转变。

随后，我们深入探讨多模态学习的下游应用，将多模态应用分为两个主要方向：判别式应用和生成式应用。针对每个方向，我们以“视觉+X”的形式对现有文献进行分类，其中X主要代表非视觉数据模态。这一框架突出了多模态学习在不同场景中的适应性和实用性。例如，类似于人类的多感官感知，结合视觉和语言对于诸如字幕生成（为视觉内容提供文本描述）或基于视觉线索想象声音等任务至关重要。回顾各种重要的多模态任务可以发现，尽管数据模态和目标不同，但共享的技术方法仍然出现。我们探讨了这些技术细节及其对底层数据属性的反映，从而加强了数据类型与模型策略之间的联系。这一探索还涉及多模态学习中的当前挑战和未来方向。

与其他关于多模态学习的研究[15]、[18]、[91]、[115]、[143]、[283]相比，我们从数据本身的独特视角来探讨这一问题。这一新颖的视角使我们能够在多模态数据的固有特征与方法设计之间建立联系，从而从两个主要方面深入探讨多模态研究的未来。一方面，我们认为强调并利用特定数据模态的独特特征将有助于解决与这些模态相关的具体应用问题。另一方面，认识到不同模态之间的共性将使研究人员能够构建一个更加统一和协作的框架，以反映真实人类智能系统的能力。

论文的整体结构如图1所示，具体如下：在第2节中，我们首先针对不同模态（重点关注视觉、音频和文本）的数据特性进行了分析。接着，在第3节中，我们探讨了多模态表示学习，并按照当前流行的模型架构和学习设置进行了细分。在第4节和第5节中，我们分别介绍了具体的多模态应用，包括判别式任务和生成式任务。除了任务和技术介绍外，我们还特别努力将现有文献与第2节中提到的数据特性联系起来，揭示特定方法和模型所处理的数据属性。上述回顾为我们在第6节中讨论现有挑战和未来可能方向奠定了基础。第7节包含了最终的评论和结论。

2数据特征分析

2.1 视觉

我们将视觉数据分为图像和视频。作为人类感知系统和计算机视觉文献中的主要信息来源，视觉数据由于其高维度，通常被视为“原始数据”。它包含了丰富的特征和细节，代表了丰富的视觉内容。然而，连续空间和时间方面的冗余为多模态学习任务中的处理、分析和高效利用带来了挑战。

图像：

图像是计算机视觉研究的基础，其特点在于对变换具有固有的不变性。这一关键属性推动了经典图像处理方法和深度学习技术（如卷积神经网络）的发展，以提取有意义的视觉特征。

在深度学习时代之前，图像处理和计算机视觉研究主要通过使用机器学习技术进行手动特征提取和分析的流程来解读图像内容和模式。例如，尺度不变特征变换（SIFT）[156]、方向梯度直方图（HOG）[54]和加速稳健特征（SURF）[17]是三种广泛用于计算机视觉和图像处理的流行图像特征描述符。在提取这些描述性特征后，一些机器学习算法如支持向量机（SVM）[51]和主成分分析（PCA）[267]被用于进一步分析特征数据。随着深度神经网络架构[95]、[131]、[216]的快速发展以及大规模图像数据集（如ImageNet）的可用性，计算机视觉进入了一个新时代，其中经典的特征提取和分析过程已自动集成到神经网络设计中。

此外，计算机视觉在图像领域的应用已经从简单的图像分类[216]广泛扩展和丰富到图像中的各种任务场景，如目标检测[310]和分割[154]。除了上述旨在从现有图像中挖掘数据模式的判别任务应用外，还有另一类应用旨在使用生成神经网络合成图像数据。

视频：

与静态图像不同，视频在时间维度上封装了信息。例如，视频中的人类动作通常由一系列在连续视频帧中随时间描绘的特定动作定义，这种视觉上下文中的一致性和变换只能以视频的形式呈现。视频数据的这种时间特性也影响了基于视频的应用，这些应用通常需要对时间元素（如动作、运动、光流）进行额外的理解和分析[46], [230]。虽然由神经网络编码的传统图像表示可以应用于单个帧，但提取视频表示需要解决时间相关帧之间的连接问题。学习视频数据表示的一种直观且经典的方法是将传统的2D卷积神经网络扩展到具有额外时间维度的3D架构中，一个显著的例子是用于视频动作识别的I3D模型[30]。

基于视频的应用任务与图像领域中的任务类似，其中最流行的判别任务包括视频分类（有时称为动作识别）[30]和分割[241]，而生成任务则旨在直接合成视频[243]。对于后者，OpenAI的Sora[24]作为最近的大型视频生成器脱颖而出。

2.2 音频

传统上，音频处理的研究主要属于数字信号处理的研究领域。在本综述中，我们重点介绍了**三种主要类型的音频数据：语音、音乐和环境声音。**每一种音频类型在多模态任务应用中都具有相关性和适用性，进一步强调了多模态学习中音频数据的多样性。与视觉数据类似，音频信号是一种可以直接从环境中捕获的“原始数据”。然而，与静态图像不同，音频信号在时间维度上具有固有的连续性。

音乐：

音乐是一种特定类型的音频数据，在我们的日常生活中扮演着重要角色。作为一种表达性艺术形式，音乐被视为个人内心世界的载体和反映。一般来说，音乐本身有多种流派，如传统古典音乐、交响乐、现代流行音乐、乡村音乐等。此外，音乐还可以分为叙事性音乐和配乐两类。叙事性音乐是叙事的重要组成部分，存在于故事的世界中，并被故事中的角色感知。相比之下，配乐仅用于观众的体验，用于烘托情感和场景，而不属于故事世界的一部分。音乐分类通常具有主观性，对于特定流派的分类并不严格和严谨。这些流派的共同特点是，具有高听觉质量的音乐作品通常具有相对较高的采样率。例如，对于CD质量的音乐，采样率为44.1kHz [67]，这导致一分钟的音乐作品包含超过200万个数据点。

从科学研究的角度来看，音乐音频波形的高维度给数据处理带来了困难，因此，研究人员开发了不同形式的音乐数据表示方法。在本综述中，我们根据这些表示方法是否通过深度学习技术获得，将其分类为“非学习型”和“学习型”。

对于“非学习型”音乐表示，我们可以进一步将其分为连续和离散两个子类别。最通用的非学习型连续音频数据格式（包括音乐）是波形，如图2(a)所示。波形是一种二维数据，描述了在时域中通过空气振动测量的声压变化。另一种流行且通用的音频表示形式是频谱图。与强调音频信号时间变化的波形相比，频谱图还反映了声音随时间变化的频率内容，如图2(b)所示。在大多数情况下，我们将波形称为原始音频数据。一维钢琴卷[72]和二维乐器数字接口（MIDI）是经典的离散表示形式[22]。如图2©所示，钢琴卷是一种稀疏数据表示格式，其中横轴是时间戳，纵轴表示音高。二维MIDI可以解释为一种带有乐器类型的组合钢琴卷格式，如图2(d)中不同颜色所示。一维钢琴卷和二维MIDI离散形式都可以通过预定义的音乐合成器解码回原始音频空间。

另一方面，“基于学习”的表征同样可以通过其离散和连续的特性来定义。深度学习的最新进展引入了一种新的基于学习的离散表征方法，即向量量化（VQ），以进一步将高维数据降维到离散的标记空间[179]，[197]。基于学习的连续音乐表征与视觉数据中的表征具有相似的属性，通常采用诸如卷积神经网络（CNN）等神经网络将原始音频信号编码为具有所需维度的嵌入特征。

与其他数据模态相比，音乐音频信号在应用于特定下游任务时具有几个独特的特征需要考虑。首先，音乐数据是一种序列，需要强调完整音乐片段内的时间连贯性。除了时间维度外，以频谱图为表示形式的音频数据还有频率特征。除了时间连贯性，节奏是评估音乐质量时需要考虑的另一个重要且独特的音乐特征。

语音：

语音主要指口语的音频信号，与自然语言密切相关，具有内在的对应关系。语音的数据表示与音乐类似，波形和频谱图是非学习类方法中常用的类型。然而，语音音频的一个显著独特性在于其与语言的自然关联，语音音频的离散表示与语言符号相对应。因此，与音乐音频中使用的基于学习的VQ表示相比，语音特征的离散语言符号驱动表示具有更统一的格式。这一特性也影响了架构选择时的方法论设计，如本文后续部分所述。

在语音应用领域，经典的语音分离任务旨在从复合音频中分离出单个语音轨道，这一任务已得到深入研究[14]。另一个关键任务是自动语音识别（ASR）[295]，其重点是将口语转换为文本。ASR系统旨在准确转录人类语音，使其成为语音激活界面和转录服务的核心。同时，由于语音与语言之间的内在对应关系，语音数据常被应用于多语言翻译问题[70]或音频与文本之间的跨模态翻译[49]。近年来，多模态生成领域的研究也开始探索从视觉输入（如说话时的嘴唇动作）生成语音[124]。

存在另一种针对听障和言语障碍群体的特殊语言形式，即“手语”。与可听语音不同，手语需要通过手势的视觉信号进行解释，因此与视觉和运动数据具有天然的联系。专注于手语的研究探索了诸如手语识别和生成等任务[21]，[196]。本质上，手语识别旨在将特定的手势转化为文本数据，而生成则涉及相反的过程。尽管手语被归类为“语音”范畴，但其数据集[74]，[172]通常包含视觉数据，如图像和视频，并附有语言注释。

环境声音：

除了语音和音乐之外，还有其他类型的音频信号，例如伴随某些事件的声音，我们在本调查中将其称为“环境声音”。与主观的音乐和与自然语言密切相关的语音相比，**环境声音更常与视频结合使用，以描述特定的动作和事件。**例如，我们自然会将婴儿哭泣的声音与显示相应视觉场景的视频联系起来。这种独特的对应关系使环境声音能够为传统的视频动作识别任务提供额外的信息，利用音频模态[113]，[239]。上述音频表示方法也适用于环境声音。

然而，与音乐和语音音频信号相比，环境声音表现出更多的噪声特性，且预处理较少。与音乐不同，音乐可以使用高度处理的数据格式（如MIDI）来表示，而语音则受益于与文本的自然对应关系，环境声音的表示则更为模糊。它缺乏像语音中的离散标记表示或音乐中的节奏等特定特征。这些特性导致了环境音频表示中固有的模糊性和挑战。

2.3 文本

文本在自然语言处理（NLP）领域的研究已有多年历史。尽管文本数据存在多种格式，但在这篇多模态学习的综述中，我们主要关注介绍几种与其他数据模态密切相关的文本数据类型。近年来，NLP领域受到了广泛关注，尤其是在开发大型语言模型（LLMs）如GPT-3 [193]方面取得的显著成功。NLP领域的巨大成就与文本数据和语言的特性密切相关。

与视觉和音频信息这些可以被视为“原始数据”不同，文本数据经过了大量的处理。更具体地说，它是一种随着人类文明发展而演变的数据类型，尽管存在语言差异，但其格式高度统一且语义精确。这表明文本具有高度的信息密度和紧凑性，而视觉和音频信号通常包含大量的信息冗余。文本在应用方面的另一个独特特征是，大多数自然语言处理（NLP）任务的问题表述可以在“下一个词预测”的概念下统一。这种表述代表了各种NLP任务中共同的底层结构，这有助于该领域内的连贯性和一致性，并通过大型基础模型解决多种任务的潜力[19]。

字幕：

字幕提供了句子描述，总结了视觉和文本相关的多模态作品中的全部或部分视觉内容。它们可能由单个句子组成，也可能扩展为由多个句子组成的较长段落。词袋模型（Bag-of-Words, BOW）[168] 是一种经典的文本表示形式，它将文本语料库表示为其词汇的多重集（即“词袋”）。随着深度学习的发展，字幕也经常通过具有内部记忆状态的循环神经网络（RNNs）（例如LSTM [105]）进行处理，以获得基于学习的表示。与通过卷积神经网络（CNNs）处理的视觉数据相比，RNNs中的记忆状态设计允许在给定句子中的连续词之间建立循环连接，从而更好地解释整体文本特征。自然语言处理（NLP）领域最近的一个突破是BERT（来自Transformer的双向编码器表示）[66]的成功，这是一种用于词嵌入的大规模预训练模型。这一独特特性在后续涉及字幕的研究中得到了广泛关注。

对话

对话是多模态机器学习中另一种常见的文本数据形式，与字幕不同，其本质上是交互性的，涉及参与者之间的对话，具有逻辑连贯性，而非对视觉内容的单方面描述。因此，在处理对话数据时，不仅需要像处理普通字幕一样关注句子中的词语，还需要关注完整对话中不同句子之间的联系。在视觉与语言的多模态学习文献中，对话的这些独特特性通常通过在框架设计中引入一个额外的数据组件——历史——来解决。该组件通常捕捉对话的流程，包括先前的交流内容，并通过与单句处理模块并行的专用机制进行处理。

问答：

文本数据的一个更具体的类别是问答。虽然其表示形式总体上与其他文本数据（如词元）相似，但它们通常被用于视觉-语言任务中，作为研究网络视觉推理能力或评估特定任务性能的一种方法。视觉问答（VQA）[9] 是一个代表性的任务，它使用问答来推理视觉上下文。问答通常与对话密切相关，因为对话中的互动可以采取问答的形式。

自动语音识别（ASR）和光学字符识别（OCR）文本

虽然字幕和对话以更高层次和语义化的方式与视觉上下文相关联，但基于自动语音识别（ASR）和光学字符识别（OCR）的文本与音频和视觉信息的联系略有不同。具体而言，ASR和OCR是经过数十年发展的基础性多模态研究课题，它们在文本与其他数据模态之间表现出精确的对应关系[80]，[117]。此外，OCR还作为一种从文本语料库中获取文本数据的技术。

2.4 其他模态

多模态学习涵盖了除视觉、音频和文本之外的多种数据模态。例如3D数据是一个重要的类别，包括点云和网格等子类别。本综述重点探讨具有认知意义且反映人类感知系统的数据模态。因此，我们将除视觉、音频和文本之外的数据模态归类在一起，强调它们与这些主要模态之间的关系，以实现更综合的理解和呈现结构。

图：

图数据通过节点和边提供了关系信息的结构化表示，捕捉了元素之间的连接和交互。虽然它可能不是通过人类感知系统自然存在的数据模态，但在与其他数据模态结合时，它在机器学习中扮演着重要角色。例如，场景图从图像中建立图形表示，以解释对象之间的连接。一个典型的利用视觉和图数据的多模态应用是从视觉上下文中生成场景图[142]，[157]。图数据的非欧几里得性质也启发了图神经网络的设计[274]，[299]，这是一种处理图数据的强大模型架构。

光流：

光流的概念最早于上世纪提出，作为一种测量方法，用于描述由观察者与场景之间的相对运动引起的视觉场景中物体运动的特征[108]。随着计算机视觉的发展，特别是深度学习技术的进步，光流也与视觉数据一起得到了研究[236]、[251]、[257]、[264]。与其他运动数据格式相比，光流通常通过连续图像序列中像素级别的变化以更精确的方式定义。然而，由于环境光照也会对图像的像素值产生较大影响，光流的计算本身一直是一个相当具有挑战性的研究问题。总体而言，光流可以被视为一种从视觉信息中明确导出的特定运动表示。

点云和网格

点云和网格都是三维数据的重要形式，提供了空间和结构信息，丰富了我们对物理环境的理解**。点云是三维坐标系中顶点的集合，而网格则通过连接点与边和面进一步构建，形成一个表示三维物体形状和拓扑结构的综合模型**。与本节讨论的其他数据模态类似，点云和网格并非由我们的感官系统直接捕获，而是通过包含人类洞察力的过程构建而成。

人体运动

人体运动通常用于定义各种日常活动。人体的二维骨骼数据是一种常见的人体运动表示形式，它捕捉人体的关键点并将其表示为图像中的轴坐标。它们可用于定义各种日常活动，并实际应用于现实生活中的场景。例如，在以人为本的辅助系统中，自动检测人体动作尤为重要，例如用于检测老年人跌倒的健康助手。通常，我们可以通过预训练的网络（如OpenPose [28], [29]）提取每一帧的2D骨骼数据。3D人体运动数据通常可以通过额外的数据维度提供更丰富的信息。一种经典的3D运动数据形式是将深度信息与传统的2D关键点数据结合。除了上述基于RGB相机的方法获取关键点外，关键点还可以通过关键点检测领域中的其他方法获得，例如从3D数据进行几何推理 [231] 以及应用于激光雷达传感器数据的SLAM技术 [226]。此外，在计算机图形学（CG）领域，还有其他形式的3D运动表示方法更常被采用，例如Skinned MultiPerson Linear Model（SMPL）[155]。SMPL结合了蒙皮和混合形状来表示人体。与光流（捕捉两帧之间所有像素的运动）相比，关键点运动则跟踪帧之间特定兴趣点的变化，从而能够更集中地分析物体或特征的动态。同时，3D视频特征将这种分析扩展到空间域，将深度信息与运动结合，提供更丰富、更详细的视觉结构和运动模式表示。

3 多模态表示学习

将本节分为三个部分：几种流行网络架构和评估的介绍、监督学习设置以及无监督设置。

多模态表示学习领域经历了从传统的监督表示到大规模预训练的转变。在监督学习设置下的经典方法通常需要完全标注的数据来训练网络，由于人工标注的繁琐工作，限制了可用训练数据集的规模。在“无监督”设置中则不一定需要人工标注的数据。这些数据集通常直接从互联网收集，**由来自不同模态的配对数据组成。**需要注意的是，尽管这些数据集在模态之间具有内在的对应关系，但由于缺乏人工标注，在本综述中它们被视为非监督数据。值得注意的是，这些非监督方法受益于更大的数据集规模，并且模型规模也有所增加。因此，在第3.3节关于非监督表示学习的工作中，我们主要关注介绍近年来备受研究关注的大规模预训练研究。

多模态环境下表示学习的主要研究目标是学习多模态数据表示之间的有效且具有区分性的映射。

3.1 网络架构

CNN:

作为计算机视觉领域中最经典的网络架构之一，CNN [95], [131], [216] 已被广泛采用为视觉数据表示学习的骨干架构。CNN 的核心思想是通过由卷积层和激活函数组成的复杂函数从原始数据中提取高级数据表示。类似地，这一思想也被应用于音频信号的表示学习 [96]。在经典视觉和音频数据的表示学习背景下，CNN 的训练通常利用多类交叉熵损失进行分类任务。从CNN的最后一层提取的特征被进一步用作实际的数据表示。

RNN:

学习自然语言数据表示的一个特定需求是考虑其与词语顺序的时间相关性。因此，NLP社区采用了一种不同的网络架构来解决这一挑战，即使用循环神经网络（RNNs）和LSTM [85], [105]。此外，也有研究通过RNNs学习音频数据表示 [77]。

Transformer：

Transformer [245] 在机器学习社区中获得了极大的关注。核心技术设计是自注意力机制，该机制作用于序列数据以学习整体信息。与 CNN 和 RNN 相比，Transformer 在模型设计上具有几个显著优势：能够灵活处理不同长度的序列数据；能够高效地进行并行计算，而不是像 RNN 那样需要顺序处理。尽管 Transformer 最初是为 NLP 任务设计的 [25]，但它已成功应用于视觉及音频数据的表示学习中。

Mamba

最近，Mamba [87] 作为一种新的流行模型出现，与Transformers [245]相比，在长语言和音频序列处理方面表现出有前景的下游性能。其关键优势之一是通过将选择性机制引入状态空间模型来解决计算挑战。

3.2监督学习

监督学习设置需要来自多模态源的标注数据来指导学习过程，这也是最经典的表示学习设置[65]，[300]。一般来说，监督表示学习有两种广泛采用的方法。一种可能的方式是在从各自的特征空间中获得数据表示后建立映射，这可以被视为一种两阶段方法，称为“个体模态域中的表示学习 + 模态间的映射”，通常在第一个特征提取阶段使用固定的骨干模型[151]，[167]，[263]。另一种解决多模态表示问题的方式是以端到端的方式学习给定数据对的统一表示，自由优化特征提取骨干[10]，[258]。

在第一种方法中，Liu等人[151]利用现有的预训练语义嵌入从视觉内容中提取信息，并提出了一种协作专家模型来聚合多模态信息。[167]通过混合嵌入专家（MEE）模型从异构数据中学习文本-视频嵌入。Wang等人[263]则专注于视频和文本表示的全局-局部序列对齐。在第二种方法中，[258]提出学习双分支神经网络以匹配文本和图像数据。在视听领域，[10]通过“视听对应”学习任务学习互表示。

3.3 无监督学习

无监督学习设置的基本思想依赖于多模态配对数据之间内在同步性质[192], [290], [319]。如，某些视频动作自然伴随着特定的声音。图像和字幕也是配对的，用于训练视觉和语言模型。

如今，在多模态学习研究领域，尤其是在文本-图像领域，有几个大规模预训练模型因其出色的性能以及广泛的下游应用而备受关注[160]，[173]，[195]。我们可以将大规模预训练视为一种特定类型的多模态表示学习，因为预训练的主要目标是学习一种联合且统一的跨模态表示，这种表示可以灵活地迁移到其他领域或下游任务中。

在预训练领域，通常有两种流行的方法，分别是基于对比学习的方法[4], [192]和基于掩码重建的方法[45], [135], [158]。其中最受欢迎的模型之一是CLIP[192]，用于视觉和语言预训练。大多数这些模型是遵循BERT和GPT模型开发的，其核心设计包括为文本和图像生成任务预训练的transformer架构[245]。受到GPT模型在展示使用语言或图像引导大型神经网络完成各自领域中各种生成任务潜力的成功的启发，研究人员自然转向多模态领域，以桥接这些模态。CLIP模型在4亿个文本-图像对上进行了训练，被认为是多模态学习领域中首批大规模预训练模型之一，用于桥接文本和图像数据空间。另一个例子是VATT（视频-音频-文本变换器）[4]，它是一种基于变换器的自监督大规模模型，用于从原始视频、音频和文本中学习表示。它首先通过线性投影处理来自不同模态的原始数据，并通过噪声对比估计（NCE）训练模型以学习语义潜在空间。这些预训练工作的一个共同点是，所提出的模型使用大量数据和广泛的计算资源进行训练。从技术角度来看，CLIP遵循了对齐配对图像嵌入空间和相应文本描述的一般思路。它采用批量构建技术[218]，将整个句子描述作为一个整体进行编码，而不是逐字处理文本。CLIP通过优化给定对的相似性分数，联合训练文本编码器和图像编码器。在推理时，该模型可用于零样本预测，通过已学习的文本编码器将目标数据集类别的名称或描述以文本形式嵌入。

值得注意的是，尽管这些大规模模型[4]、[192]、[193]能够取得非常令人印象深刻的结果，但在模型架构和训练技术方面几乎没有根本性的创新。因此，尽管它们受到了广泛关注，但也存在对这些工作的争议。关于这些大规模预训练模型的讨论之一是，令人印象深刻的结果很大程度上归功于精心设计的多样化和海量数据，以及它们在现有模型上的大规模扩展。此外，关于隐私和伦理问题的担忧也被提出。总体而言，尽管存在争议，这些模型确实有助于构建一个在多模态学习领域中连接视觉和文本空间的更加统一的工具包，也促进了大量基于对齐特征空间开发的各种下游任务的后续工作。

3.4 趋势

机器学习与计算机视觉研究领域正在快速发展，其趋势是通过数据集规模和计算资源的升级，利用新兴的基础模型扩展数据表示学习。由大型预训练模型（如CLIP [192]）学习的多模态表示已成功应用于各种多模态下游任务，显著提升了模型性能，尤其是在模型的泛化能力方面。然而，我们也要强调，扩展规模并非万能良药。尽管带来了诸多好处，但根本性问题仍然存在，例如分布外挑战和模型偏差的放大[253]。虽然大型预训练模型在许多多模态任务中表现出色，但未来的研究需要更多地关注现实场景中的边缘案例和复杂数据格式，以实现安全且负责任的应用部署。

4.判别式应用任务

在本节中，我们讨论了多模态学习在判别任务应用中的工作，并通过“视觉+X”形式的数据模态组合对子章节进行分类，其中X代表额外的数据模态。对于判别任务应用，流行的方法通常是先继承通用表示学习神经网络，如何添加额外的模块以适应任务特定的目标。多模态学习的一般方法设计遵循“分离处理”和“统一融合”的思想。具体而言，首先通过各自的网络分支处理不同模态的数据，然后通过额外的互操作模块进行跨模态学习，最后输出不同任务的最终结果。由于具体目标取决于任务场景，我们将在以下子章节中详细介绍。在评估方面，不同的多模态任务有其相应的评估协议。与具体方法设计类似，我们将在以下子章节中详细说明评估内容。

视觉+语音

视听事件定位AVEL

视听事件定位（AVEL）。视听事件（AVE）被定义为在视频片段中既可听见又可看见的事件[239]，而AVEL任务的目标是在无约束视频中定位AVE[73]，[147]，[239]，[273]，[285]。该任务首次在[239]中提出，同时发布了AVE视频数据集（详细信息见表1和附录A）。该任务的总体目标类似于在环境音频数据下的动作识别，并需要在有监督或弱监督设置下进行时间定位。为了应对伴随事件的额外环境声音，常见的方法是通过不同的注意力模块实现跨模态交互[73]，[239]，[273]，[296]。许多现有工作遵循使用单独编码器处理音频和视觉数据，并将处理后的信息融合以进行时间定位和活动分类的框架。视频流中的时间连接通常通过模型骨干（如LSTM [105]）来处理。AVEL任务的评估通常使用预测准确率作为指标。

视听视频解析（AVVP）

音频-视觉视频解析（AVVP）问题旨在将视频解析为时间片段，并将其标记为可听、可见或两者兼具 [146], [238], [271]。该任务最初是从AVEL任务发展而来，其任务重点在于识别，而AVEL则更侧重于时间定位。作为AVEL任务的变体，已有一些研究工作围绕一个共同的核心思想展开，即学习有效的音频-视觉特征作为基础，然后结合进一步优化的技术设计来满足特定任务需求。例如，Lin等人 [146] 提出了一种序列到序列的音频和视觉特征集成方法。Yu等人 [296] 则通过考虑潜在的音频-视觉异步性来探索AVVP任务。

视觉声源定位（Visual Sound Source Localization, VSSL）。

视觉声源定位（VSSL）任务旨在根据给定的声音在图像中定位相应的视觉位置 [180], [190], [191], [209], [210], [223]。虽然原始的声源定位任务（SSL）在信号处理领域已被广泛研究 [86]，但基于深度学习的视觉定位首次在 [209] 中提出。其核心思想同样侧重于学习配对的音频和视觉数据之间的相关性，但与视觉部分不同的是，**VSSL 任务倾向于根据不同的环境音频信号切换视觉数据中的感兴趣区域。**整体流程通常包括用于视觉和音频输入的独立编码器，然后在训练期间融合视听信息以学习定位模块。在如何通过注意力机制 [190], [209] 进行融合、使用各种定位或对比损失 [190], [191], [209] 的训练技术等方面，具体的技术细节可能有所不同。为了评估 VSSL 任务的性能，通常使用 cIoU（完全交并比）和 AUC（ROC 曲线下面积）等指标来量化预测声源区域的精度。

4.2 视觉+文本

视觉定位

作为一种流行的判别式视觉与语言任务，视觉定位旨在根据输入的文本描述在图像中定位目标对象 [61], [63], [78], [106], [112], [140], [148], [153], [214], [276], [291], [292], [298]。实现句子与视觉上下文之间交叉引用的想法最早在 [122] 中提出并研究，该任务也被称为“指代表达理解”。早期的指代研究通常只需要从描述句子输入中定位单个对象 [110], [161], [297]，其前提是感兴趣区域应达到给定文本描述的最大后验概率。最近的研究则致力于解决更具挑战性的视觉定位设置，将任务细分为两个子目标：短语生成和定位。模型需要定位给定文本描述中提到的所有对象，然后在图像中分别检测它们对应的边界框 [152], [186]。

在视觉定位任务的方法设计方面，大多数工作可以分为有监督、弱监督和无监督三种设置。有监督设置指的是提供了短语-对象对的标注条件，弱监督设置则移除了文本描述输入的短语标注，而无监督设置则完全移除了两种数据模态的标注。

至于通用流程，大多数方法遵循两阶段或单阶段框架。对于两阶段框架，模型首先提取图像中潜在对象的区域建议，然后对这些建议进行排序并与语言短语进行匹配。对于单阶段框架，视觉对象和文本短语在学习过程中直接对齐和连接，以避免像两阶段设计中那样产生冗余的区域建议。在弱监督或无监督设置下，通常需要一些额外的正则化损失，例如结构损失和判别损失 [229], [276]，以更好地学习相应对象区域与文本短语之间的相关性。

视觉定位任务的评估与其他视觉定位任务类似，通常使用预测框与真实框之间的IoU（交并比）作为定量测量，阈值为0.5。视觉定位任务的另一个独特指标是PointIt（指向游戏指标）[276]，它计算预测注意力权重最大的像素位置，如果选中的命中点位于真实框区域内，则预测被视为有效。

时间活动定位（Temporal Activity Localization, TAL）。

活动定位任务（TAL）也被称为视频定位，其目标是在给定某个活动的语言描述作为查询的情况下，定位视频片段中的时间片段[8], [43], [44], [81], [261], [305], [305]。与图像中的视觉定位相比，TAL需要在时间方向上进行额外的推理和匹配。对于此任务，模型不仅需要捕捉视觉活动与语言之间的相关性，还需要能够在连续的视频帧中定位时间片段。尽管高层次框架结构与以往的多模态判别任务相似，包含独立的编码器、用于特征融合的多模态处理模块、适应特定任务目标的解码器模块，但早期的时间动作定位（TAL）任务代表性工作引入了不同的技术，以强调网络在时间推理方面的能力。Gao等人[81]提出了一种跨模态时间回归定位器（CTRL），通过时间定位回归网络将融合的视觉-文本信息与视频时间位置对齐。常用的定量评估指标包括平均交并比（mean IoU）和IoU@a，其中a表示预测片段与真实标注之间的重叠百分比。

视觉蕴含（VE）

视觉蕴含（VE）旨在预测一段文本与图像之间的逻辑关系 [237], [278], [279]。它从文本蕴含任务 [52] 发展而来，文本蕴含任务的初始目标是判断假设是否可以从前提中逻辑推导出来。Xie 等人 [278] 将文本蕴含扩展到多模态情境中，用图像替代了文本前提。Thomas 等人 [237] 通过引入不同层次的粒度进一步优化了这一任务。VE 任务的重点在于网络的多模态推理能力。

为了实现在图像与文本假设之间推理，早期的方法[278]、[279]采用独立的网络分支来处理视觉和文本数据，并利用注意力机制进行交互。一个改进的框架[237]进一步将文本假设分解为其组成部分，并提出通过引入抽象意义表示（AMR）图来增强对分解后文本组件的推理。性能通常通过给定前提作为输入的预测准确性来评估。

时空视频定位（STVG）。

时空视频定位（STVG）是近年来兴起的一项多模态任务，它位于视觉定位与时间定位的交汇处，整合了视频视觉上下文中的空间、时间和语言推理[119], [228], [287], [307]。具体而言，给定一个未剪辑的视频和一个关于某个对象的文本描述，该任务旨在为目标对象定位一个时空管（即一系列边界框）。大多数现有的STVG方法要么基于视觉定位的思想，要么专注于时间定位的设计。解决该任务的一种流行范式采用两阶段设计，即利用预先提取的对象提议，然后通过注意力机制整合时间定位[260], [289]。与此同时，另一类工作提出了一阶段框架，并且不依赖于对象提议的先验信息[121], [287]。在网络架构方面，Transformer被广泛采用为此类方法设计的骨干网络[228], [287], [307]。STVG通常通过IoU指标进行评估，通过比较真实标注与预测时间戳之间的帧重叠来衡量性能。

4.3 视觉+语音+文本

多模态检索

另一个被广泛研究的多模态判别任务是检索[47], [88], [255], [256], [266], [311]。大多数检索工作通过在表示空间中测量来自不同模态的学习表示之间的相似性来操作。因此，检索任务也是表示学习工作中最常用的下游任务之一。

虽然检索任务可以在单一数据模态内进行，但多模态检索旨在将其原始设置扩展到跨模态场景中，即我们希望从不同的数据模态中检索与输入匹配的项目，例如基于文本的视觉检索、基于音频的视觉检索。例如，CAMP [265] 通过学习跨模态的消息传递来学习文本和图像嵌入。Gu 等人 [88] 提出通过辅助生成模型改进文本-视觉检索。[263] 通过在学习表示空间中使用全局-局部对齐方法，进一步研究了基于文本的视频检索任务。[319] 通过基于 VAE 的框架学习了一个互动的音频-视觉潜在空间，用于音频-视觉跨模态检索。Oncescu 等人 [178] 提出在给定自然语言查询的情况下检索音频信号。

视听问答

是基于视觉问答的扩展，并集成了音频模态[136], [137], [288], [301]。具体而言，AVQA通常涉及视频中不同视觉对象、声音及其关联的问题。现有的方法设计通常是从VQA框架扩展而来，并增加了与音频数据的额外交互。例如，一个直观的框架[137]将双分支编码器设计扩展为三分支，并分别处理视频、音频和文本数据，然后通过注意力机制引入交互。答案预测的准确性通常用于评估。

5 生成式应用

在本节中，我们的重点是生成应用中的跨模态合成任务。这些任务涉及将特定模态或多个模态作为输入来生成数据。在跨模态合成任务中，通常有两种高层次的数据生成方法：从给定数据库中检索项目，或通过神经网络直接合成和解码数据。对于基于检索的生成，其核心思想是搜索与“生成”数据最相似的一个或多个项目。大多数基于检索的工作在数据表示层面进行相似性度量，而实际上并未考虑解码部分。从技术上讲，我们认为这类工作应归类于表示学习部分。因此，在本节中，我们主要关注介绍那些“真正生成”数据而非检索项目的工作，以用于生成应用。

5.1 生成式网络

三种广泛应用于多模态生成任务的主流骨干模型。

基于VAE的模型

变分自编码器（VAEs）[126] 是基于深度神经自编码器 [100] 在无监督学习环境下提出的经典生成模型。自编码器的核心在于，一个经过有效训练的编码器应能够学习数据的表示方式，使得编码后的表示可以通过解码器解码，从而重建原始数据输入。

相比于常规的自编码器，变分自编码器通过在潜在空间中使用高斯先验进行重参数化，从而在瓶颈层引入正则化，其中学习到的高斯参数允许对新数据进行采样。

VAE的训练通常包括两种类型的损失，即由潜在表示空间的正则化损失（例如，Kullback-Leibler散度）和输出数据的重建损失（例如，均方误差（MSE））组成的变分损失（ELBO）[126]。经典的变分目标可以通过以下公式进行表述和推导：在这里插入图片描述

基于GAN的模型

生成对抗网络（GANs）[83] 是另一种主流生成模型的骨干类型。从高层次的角度来看，GANs 涉及两个代理（即生成器 G 和判别器 D）进行对抗性博弈。生成器的目标是合成与真实数据相似的逼真数据，以欺骗判别器，而判别器的目标则是区分生成器合成的数据与真实数据。

与变分自编码器（VAEs）类似，基于 GAN 的模型训练不需要外部标注，仅需真实的原始数据，因此常用于无监督或弱监督的场景中。标准的 GAN 训练也通过潜在空间正则化（也称为对抗性损失）和重建优化[83][204] 两方面来最小化损失。在原始工作之后，也提出了多种 GAN 模型和对抗性损失的变体，例如使用 Wasserstein 损失的 Wasserstein GANs [11][90] 和条件 GANs [170]。经典的 GAN 损失公式如下：在这里插入图片描述

基于DPM的模型

扩散概率模型（DPMs）[217]是近年来非常流行的另一种生成模型。原则上，**DPMs包含一个有限步长的马尔可夫链，该链在两个相反的方向上进行。**正向过程，也称为“扩散”过程，旨在在每个扩散步骤中逐步向给定数据添加噪声，而逆向去噪过程则旨在去除正向步骤中添加的噪声，并从非信息性的噪声分布中恢复实际数据。

传统的DPMs有两种变体，它们在马尔可夫链的状态空间公式上有所不同。经典的DPMs假设状态空间是连续的，并使用高斯噪声参数化扩散过程[68], [101], [125], [128], [175], [219], [220], [221]，而另一种DPMs变体则考虑离散状态空间，并使用状态转移矩阵来公式化扩散过程[12], [89], [320]。变分下界[101]是用于有效DPMs学习的经典损失函数，其他实际损失函数如辅助损失[12], [89]、无分类器引导[103]和对比扩散损失[320]也被提出以进一步提高生成性能。Vanilla DPMs在如下所示的变分下界上进行训练：在这里插入图片描述

5.2 视觉+音频

从视觉生成音乐

最近的研究试图从视觉数据（通常来自视频）生成音乐，可以根据其采用的音乐表示方法进行分类。一类音乐生成工作[2]、[69]、[79]、[227]依赖于符号音频表示，例如1D钢琴卷帘和2D MIDI。符号音乐表示可以通过预定义的合成器解码回原始音频波形，这些合成器不会引入额外的噪声，从而确保生成音乐的高质量。而基于学习的音乐表示和解码器[67], [317], [320]合成的音乐通常具有相对较高的噪声水平。其次，基于符号表示的工作的计算成本通常低于纯基于学习的方法，因为符号音乐表示非常稀疏且低维，这有助于学习和推理过程。

然而，这种基于符号的音乐生成方法在音乐多样性和灵活性方面也受到限制。特别是在当前的研究工作中，生成的音乐通常局限于某些特定的预定义乐器音色[2]、[69]、[79]。值得注意的是，尽管输出的是原始音乐，但大多数基于符号的音乐生成工作并未直接使用我们在第5.1节中介绍的生成骨干网络。从技术上讲，它们大多是基于真实MIDI注释以交叉熵损失的形式进行训练的。

相比之下，基于学习的音乐表示形式，包括连续的和离散的。尽管连续音乐表示已在音乐合成领域得到应用[132]，但最近的跨模态音乐生成大多采用离散形式的学习音乐特征——向量量化（VQ）——作为中间表示[317]、[320]，并利用了大规模预训练的音乐合成模型JukeBox[67]。例如，D2MGAN[317]提出了一种基于GAN的框架，该框架以人体运动数据和舞蹈视频帧作为输入，并生成音乐的VQ表示。CDCD[320]则基于扩散概率模型，采用VQ表示的离散状态空间，并结合对比扩散损失来训练网络，以提高跨模态应用中的输入输出对应关系。

视频生成语音

该生成任务旨在从人类说话的视频中合成语音音频 [75], [76], [124], [166], [169], [187], [203], [248], [286]。这一音频生成任务的独特之处在于，语音在很大程度上依赖于说话时嘴唇的运动。基于这一特性，许多相关研究专注于从视频输入中读取和解释视觉唇部运动，然后将其转换为音频波形，这也解释了为什么这种“视频到语音”合成任务也被称为“唇到语音”生成。因此，尽管主题是从视频生成音频，但该领域的大部分工作更关注“视频中的运动”，而非原始视频本身。为了增强唇部运动与语音音频之间的相关性，进一步采用了视听跨模态注意力机制以提高生成质量。Kim 等人 [124] 提出了一种带有视觉上下文的注意力生成对抗网络（GAN）来读取唇部以进行语音合成。Yadav 等人 [286] 使用变分自编码器（VAE）生成骨干与随机建模方法。同时，针对这一问题的更精细变体，如分离的语音特征（例如个体说话风格），也得到了研究 [187]。

从视频生成环境音

旨在从自然视频生成声音的研究工作[36]、[42]、[314]特别强调了生成声音与视觉上下文之间的对齐，包括语义对齐和时间对齐。Chen等人[36]通过采用感知损失并在优化过程中考虑声音类别来解决语义对齐问题。Zhou等人[314]采用了一种较为经典的编码器-解码器框架来处理视频输入和音频解码，提出了三种方法，包括帧到帧、序列到序列和基于光流的变体。在[42]中，作者通过提出的REGNET框架解决了语义和时间对齐问题，其核心技术设计包括视觉编码器和音频前向正则化器。总的来说，与语音和音乐相比，环境音除了与某些活动的对应关系外，其独特属性相对较少。总结上述工作，我们注意到高层次的技术思想较为通用，类似于标准流程设计。

从声音生成视觉

其中的一个特别类型即，语音音频合成说话人脸[38], [222], [306], [312]是一个相对研究较多的子领域。与“视频到语音”任务类似，这个反向方向的视觉信息更加强调视频片段中嘴唇的运动。一般来说，该**任务的输入包括参考图像和驱动音频轨道。**早期的工作[37], [222], [249]采用了一种通用的流程，使用两个独立的编码器处理输入，并通过基于GANs的生成骨干网络合成说话视频。最近的工作则通过将之前的架构拆分为层次结构[38], [58]来改进和优化合成结果。除了原始视频外，更具体的运动数据（如光流）也被用于进一步实现高分辨率生成[306]。一些研究还通过将视频生成问题重新表述为光流形式的运动生成任务，以生成自然视频[33]，[64]。

5.3 视觉+文本

视觉描述生成

图像和视频描述生成是视觉与语言生成任务中的经典问题之一[35], [40], [159], [254], [259], [270], [282], [294]，其目标是为给定的视觉数据生成语言文本描述。在基于深度学习的视觉描述生成的早期阶段[162], [247]，通用框架通常由编码器-解码器结构组成，其中CNN和RNN分别作为图像编码器和文本解码器的骨干架构。随后，注意力机制成为一种流行的技术[159], [272], [282]，用于增强句子描述与相应视觉概念之间的关联。大量研究工作遵循了更新后的通用编码器-解码器框架，并引入了额外的注意力模块。除了通用的编码器-解码器框架外，还有一些工作通过对抗学习[53]或强化学习[150]等技术来解决描述生成任务。

除了技术进步之外，还有一些工作为字幕生成的任务设置带来了新颖的见解。例如，[6]、[107]、[208] 将视频中的环境音频作为额外的输入数据模态，以进一步辅助视频字幕生成。在上述工作的基础上，[321]、[322] 提出了一种新的设置，其中部分视觉数据无法作为输入访问，他们进一步提出了一种两个代理之间的对话过程，作为缺失视觉输入的补充，其最终目标仍然是生成精确且完整的视频文本描述。

视觉对话生成

侧重于对话文本而非简单的描述。可以进一步将视觉对话生成分为视觉问答（VQA）[1], [9], [39], [56], [213], [277], [280] 和视觉对话 [57], [60], [116], [189], [211], [268], [321], [322]。两个子类别的主要区别在于，前者的VQA任务旨在回答与视觉输入相关的单个问题，而后者则期望在多轮对话中保持问答交互并具有内部逻辑。

视觉问答（VQA）任务首次在[9]中被提出，其任务目标是回答与视觉内容相关的语言问题。与图像描述任务类似，主流框架也遵循编码器-解码器流程，通常配备独立的视觉和文本数据编码器，以及用于生成语言词汇的解码器。注意力机制在文献中也被广泛使用，以增强视觉和语言领域对应特征之间的相关性。与之前的视觉描述任务相比，VQA任务的一个独特之处在于任务设置中潜在的偏差问题。具体而言，模型可能并不真正依赖视觉上下文来回答提出的问题。例如，给定一个问题“天空是什么颜色？”，答案在大多数情况下很可能是“蓝色”，或者给定一个预期答案为“是”或“否”的问题，模型可能简单地在两个选项之间进行猜测。因此，为了解决这种虚假模式和偏见问题，最近的研究一直在通过分析因果关系来迁移这一问题 [39], [176]。

作为另一个流行的视觉与语言任务，视觉对话在[57]中被提出后，遵循了类似的发展路径，其中通用的编码器-解码器框架进一步扩展，以包含一个额外的编码器来处理对话历史数据。从高层次的角度来看，视觉对话与图像描述和视觉问答相比的挑战在于，随着对话的进行，多轮问答互动可能会涉及图像或视频中不同部分的视觉上下文，这导致了对视觉和文本数据之间关键信息精确引用的更高要求。与此同时，视觉问答中的偏差问题在视觉对话中仍然存在。

文本生成图像

与从视觉生成文本相比，这是一项更具挑战性的任务，原因是视觉数据通常具有更丰富的上下文，并且对像素级合成有更高的要求。

在初步探索之后[199]，该领域的最新文献可以按时间顺序分为不同阶段。在2020年之前，主流方法使用基于GAN的架构来解决该问题[284]、[293]、[304]。随后，随着多模态学习的发展，研究人员开始从自然语言处理领域汲取灵感，其中一个具体例子是用于图像生成的自回归模型[71]、[195]。自2020年以来的最近几年，DPMs逐渐成为视觉生成任务中最活跃的方法之一[89]、[101]、[102]、[194]、[220]、[320]，这得益于其令人印象深刻的性能以及与GAN相比更好的可操作性。

值得一提的是，最近在文本到图像领域引入了多个大规模模型，例如DALL·E [195] 和 DALL·E 2 [194]。DALL·E 模型包括两个独立的阶段来训练原始图像生成目标。在第一阶段，DALL·E 通过离散 VAE [195] 从图像中学习视觉概念，然后在第二阶段将学习到的离散图像嵌入与文本标记融合以训练 Transformer [245]。在推理过程中，DALL·E 首先为给定的文本描述和潜在的图像候选生成融合的文本-图像嵌入，然后使用预训练的 CLIP 进行图像重新排序，以获得相似度更高的生成图像。DALL·E 2 作为一种改进的文本到图像生成器，使用扩散概率模型（DPMs）在 CLIP 的图像嵌入空间中进行图像合成。

文本引导的图像编辑

基于文本提示对给定的原始图像进行编辑 [3], [13], [123], [133], [174], [318]。与文本到图像生成相比，使用生成模型进行文本引导的图像编辑不仅需要文本提示，还需要原始的真实图像。任务目标通常有两个方面：实现预期的编辑效果，并保留给定图像的其余特征。

一种对基于DPM的图像编辑方法进行分类的方式是看所提出的方法在给定预训练生成模型的情况下是否需要额外的学习。在大多数直观和直接的情况下，通过文本提示进行图像编辑需要对给定预训练模型的参数进行微调 [123]，或学习额外的神经网络模块 [133] 以实现目标编辑效果。另一类图像编辑方法提出以无学习的方式解决编辑目标 [318]，通过显式利用DPM的内在能力，在生成轨迹中展示语义。

文本合成视频

与图像相比，视频通常由多个连续的帧组成，这些帧在时间和空间上具有相关性，此外还需要对单个视觉帧进行像素级的计算密集型合成。现有工作通常使用基于VAE或GAN的生成模型来处理这一任务[141]，并结合语言先验知识。另一种方法是，Hu等人[111]通过提供参考图像和文本描述来修改任务形式，并基于给定的输入合成视频。最近的工作[104]通过改进的3D U-Net架构引入了一个视频扩散模型，该架构配备了额外的时间维度。Make-A-Video是首批大规模视频生成模型之一。它利用文本到图像领域的最新进展来学习视觉信息，然后提出从未标记的大规模视频数据中学习时间运动。在推理过程中，模型将视觉内容与学习到的运动相结合，生成逼真的视频。

6 讨论

6.1 关于数据与方法设计的洞见

我们的论文旨在从数据的角度提供一种新颖的视角来理解多模态学习，我们从两个方面重新审视并讨论了数据性质与方法设计之间的相关性：数据模态的语义及其特定格式。

对于数据语义，如第2节所述，视觉数据和几种类型的音频数据（如环境声音）可以被视为原始信息源。这些模态包括直接从环境中捕获的感官信息，通常是高维的，并且可以通过信息冗余进一步处理和分析。与原始信息源相比，文本数据和某些类型的音频信号（如语音）在人类文明的演变过程中经历了广泛的处理。这些数据模态已经具有有意义的语义，并且通过统一的标记形式表示，信息更加紧凑。此外，大多数自然语言处理任务在“下一个词标记预测”的概念下具有较为统一的问题形式。

这种数据性质上的区别，特别是在语义方面，对各自研究领域的方法论和技术进步起到了重要作用。在NLP领域，文本数据的高度处理特性及其一致的问题表述方式为大规模基础模型的开发铺平了道路。这些模型，如GPT-3，已在广泛的NLP任务中展现出卓越的性能。文本数据的统一性使得这些模型能够在无需重大修改的情况下应用于各种任务，充分利用语义丰富性和一致的问题表述。

而计算机视觉领域则面临着不同的挑战。视觉数据作为原始信息源，需要广泛的表示学习和特定的下游应用阶段，以获得有效且经过处理的视觉表示。视觉数据的复杂性和视觉任务的多样性使得开发一个能够广泛应用的统一基础模型更具挑战性。因此，计算机视觉领域的研究人员不断探索新的表示学习技术和任务特定方法，以应对视觉数据的复杂性，并在复杂的视觉任务中实现最先进的性能。至于音频数据，研究人员则根据具体的音频类型和任务需求，遵循不同的社区方法。

理解数据性质与方法论设计之间逻辑的另一个方面是关注数据格式。无论是连续还是离散的格式，都在确定适合的模型架构以进行有效处理方面起着至关重要的作用。对于连续数据，如图像和环境声音，空间或时间维度上的连续性通常受益于专门设计的模型架构，如卷积神经网络（CNN），这些架构能够处理空间和时间依赖性，并捕捉数据中的局部和全局相关性。而对于离散格式的数据，如MIDI音乐表示或文本词元，像Transformer这样的模型更适合建模离散元素之间的依赖关系。

6.2 未来方向和挑战

在介绍了涉及视觉和其他模态数据的各种判别式和生成式多模态应用之后，我们从技术设计和数据属性关联的角度重新审视并总结现有工作。

对于涉及视觉和音频数据的判别任务，我们可以从引入的现有工作中观察到，大多数工作遵循一个通用的流程，该流程包含独立的数据编码器、跨模态注意力特征融合，以及为各种任务目标设计的解码器模块。值得注意的是，所有现有工作都将环境音频数据作为一个整体进行处理，而没有特别关注音频信号的声学特征。例如，某些类型的环境音频信号可能比其他信号具有更高的音调和频率，这可以作为纯视觉识别的有力补充指标。

现有的涉及音频的生成作品更多地探索了诸如节奏、音高和流派等解耦特征，用于合成和编辑目的。至于视觉和文本的结合，早期经典的代表性方法通常使用LSTM模型来处理具有词序的文本语言数据。后来，Transformer模型的成功推动了从LSTM到Transformer的快速技术转变，特别是在多模态学习背景下的文本处理分支中。

回到当前的多模态研究，尽管近年来取得了巨大成功，但未来研究仍面临挑战。从技术角度来看，我们认为可以将未来的研究方向总结为与数据模态连接相关的两个方向。一方面，研究社区正在寻求建立一个统一且通用的模型，以高效学习所有相关模态的表示。这种统一模型，类似于我们在第3.3节中介绍的大规模预训练模型，应能极大地帮助各种下游应用，如特定的跨模态生成、交互式编辑和评估。另一方面，随着日常生活中对更细粒度和详细应用的需求不断增加，我们也期望在更具体和定制化的任务中开发并实现更好的性能。

多模态学习的另一个未来方向可能是人类干预以实现终极多模态感知AI系统。由于多模态学习的最终目标是为机器赋予像真实人类一样的智能，人类干预可能是指导这一快速发展领域总体研究方向的关键部分。一个具体的例子可以是让人类参与提供更多对跨模态生成的控制，以及一些下游任务，如编辑[164]、[165]。