TPAMI 2024 多模态学习最新综述：普林斯顿大学、武汉大学等从数据视角解读多模态学习

最新推荐文章于 2025-04-05 09:30:00 发布

xwz小王子

最新推荐文章于 2025-04-05 09:30:00 发布

阅读量3.1k

点赞数 14

分类专栏：扩散策略多模态变形金刚文章标签：学习多模态融合

本文链接：https://blog.csdn.net/weixin_44887311/article/details/142730871

版权

多模态变形金刚同时被 2 个专栏收录

158 篇文章

订阅专栏

扩散策略

52 篇文章

订阅专栏

简介
作者从数据角度对多模态机器学习进行了综述，不仅考虑了技术方面，还考虑了不同数据模态的内在本质。文中分析了每种数据格式的共性和独特性，主要包括视觉、音频、文本和动作，然后介绍了按数据模态组合分类的方法论进展，例如视觉+文本，稍微强调了视觉数据。此外，文中从表示学习和下游应用层面研究了多模态学习的现有文献，并根据它们与数据性质的技术联系进行了额外的比较，例如图像对象和文本描述之间的语义一致性以及节奏视频舞蹈动作和音乐节拍之间的对应关系。作者希望利用对齐以及数据模态本质与技术设计之间存在的差距，以更好地解决与具体多模态任务相关的特定挑战，从而促进统一的多模态机器学习框架更接近真实的人类智能系统。
在这里插入图片描述

综述结构
与其他关于多模态学习的综述相比，这篇综述从数据本身的独特角度来处理这个问题。这种新颖的视角能够在多模态数据的固有特征和方法设计之间建立联系，从而从两个主要方面对多模态研究的未来进行深入的讨论。一方面，强调和利用特定数据模式的独特特征将有助于解决与这些模态相关的具体应用问题。另一方面，认识到不同模态之间的共性将使研究人员能够构建一个更加统一和协作的框架，反映真实人类智能系统的能力。综述结构如图1所示。

在这里插入图片描述

数据分析
文中通过分析多种数据模式的特征和共性来详细阐述多种数据模态的本质。表1 给出了常用多模态数据集的列表，并附有详细说明。

视觉
文中将视觉数据分为图像和视频。作为人类感知系统和计算机视觉文献中的主要信息源，视觉数据因其高维度而通常被认为是“原始数据”。它包含丰富的功能和细节，代表丰富的视觉内容。然而，连续空间和时间方面的冗余给多模态学习任务的处理、分析和高效利用带来了挑战。（具体说明可参考原文）

音频
传统上，音频处理的研究主要集中在数字信号处理的研究领域。文中重点介绍三种主要类型的音频数据：语音、音乐和环境声音。图 2. 不同音频数据表示形式的图示。从上到下：（a）波形中的原始音频数据；(b) 梅尔谱图中的音频数据；© 一维钢琴卷轴音乐片段，其中水平轴和垂直轴分别表示时间戳和音频音高；(d) MIDI 音乐作品，其中颜色代表不同的乐器类型。这些音频类型中的每一种都在各种多模态任务应用中具有相关性和适用性，进一步强调了多模态学习背景下音频数据的多样性。与视觉数据类似，音频信号是一种可以直接从环境中捕获的“原始数据”形式。然而，与静态图像不同，音频信号在时间维度上具有固有的连续性。
在这里插入图片描述

文本
文中主要关注介绍与其他数据模态密切相关的几种类型的文本数据。近年来，NLP 社区受到了极大的关注，特别是在开发 GPT-3 等大型语言模型（LLM）方面取得了巨大成功。NLP 的巨大成就与文本数据和语言的本质密切相关。与可视为“原始数据”的视觉和音频信息不同，文本数据经过大量处理。更具体地说，它是一种经过人类文明演变而来的数据类型，尽管存在语言差异，但其特点是格式高度统一、语义精确。它意味着文本信息丰富且紧凑，而视觉和音频信号通常包含丰富的信息冗余。应用端文本的另一个独特特征是，大多数 NLP 任务的问题表述可以统一在“下一个词标记预测”的概念下。该公式代表了各种 NLP 任务中的通用底层结构，有助于该领域的连贯性和一致性，以及通过大型基础模型解决多个任务的潜力。

其他模态
多模态学习涵盖了除视觉、音频之外的各种数据模态和文本。例如(a)图形数据通过节点和边提供关系信息的结构化表示，捕获元素之间的连接和交互。(b)光流, 光流的概念在上个世纪首次被提出，作为一种测量方法来表征视觉场景中由观察者和场景之间的相对运动引起的物体的运动。©点云和网格。点云和网格都是 3D 数据的重要形式，提供空间和结构信息，丰富我们对物理环境的理解。

多模态表示学习
多模态表示学习分为三个部分：几种流行的网络架构和评估的介绍、监督学习设置和非监督设置。这种分类背后的基本原理是基于多模态表示学习领域已经经历了从传统的监督表示到大规模预训练的转变。监督学习环境下的经典方法通常需要完全注释的数据来训练网络，从而由于繁琐的标记工作而对可用训练数据集的大小施加了限制。

为了克服瓶颈，多模态表示学习的研究趋势已经转向“无监督”设置，使用不一定需要人工注释的数据。这些数据集通常直接从互联网收集，并由来自不同模态的配对数据组成。值得注意的是，虽然这些数据集在模态之间具有内在的对应性，但由于缺乏手动标记，它们在本次综述中被认为是不受监督的。值得注意的是，这些非监督方法受益于更大的数据集大小，并且见证了模型规模的增加。因此，在非监督表示学习工作的3.3节中，文中主要介绍近年来引起广泛研究关注的大规模预训练研究。多模态背景下表示学习的主要研究目标是学习来自多种模态的相应数据表示之间的有效且有区别的映射。

判别性任务应用
文中讨论了用于判别性任务应用的多模态学习工作，其中以 “Vision+X”的形式按特定数据模态组合进行分类，其中X代表附加数据模态。多模态学习的总体方法论设计遵循“分离处理”和“统一融合”的思想。更具体地说，首先使用各自的网络分支处理不同模态的数据，然后通过额外的互模块进一步进行模态间学习，然后输出不同任务的最终结果。由于确切的目标取决于任务场景。在评估方面，不同的多模态任务有其相应的评估协议。

生成任务应用
文中重点关注了生成应用程序的跨模态合成任务。这些任务涉及从特定模态或多种模态生成数据作为输入。在跨模态合成任务中通常有两种高级方法来生成数据：从给定数据库中检索项目，或者通过神经网络直接合成和解码数据。对于基于检索的生成，核心思想遵循搜索与“生成”数据最相似的一个或多个项目的逻辑。很大一部分基于检索的工作在数据表示级别上执行相似性测量，而没有实际考虑解码部分。从技术上讲，作者认为此类作品属于表征学习部分。因此，主要关注介绍“真正生成”数据的工作，而不是在本节中检索项目以进行生成应用程序。表2给出了生成任务中的评价指标。
在这里插入图片描述

生成网络分为：

基于 VAE 的模型自动编码器的核心依赖于这样一个前提：经过有效训练的编码器应该以可以对编码表示进行解码以重建解码器输入的原始数据的方式来学习数据表示。与传统的自动编码器相比，VAE 通过使用高斯先验重新参数化潜在空间来引入瓶颈级别的正则化，其中学习的高斯参数允许对新数据进行采样。VAE 的典型训练通常包括两种类型的损失，即变分损失（ELBO），它由潜在表示空间上的正则化损失（例如 Kullback-Leibler 散度）和输出数据上的重建损失组成（例如，均方误差 (MSE)。

基于 GAN 的模型与 VAE 类似，基于 GAN 的模型的训练不需要外部注释，只需要真实的原始数据，因此经常用于无监督或弱监督的环境中。GAN 的标准训练还从潜在空间正则化（也称为对抗性损失）和重建优化两个方面最大限度地减少损失。继原始工作之后，人们提出了 GAN 模型和对抗性损失的多种变体，例如具有 Wasserstein 损失的 Wasserstein GAN 和条件 GAN。

基于 DPM 的模型与 VAE 和 GAN 相比，扩散概率模型（DPM）是近年来非常流行的另一种生成backbone。原则上，DPM 包括两个相反方向的有限步骤的马尔可夫链。前向，也称为“扩散”过程，旨在在每个扩散步骤中逐渐向给定数据添加噪声，而逆向去噪过程旨在消除前向步骤中添加的噪声，并从非信息性数据中恢复实际数据。噪声分布。传统 DPM 有两种变体，它们在马尔可夫链的状态空间公式中有所不同。经典 DPM 假设状态空间是连续的，并用高斯噪声参数化扩散过程、而 DPM 的另一种变体则考虑离散状态空间，并用状态转移矩阵来表示扩散过程。变分下界是用于有效DPM学习的经典损失函数，其他实际损失包括辅助损失、无分类器指导和对比扩散损失。

多模态学习未来展望
多模态机器学习的研究多种多样，从一般表示学习到特定领域内的详细下游任务。在介绍了涉及其他模态的视觉和数据的各种判别性和生成性多模态应用之后，作者从技术设计和与数据属性的联系的角度重新审视和总结了现有的工作。对于涉及视觉和音频数据的判别任务，可以从介绍的现有工作中观察到，大多数工作都遵循包含单独数据编码器、跨模态注意特征融合以及为各种不同设计的解码器模块的通用流程。值得注意的是，所有现有的工作都将环境音频数据作为一个整体进行处理，而没有专门研究音频信号的声学特征。例如，某些类型的环境音频信号可以包括比其他信号更高的音调和频率，这可以用作纯粹基于视觉的识别的强补充指示符。相比之下，现有的涉及音频的生成作品更多地探索了节奏、音高和流派等分离的特征，以用于合成和编辑目的。对于视觉与文本（自然语言）的结合，早期代表性的经典方法往往采用LSTM模型来处理带有词序的文本语言数据。后来，Transformer 模型的成功促进了多模态学习环境中文本处理分支从 LSTM 到 Transformer 的快速技术过渡。

回到当前的多模态研究，虽然近年来取得了巨大成功，但未来研究的挑战仍然存在。从技术角度来看，作者认为未来的研究方向可以归纳为与数据模态的连接两个方向。一方面，研究界正在寻求建立一个统一且通用的模型，以有效地学习所有感兴趣模式的表示。这样一个统一的模型，类似于大规模预训练模型，应该对各种下游应用有很大帮助，例如特定的跨模态生成、交互式编辑和评估。另一方面，随着日常生活中对更细粒度和细节的应用程序的需求不断增加，期望为更具体和精心设计的任务开发并实现更好的性能。

多模态学习的另一个可能的未来方向可能是最终多模态感知人工智能系统的人工干预。由于多模态学习的最终目标是将智能赋予机器作为真正的人类，因此人类干预可能是指导这个快速发展领域的总体研究方向的关键部分。一个具体的例子可能是让人类对跨模态生成和一些下游任务（例如编辑）提供更多控制。