Multimodal Machine Learning:A Survey and Taxonomy 多模态机器学习:综述与分类

模态是指某种事物发生或经历的方式,每一种信息的来源或者形式,都可以称为一种模态。当研究问题包括多种这样的形态时,研究问题被描述为多模态。多模态机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力。

1.1 引言

我们周围的世界包含多种形式——我们看到物体,听见声音,感受质地,闻到气味等等。一般来说,模态是指事情发生或经历的方式。大多数人把模态这个词和代表我们交流和感觉的主要渠道即感觉形式联系在一起,比如视觉或触觉。因此,当一个研究问题或数据集包含多个这样的模态时,它就被描述为多模态的。在这篇论文中,我们主要关注三种形式:既可以是书面的也可以是口头的自然语言;通常用图像或视频表示的视觉信号;以及对声音和比如韵律和声音表达的准语言信息进行编码的音频信号。
为了让人工智能在理解我们周围的世界方面取得进展,它需要能够解释和推理多模态信息。多模态机器学习旨在建立能够处理和关联多模态信息的模型。从早期人们对视听语音识别的研究到近期对语言和视觉模型的兴趣激增,可看出多模态机器学习是一个充满活力的多学科领域,其重要性与日俱增,潜力非凡。
鉴于数据的异质性,多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。来自多模态来源的学习提供了捕捉模态之间的对应关系和获得对自然现象的深入理解的可能性。在本文中,我们确定并探索了围绕多模态机器学习的五个核心技术挑战(以及相关的子挑战)。它们是多模态环境的核心,需要加以解决以推进该领域的发展。我们的分类超越了典型的早期和晚期融合分类,包括以下五个挑战:
(1)表示 第一个基本的挑战是学习如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异构性使得构建这样的表示形式具有挑战性。例如,文本通常是符号,而音频和图像是信号。
(2)转换 第二个挑战是如何将数据从一种模态转换(映射)到另一种模态。不仅数据是异构的,而且模态之间的关系往往是开放式的或主观的。例如,存在许多描述一幅图像的正确方法,但可能不存在一种完美的翻译。
(3)对齐 第三个挑战是识别来自两个或更多不同模态的(子)元素之间的直接关系。例如,我们希望将菜谱中的步骤与展示正在制作的菜肴的视频对齐。为了应对这一挑战,我们需要衡量不同模态之间的相似性,并处理可能的长期依赖性和歧义性。
(4)融合 第四个挑战是结合来自两个或更多模态的信息来进行预测。例如,对于视听语音识别,将嘴唇运动的视觉描述与语音信号融合在一起以预测口语单词。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,其中至少一种模态中可能会丢失数据。
(5)协同学习 第五个挑战是在模态、表示形式和预测模型之间转移知识。这可以通过共同训练、概念基础和零次学习的算法来例证。协同学习探讨了从一个模态学习的知识如何帮助在不同模态下训练的计算模型。当其中一种模态的资源有限 (如附加注释的数据) 时,就显得尤为重要。
对于这五个挑战中的每一个,我们定义了分类类别和子类,以帮助构建多模态机器学习这一新兴研究领域的最新工作。我们首先讨论了多模态机器学习的主要应用(第2节),然后讨论了多模态机器学习面临的所有五个核心技术挑战的最新发展:表示(第3节)、转换(第4节)、对齐(第5节)、融合(第6节)和协同学习(第7节)。我们在第8节以讨论结束。

1.2 应用:历史视角

多模态机器学习支持广泛的应用:从视听语音识别到图像字幕。在这一节中,我们简要介绍了多模态应用的历史,从早期的视听语音识别到近期对语言和视觉应用的重新关注。
多模态研究最早的例子之一是视听语音识别(AVSR) 。。它是由麦格克效应[143]推动的——在言语感知过程中听觉和视觉之间的相互作用。当人类受试者听到音节/ba-ba/,同时观察一个人的嘴唇说/ga-ga/,他们感知到第三个声音:/da-da/。这些结果激励了许多来自言语社区的研究人员扩展他们的视觉信息方法。鉴于隐马尔可夫模型(HMM)在当时言语社区的突出地位[99],许多早期AVSR模型基于各种HMM扩展[25],[26]并不奇怪。虽然现在对虚拟现实的研究并不常见,但它已经引起了深度学习社区的重新关注[157]。
虽然语音识别的最初设想是在所有情况下提高语音识别性能(例如,单词错误率),实验结果表明,视觉信息的主要优势是当语音信号有噪声时(即低信噪比)[78],[157],[251]。换句话说,捕获的模态之间的交互是补充的,而不是互补的。在两种情况下捕获了相同的信息,提高了多模态模型的鲁棒性,但没有提高无噪声情况下的语音识别性能。
多模态应用的第二个重要类别来自多媒体内容索引和检索领域[11],[196]。随着个人电脑和互联网的发展,数字化多媒体内容的数量急剧增加[2]。虽然早期索引和搜索这些多媒体视频的方法是基于关键词的[196],但是当人们试图直接搜索视觉和多模态内容时,出现了新的研究问题。这引发了多媒体内容分析新的研究课题,如视频边界检测[128]和视频摘要[55]。这些研究项目得到了美国国家标准技术研究所(National Institute of Standards and Technologies)TrecVid计划的支持,该计划引入了许多高质量的数据集,包括2011年开始的多媒体事件检测(MED)任务[1]。
第三类应用建立于21世纪初,围绕新兴的多模态交互领域,其目标是理解人类在社会交互过程中的多模态行为。在这一领域收集的第一批里程碑式的数据集之一是AMI会议语料库,其中包含了100多个小时的会议视频记录,所有这些都经过了完全转录和注释[34]。另一个重要的数据集是SEMAINE语料库,用于研究说话者和听者之间的人际关系[144]。该数据集构成了2011年组织的第一次视听情感挑战(AVEC)的基础[186]。情感识别和情感计算领域在2010年代初蓬勃发展,这要归功于自动人脸检测、面部标志检测和面部表情识别方面的强大技术进步[48]。此后,AVEC挑战赛每年都会举行,之后挑战赛的示例包括医疗保健应用,如抑郁和焦虑的自动评估[217]。D’Mello等人发表了一篇关于多模态情感识别最新进展的综述。他们的多元分析得出,最近大多数关于多模态情感识别的工作表明,当使用一种以上的模态时,这种改善会有所提高,但当识别自然发生的情绪时,这种改善会减少。
最近,出现了一种强调语言和视觉的多模态应用新类别:媒体描述。最具代表性的应用之一是图像字幕,其任务是生成输入图像的文本描述[86]。这是由于这些系统能够帮助视障人士完成日常任务[21]。最近,从文本[37],[178]逆向生成任务媒体的研究取得了进展。媒体描述和生成面临的主要挑战是评估:如何评估预测的描述和媒体的质量。视觉问答的任务(VQA)最近被提出,通过提供正确的答案来解决某些评估挑战[9]。
为了将提到的一些应用带到现实世界中,我们需要解决多模态机器学习面临的一些技术挑战。我们在表1中总结了上述应用领域的相关技术挑战。最重要的挑战之一是多模态表示,这是我们下一节的重点。
多模态机器学习支持的应用概述。对于每个应用领域,我们确定了需要解决的核心技术挑战

1.3 多模态表示

在机器学习中,将数据表示成计算模型可以直接使用的格式一直是一个挑战。Bengio等人[19]之后,我们交替使用表征、特征和表示三个术语,每个用一个实体的矢量或张量表示,可以是一个图像,音频样本,单个词,或一个句子。多模式表示是试图通过各模态的信息找到某种对多模态信息的统一表示。多模态表示存在许多困难:如何结合不同来源的数据;如何处理不同程度的噪音;以及如何处理丢失的数据。以有意义的方式表示数据的能力对多模态问题至关重要,并且构成了任何模型的主干。
良好的表征对于机器学习模型的性能非常重要,最近语音识别[82]和视觉对象分类[114]系统的性能突飞猛进就是证明。Bengio等人[19]确定了良好表征的一些特性:平滑性、时间和空间一致性、稀疏性和自然聚类。Srivastava和Salakhutdinov [206]确定了多模态表示的其他可取特性: 在表征空间的相似性应能够反映出表征所对应的概念的相似性,即使在某些模态数据缺失的情况下,这种多模态的表征依旧能够轻松获得,最后,应能够在给出被观察到的其他模态的数据后,填补出缺失的模态数据。
单模态表示的发展已被广泛研究,[4],[19],[127]。在过去的十年中,已经出现了从为特定应用程序手工设计到数据驱动的转变。例如,21世纪初最流行的一种表示图像的方法是通过一个视觉单词包来表示手动设计的特征,如比例不变特征变换(SIFT)[132]。然而,目前大多数图像(或它们的部分)使用描述来表示,这些描述是使用神经体系结构从数据中学习到的,如卷积神经网络(CNN)[114]。同样,在音频领域,诸如梅尔频率倒频谱系数(MFCC)的声学特征已经被语音识别中的数据驱动深度神经网络[82]和用于辅助语言分析的递归神经网络[216]所取代。在自然语言处理中,文本特征最初依赖于计算文档中的单词出现次数,但现在已经被利用单词上下文的数据驱动单词嵌入所取代[146]。虽然已经有大量关于单模态表示的工作,但直到最近,大多数多模态表示都涉及单模态表示的简单连接[52],但这种情况一直在迅速变化。
为了帮助理解工作的广度,我们提出了两种类型的多模态表示:联合表示和协调表示。联合表示将单模态信号组合到相同的表示空间中,而协调表示单独处理单模态信号,但对它们施加某些相似性约束,以将它们带到我们称为协调空间的地方。在图1中可以看到不同的多模态表示类型。
联合和协调表示的结构。联合使用所有模态作为输入,将联合表示投影到同一空间。另一方面,协调分别处理单模态信号,每个模态投射导自己的空间,但通过相似性(如欧几里得距离)或结构约束(如强制执行偏序)进行协调
在数学上,联合表示为:
x_m=f(x_1,…,x_n ), (1)
其中多模态表示x_m使用函数f计算(例如,一个深度神经网络,限制玻尔兹曼机,或递归神经网络),它依赖于单模态表示x_1,…,x_n。而协调的代表性如下:
f(x_1 )~g(x_2) (2)
其中,每个模态都有对应的投影函数(f和g以上),该函数将其映射到协调的多模态空间中。虽然对多模态空间的投影对于每个模态都是独立的,但是生成的空间在它们之间是协调的(表示为∼)。这种协调的例子包括最小化余弦距离[64],最大化相关性[7],以及在结果空间之间实施偏序[220]。

1.3.1 联合表示

我们从将单模态表示一起投影到多模态空间的联合表示开始讨论(等式1)。联合表示主要(但不是唯一)用于在训练和推理步骤中存在多模态数据的任务。联合表示的最简单的形式是各个模态特征的串联(也称为早期融合[52])。在本节中,我们将讨论从神经网络开始的更高级的创建联合表示的方法,然后是概率图模型和递归神经网络(代表性的工作可以在表2中看到)。
多模态表示技术的总结。我们确定了三种类型的联合表示(第3.1节)和两种类型的协调表示(第3.2节)。对于模式+表示组合模式
神经网络已经成为一种非常流行的单模态数据表示方法[19]。它们被用来表示视觉、听觉和文本数据,并且越来越多用于多模态领域[157],[163],[225]。在本节中,我们将描述神经网络如何用于构建联合多模态表示,如何训练它们,以及它们提供了哪些优势。
一般来说,神经网络由连续的内积块和非线性激活函数组成。为了使用神经网络表示数据,首先训练它来执行特定的任务(例如,识别图像中的对象)。由于深层神经网络具有多层网络的性质,假设每个连续层以更抽象的方式表示数据[19],因此,通常使用最后或倒数第二个神经层作为数据表示形式。为了使用神经网络构建多模态表示,每个模态从几个单独的神经层开始,然后将模态投影到空间中的隐藏层,该隐藏层将模态投影到联合空间[9]、[150]、[163]、[235]。然后,联合多模态表示通过多个隐藏层或者直接用于预测。这种模型可以进行端到端的训练——既学习表示数据,又学习执行特定的任务。这使得在使用神经网络时,多模态表示学习和多模态融合之间有着密切的关系。
由于神经网络需要大量标记的训练数据,通常使用无监督训练(例如,使用自动编码器模型[12],[83])或来自不同但相关的领域的有监督数据来对此类表示进行预训练[9],[221]。Ngiam等人[157]提出的模型将使用自动编码器的思想扩展到多模态领域。他们使用堆叠去噪自动编码器来分别表示每个模态,然后使用另一个自动编码器层将它们融合成多模态表示。类似地,Silberer和Lapata [191]提出使用多模态自动编码器来完成语义概念基础的任务(见第7.2节)。除了使用重建损失来训练表示之外,他们还在损失函数中引入了一个项(term),该损失函数使用表示来预测对象标签。
基于神经网络的联合表示的主要优势在于当标记数据不足以进行监督学习时,它们能够从未标记的数据进行预训练。对手头的特定任务进行结果表示的微调也是很常见的ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值