论文阅读-面向深度学习的多模态融合技术研究综述

面向深度学习的多模态融合技术研究综述 - 中国知网 (cnki.net)

一、摘要和结论

摘要

面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能。多模态融合技术发展前期,以提升深度学习模型分类与回归性能为出发点,阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、解编码器三种融合架构在深度学习中的应用情况与优缺点,以及多核学习、图像模型和神经网络等具体融合方法与对齐技术,在此基础上归纳多模态融合研究的常用公开数据集,并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。

结论

本文总结了深度学习领域多模态融合技术的研究现状,对融合架构、融合方法、模态对齐等进行重点分析。

  1. 融合架构(按照特征融合方式不同分类)
    1. 联合架构
    2. 协同架构
    3. 解编码器架构
  2. 融合方法
    1. 与模型无关的方法
      1. 早期
      2. 晚期
      3. 混合
    2. 基于模型的方法
      1. 多核学习
      2. 图像模型
  3. 模态对齐,是多模态融合技术的难点
    1. 显示对齐
    2. 隐式对齐

近期在多模态融合技术上的研究促进大量新型多模态算法的提出,并拓展了多模态学习的应用范围。这些模型和算法各有优缺点,可在不同领域应用中发挥各自优势和作用。深度学习在多模态领域的应用前景十分广阔,仍然存在模态语义冲突消解、多模态组合评价、跨模态转移学习等问题亟需学者研究。

二、文献综述

为使机器能更全面高效地感知周围世界,需要赋予其理解、推理及融合多模态信息的能力,并且由于人们生活在一个多领域相互交融的环境中,听到的声音、看到的实物、闻到的味道都是一种模态,因此研究人员开始关注如何将多领域数据融合,实现不同模态之间的异质互补。利用多种模式的综合语义对深度学习研究具有重要意义。多模态融合技术(Multimodality Fushion Technology,MFT)是模型在分析和识别任务时处理不同形式数据的过程。多模态数据的融合可为模型决策提供更多信息,从而提高决策总体结果的准确率,其目标是建立能够处理和关联来自多种模态信息的模型

MFT主要包括模态表示、融合、转换、对齐技术。由于不同模态的特征向量最初位于不同的子空间中,即具有异质性,而这将会影响多模态数据在深度学习领域的应用。为解决最初位于不同子空间的问题,可将异构特征投影到公共子空间,由相似向量表示具有相似语义的多模态数据。因此,多模态融合技术的主要目标是缩小语义子空间中的分布差距,同时保持模态特定语义的完整性。例如利用多模态融合特征,提高视频分类、事件检测、情感分析、跨模态翻译等跨媒体分析性能。

本文根据多模态融合架构、融合方法、模态对齐方式和公开数据资源等,对面向深度学习的多模态融合技术进行分析与研究。

多模态融合架构

  • 主要目标:缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得较优的性能

多模态融合架构可以分为

  • 联合架构:联合架构是将单模态表示投影到一个共享语义的子空间中,以便能够融合多模态特征
  • 协同架构:包括跨模态相似模型和典型相关分析,其目标是寻找协调子空间中模态的关联关系。
  • 编解码器架构:将一个模态映射到另一个模态的多模态转换任务中。

三种架构在视频分类、情感分析、语音识别等领域得到广泛应用。

![[Pasted image 20230714221439.png]]

联合架构

联合架构在视频分类、事件检测、情感分析、视觉问答和语音识别等多模态分类或回归任务中都表现出较优的性能。

关键是实现特征“联合”

第一种是直接连接方法,也就是“加”联合方法。具体实现是在不同的隐藏层实现共享语义子空间,将转换后的各个单模态特征向量语义组合在一起,从而实现多模态融合。公式如下 z = f ( w 1 T v 1 + w 2 T v 2 + ⋅ ⋅ ⋅ + w n T v n ) z=f(\mathbf{w}_1^T\mathbf{v}_1+\mathbf{w}_2^T\mathbf{v}_2+···+\mathbf{w}_n^T\mathbf{v}_n) z=f(w1Tv1+w2Tv2+⋅⋅⋅+wnTvn)
其中 z z z 是共享语义子空间中的输出结果, v \mathbf{v} v 是各单模态的输入, w \mathbf{w} w 是权重,下标表示不同的模态,通过映射 f f f 将所有子模态语义转换到共享子空间。

另一种方法是“乘”联合方法。(文献:Tensor fusion network for multimodal sentiment analysis)具体实现是将语言、视频和音频等模态融合在统一的张量中,而张量是由所有单模态特征向量的输出乘积构成的,公式如下 z = [ v 1 1 ] ⊗ [ v 2 1 ] ⊗ ⋅ ⋅ ⋅ ⊗ [ v n 1 ] z=\left[ \begin{matrix} v^1\\ 1 \end{matrix} \right]\otimes\left[ \begin{matrix} v^2\\ 1 \end{matrix} \right] \otimes ···\otimes\left[ \begin{matrix} v^n\\ 1 \end{matrix} \right] z=[v11][v21]⋅⋅⋅[vn1]
其中 z z z 表示融合张量后的输出结果, v v v 表示不同的模态, ⊗ \otimes 表示外积算子。

两种联合方法分析:

  1. “加”联合方法
    1. 优点:简单易实现
    2. 局限性:特征向量语义组合容易造成后期语义丢失,使模型性能降低
  2. “乘”联合方法
    1. 优点:解决了“加”联合方法的局限性,通过张量计算使特征语义得到充分融合。
    2. 局限性:也是联合架构整体的局限性,后续会介绍

(文献:Mutlimodal learning with deep Boltzmann machine for emotion prediction in user generated videos)多模态情感预测模型由包括许多内部乘积的连续神经层组成,其充分利用深度神经网络的多层性质,将不同模态有序分布在不同层中,并在神经网络训练过程中动态实现向量语义组合

联合架构的局限性
联合架构对每个单模态的语义完整性有较高要求,数据不完整或错误问题在后期融合中会被放大。

解决方法
一些研究人员通过联合训练或模态相关性来解决这一问题。

  1. 联合训练:(文献:Multimodal deep learning,和 Learning representations for multimodal data with deep belief nets)通过多模态联合处理某些单模态中的部分数据缺失问题,以便可以利用更多更完整的训练数据,或者在一种或多种模态数据缺失的情况下,尽量减少对后续训练任务的影响
  2. 模态相关性:(文献:Exploiting feature and class relationships in video categorization with regularized deep neural networks)利用各单模态特征之间的相关性(如权重相似性)来发现模态之间的关系,从而对这些特征进行分类使用。

联合架构优点
融合方式简单,且共享子空间通常具备语义不变性,有助于机器学习模型中将知识从一种模态转换到另一种模态。
联合架构缺点
各单模态语义完整性不易在早期发现和处理

协同架构

协同架构是指将各种单模态在一些约束的作用下,实现相互协同。不同模态间包含的信息不同,因此协同架构有利于保持各单模态独有的特征和排他性

![[Pasted image 20230714221549.png]]

主流方法:基于交叉模态相似性方法
该方法旨在通过直接测量向量与不同模态间距离来学习公共子空间(文献:Cross-modal retrieval via deep and bidirectional representation learning)。这种方法的关键在于学习一个共享子空间,从而使不同模态表示集的相关性最大化

交叉模态相似性方法

在相似性度量的约束下保持模态间和模态内的相似性结构,是的相同语义或相关对象的跨模态相似距离尽可能小,不同语义尽可能大。例如文献:Unifying visual-semantic embeddings with multimodal neural language models 提出的模态间排名方法,用于完成视觉和文本融合任务。

具体实现
将视觉和文本的匹配嵌入向量表示为 ( v , t ) ∈ D (v,t) \in D (v,t)D ,融合目标函数用一个损失函数 f f f 表示,公式如下 f = ∑ v ∑ t − m a x ( 0 , α − S ( v , t ) + S ( v , t − ) ) + ∑ t ∑ v − m a x ( 0 , α − S ( t , v ) + S ( t , v − ) ) \begin{aligned} f=&\sum_v \sum_{t^-}max(0,\alpha-S_{(v,t)}+S_{(v,t^-)})+\\&\sum_t\sum_{v^-} max(0,\alpha-S_{(t,v)}+S_{(t,v^-)})\end{aligned} f=vtmax(0,αS(v,t)+S(v,t))+tvmax(0,αS(t,v)+S(t,v))
其中 α \alpha α 是边缘,S是相似性度量函数, t − t^- t 是与 v v v 不匹配的嵌入向量,且 t − t^- t v − v^- v随机选择的样本。

优点:保持了模态间和模态内的相似性结构,同时实现了模态间的相互协同

此外,还可以采用其他方法来度量距离,比如欧氏距离,目的都是使配对样本距离最小化

保持模态间相似性结构

除了相似性度量之外,跨模态应用的另一个关键性问题是保持模态间相似性结构此类方法通常对模态特征的类别进行分类,使它们在每种模态下具有一定的区分度,同时兼顾模态协同和特征融合。这一灵活特点使得协同架构在语音识别、迁移学习和图像标注等领域有广泛运用。

协同架构的优点:每个单模态都可以独立运行,这一特性有利于跨模式迁移学习,其目的是在不同模态或领域之间传递知识。

协同架构的缺点:模态融合难度较大,使跨模态学习模型不易实现,同时模型很难在两种以上模态之间实现迁移学习。

编解码器架构

也就是类似NLP中的Transformer架构。编解码器结构通常用于将一种模态映射到另一种模态的多模态转换任务中,其结构主要由Encoder和Decoder组成。

![[Pasted image 20230714221737.png]]

具体实现:Encoder将源模态映射到向量 v v v 中,Decoder基于向量 v v v 生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。

目前,编解码器结构重点关注共享语义捕获多模态序列编解码问题。

  1. 共享语义捕获

为了有效捕获源模态和目标模态两种模态的共享语义,主流解决方案是通过一些正则化术语保持模态间的语义一致性,需确保Encoder能正确检测和编码信息,而Decoder能推理高级语义和生成语法,从而保证源模态中语义的正确理解和目标模态中新样本的生成。

  1. 多模态序列编解码

为解决多模态序列的编解码问题,需要训练一个灵活的特征选择模块,而训练序列的编解码可以看作是顺序决策问题,因此通常需要采用决策能力强的模型和方法处理该问题,比如深度强化学习,就是一种常用的多模态序列编解码工具(文献:CCL: cross-modal correlation learning with multigrained fusion by hierarchical network)。

多数编解码器结构只包含Encoder和Decoder,但有些架构是由多个Encoder和Decoder组成的。(文献:Multimodal unsupervised image-to-image translation)是一种image2image的翻译模型,由多个内容Encoder和样式Decoder组成,每个Encoder都负责一部分工作。

编解码器优点:能够在源模态基础上生成新的目标模态样本

编解码器缺点:每个编解码器只能编码其中一种模态,并且决策模块设计复杂

多模态融合方法

多模态融合方法是多模态深度学习技术的核心内容。将多模态融合方法分为模型无关方法和基于模型方法。其中,模型无关方法不直接依赖于特定的深度学习方法,也就是模型。而基于模型的方法利用深度学习模型显式地解决多模态融合问题,例如多核学习(Multiple Kernel Learning,MKL)方法、图像模型(Graph Model,GM)方法和神经网络(Neural Network,NN)方法等。

![[Pasted image 20230714221804.png]]

模型无关的融合方法

模型无关的融合方法可以分为早期融合(基于特征)、晚期融合(基于决策)和混合融合

![[Pasted image 20230714221948.png]]

早期融合在特征提取之后立即集成特征(通常只需要连接各模态特征的表示)
晚期融合在每种模式输出结果(比如输出分类或回归结果)后才执行集成
混合融合结合早期融合方法和单模态预测器的输出

早期融合方法

解决问题:原始数据之间的不一致问题
具体实现:先从每种模态中分别提取特征的表示,然后在特征级别进行融合,即特征融合。由于深度学习本质上会涉及从原始数据中学习特征的具体表示,所以将特征层面和数据层面的融合统称为早期融合。

模态间的信息其实是高度相关的,但这种相关性在特征层和数据层提取的难度很大。有观点认为不同的数据流所包含的信息之间在较高层次才具有相关性。所以相对来说,早期融合方法不能够充分展示模态之间的互补性,但可能导致冗余向量的输出。因此,研究人员通常采用降维技术来消除空间中的冗余问题。主成分分析PCA方法被广泛应用于多模态深度学习的降维处理中。

早期融合还需要解决的问题:不同数据源之间的时间同步问题
解决方法:(文献:Computer vision and machine learning in science fiction)提出多种解决同步问题的方法,如卷积、训练和池融合等,能较好地将离散时间序列和连续信号进行整合,实现模态的时间同步。

晚期融合方法

也称为决策级融合方法,深度学习模型先对不同模态进行训练,再融合多个模型输出的结果。由于该方法的融合过程和特征无关,且来自多个模型的错误常是不相关的,因此该融合法普遍受到关注

主要方法:采用规则来确定不同模型输出结果的组合,即规则融合。例如最大值融合、平均值融合、贝叶斯规则融合以及集成学习等规则融合方法。

和早期融合方法相比,发现模态之间相关性比较大时,早期融合优于晚期融合
当各个模态很大程度上不相关时,例如维数和采样率极不相关,采用晚期融合方法更适合。因此,两种方法各有优缺点,需要根据实际情况考虑。

混合融合方法

结合了早期和晚期结合方法,在综合两者优点的同时,也增加了模型的结构复杂度和训练难度。深度学习模型结构的多样性和灵活性,比较适合使用混合融合方法,因此在多媒体、视觉问答、手势识别等领域应用广泛。

混合融合方法的组合策略合理性问题是提高模型性能的关键因素。文献:Multimedia classification and event detection using double fusion 利用混合融合方法实现多媒体事件检测的典型应用,通过早期融合和晚期融合来捕捉特征关系和处理过拟合问题,设计了双融合的混合融合方案,达到88.1%的准确率,是目前该领域取得的最优结果

三种融合方法优缺点分析

  1. 早期融合
    • 优点:较好捕捉特征之间的关系
    • 缺点:容易过拟合训练数据
  2. 晚期融合
    • 优点:较好处理过拟合问题
    • 缺点:不允许分类器同时训练所有数据
  3. 混合融合
    • 优点:使用灵活
    • 缺点:鲁棒性较差,研究人员针对当前多数的体系结构需根据具体应用问题和研究内容选择合适的融合方法。

基于模型的融合方法

基于模型的融合方法是从实现技术和模型的角度解决多模态融合的问题,常用方法包括MKL、GM、NN方法等。

多核学习方法 MKL

MKL是内核支持向量机SVM方法的扩展,其允许使用不同的核对应数据的不同视图。核可以看作是各数据点之间的相似函数,因此该方法能更好融合异构数据且使用灵活,在多目标检测、多模态情感识别和多模态情感分析等领域均具有非常广泛的应用。

  • 多目标检测的MKL论文:Multiple kernel learning for visual object recognition: a review
  • 多模态情感识别的MKL论文:Multi-kernel learning for estimating individual wellbeing
  • 多模态情感分析的MKL论文:Multiple kernel learning for emotion recognition in the wild

文献:Multiple kernel learning in the primal for multimodal Alzheimer’s disease classification 在阿尔茨海默病分类中使用MKL进行多模态融合,通过在高斯核上进行傅里叶变换,显式计算映射函数,从而得到一个更简单的解决方案,其是一种较新的多核学习框架。这个研究成果具有可扩展性和易于实现的特点,并取得了非常出色的学习性能。

MKL优点:

  1. 核选择的灵活性
  2. 损失函数为凸函数,允许使用标准优化包和全局最优解进行模型训练,可以大幅提升神经网络模型性能。

MKL缺点:在测试期间需要依赖训练数据,且占用大量内存资源

图像模型方法 GM

GM是一种常用的多模态融合方法,主要是通过图像分割、拼接和预测对浅层或深层图形进行融合,从而生成模态融合的结果。常见图像模型有联合概率生成模型和条件概率判别模型等。

早期
多数使用生成模型进行多模态融合,如耦合和阶乘隐马尔科夫模型、动态贝叶斯网络等这些模型充分利用联合概率的预测能力进行建模,但是不利于实现数据的空间和时间结构

近期
条件随机场CRF方法通过结合图像描述的视觉和文本信息,可以更好分割图像,并在多模态会议分割、多视点隐藏、潜在变量模型、多媒体分类任务、连续版本的数据拟合等方面都有较好的融合效果

GM方法利用回归模型对多个连续版本的数据进行拟合,预测后序版本数据的趋势,从而提高多媒体分类任务的性能。

GM方法优点:能够有效利用数据空间和时间结构,适用于和时间相关的建模任务,还可以将人类专家知识嵌入到模型汇总,增强了模型的可解释性。
GM方法缺点:泛化能力有限

神经网络方法 NN

NN是目前应用最广泛的方法之一,已用于各种多模态融合任务中。

近期,神经网络方法通过使用循环神经网络RNN和长短期记忆网络LSTM来融合时间多模态信息,(文献:Context sensitive multimodal emotion recognition from speech and facial expression using bidirectional LSTM modeling)该文使用LSTM模型进行连续多模态情感识别,相对于MKL和GM方法表现出更优越的性能。此外,神经网络多模态融合方法在图像字幕处理任务中表现良好,主要模型包括神经图像字幕模型、多视图模型等。

  • 神经图像字幕模型:Show and tell: a neural image caption generator
  • 多视图模型:Extending long short-term memory for multi-view structured learning

神经网络方法优点:具备大数据学习能力,分层方式有利于不同模态嵌入,具有较好的可扩展性
神经网络方法缺点:随着模态增多,模型可解释性变差

多模态对齐方法

多模态对齐是多模态融合的关键技术之一,指的是从两个或者多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,需找到图像区域与标题单词或短语的对应关系。(文献:Deep visual-semantic alignments for generating image descriptions)多模态对齐方法分为显式对齐隐式对齐

  1. 显式对齐:关注模态之间子组件的对齐问题
  2. 隐式对齐:在深度学习模型训练期间对数据进行潜在对齐

![[Pasted image 20230715230018.png]]

显式对齐方法

无监督方法
  • 无监督方法在不同模态的实例之间没有用于直接对齐的监督标签,例如文献:Aligning plot synopses to videos for story-based retrieval 提出的动态规划的无监督学习对齐方法,已经被广泛应用于对齐多视图时间序列

  • 根据相同物体的外貌特征来定义视觉场景和句子之间的相似性,从而对齐电视节目和情节概要。

上述两个研究成果都在没有监督学习的前提下,通过度量两个序列之间的相似性,在找到它们之间的最佳匹配后,按时间对齐(或插入帧),实现字符标识和关键字与情节提要和字幕之间的对齐。

无监督方法优点:无需标注数据,可以节省数据标注成本
无监督方法缺点:对实例的规范性要求较高,需具备时间一致性,且时间上没有较大的跳跃和单调性,否则对齐性能会急剧下降。

有监督方法

有监督方法是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能。通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法旨在不降低性能的前提下,尽量减少监督信息,也就是弱监督对齐

文献:Weaklysupervised alignment of video with text 提出的一种类似于规范时间扭曲的方法,主要利用现有(弱)监督对齐数据完成模型训练,从而提升深度学习模型性能。

文献:Aligning books and movies: towards story-like visual explanations by watching movies and reading books 利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐

优点:有监督方法的对齐性能总体上优于无监督方法
缺点:需要以标注数据为基础,而准确把握监督信息的参与程度是一项极具挑战的工作

隐式对齐方法

在机器翻译问题中,由于构建图像模型需要大量训练数据或手工运行,因此随着深度学习研究的深入及训练数据的有限,该方法已不适用

神经网络方法是目前解决机器翻译问题的主流方法,不论使用解编码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。例如,文献:Show,attend and tell: neural image caption generation with visual attention 中,图像自动标注应用中在生成连续单词时,注意力机制允许Decoder(通常是RNN)集中在图像的特定部分,该注意力模块为一个浅层神经网络,其余目标任务一起完成端到端训练。

缺点就是由于深度神经网络的复杂性,设计注意力模块具有一定的难度。

三、公开数据集

以下是一些常见用于多模态融合技术研究和应用的公开数据集,并给出了最优学习结果,其中包括准确率ACC、正确分类率CCR、等错误率EER和平均精度均值MAP。

![[Pasted image 20230715234020.png]]

四、研究方向

现有多模态融合技术可以有效提升深度学习模型性能,但仍有一些问题亟待解决,如跨模态迁移学习、特征间语义鸿沟、模态泛化能力等。

多模态融合技术将在情感识别与分析领域发挥更大作用。目前利用多模态融合进行情感识别研究仍处于部分融合阶段,尚未确立一个情感分析的综合数据库,下一步可将人体的所有特征包括面部表情、瞳孔扩张、语言、身体运动、体温等进行多模态融合,以获得更全面、更详细的情感识别结果。

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安徒生在ACL讲一千零一夜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值