- 情绪的识别是一个动态的过程,它针对于人的情绪状态,这意味着每个人的表情所对应的情绪都是不同的。
- 模态之间的信息更多的是单向补足而不是双向互补,(eg.若语音模态存在噪声,引入视觉模态可以很好的提高性能,体现他们的单向补足),只有在某模态中存在噪声时会起到更好的作用。(捕捉到的模式之间的相互作用是额外的,而不是互补的。两种方法捕获的信息相同,提高了多模态模型的鲁棒性,但对无噪声场景下的语音识别性能没有改善。)
多模态机器学习五个核心技术挑战:
1.表示:
- 通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。
- 无论是图像、音频样本、单个单词或句子,多模态表示是使用来自多个这样的实体的信息来表示数据的一种表示。
- 表示多种形式存在许多困难:如何组合来自不同来源的数据;如何处理不同级别的噪声;以及如何处理丢失的数据。以有意义的方式表示数据的能力对于多模式问题至关重要,并且是任何模型的主干。
- 良好表征要做到:在给定观察到的缺失模态时,应该能够填补缺失的模态。
- 音频特征(如音高、对数能量、过零率、频谱特征、语音质量和抖动)在情感识别中非常有用。
- 联合表示将单峰信号组合到同一个表示空间中,而协调表示分别处理单峰信号,但对它们施加某种相似性约束,使它们进入我们所说的协调空间。
- 联合表征可以处理两种以上模态,而协调表征目前只能处理两种模态
- 未来我们可能会看到更多关于一种模态驱动网络结构应用到另一种模态的工作
2.转化:
答案不唯一
3.对齐:
- 需要衡量不同模式之间的相似性,并处理可能的远程依赖和歧义。
- 模态对齐面临着许多困难:少有显示标注模态对齐的数据集;很难设计模态间的相似性度量;存在多种可能的模态对齐,而且一个模态中的elements可能在另一个模态中没有对应。
4.融合:
- 将来自两种或多种模式的信息结合起来进行预测。
- 多模态融合仍然面临以下挑战:
- 信号可能无法在时间上对齐(可能是密集连续信号和稀疏事件);
- 难以建立利用互补信息而不仅仅是互补信息的模型;
- 每个模态在不同的时间点可能表现出不同类型和不同程度的噪声。
- 基于多模态信息互补性和异步性(非对齐)的动态融合;
- 高噪声环境下对于模态模糊或模态缺失问题的鲁棒性融合;
- 多模态融合一般采用拼接、按位乘/求平均等简单策略。由于晚期融合抑制了模态之间的交互, 目前大部分基于深度学习的模型均使用早期(特征融合)或者中期融合(决策融合)
各情感模态的特征融合:
(1)无模型融合
- 早期融合(特征级融合) 直接将来自不同模态的特征表示拼接为一个表示。这种方法只需要训练一个单一的模型。但来自不同模态的表示可能存在很大差异,我们必须考虑时间同步问题,以便在融合前将这些表示转化为相同的格式。当某个或某些模态缺失时,早期融合会失败。
- 晚期融合(决策级融合) 整合来自每个单模态的预测结果。
优点:@灵活性和优越性——可以为不同的模态选择最优分类器;
@鲁棒性——当某些模态缺失时,晚期融合仍然可以发挥作用。但晚期融合忽略了不同模态做出预测前的关联。 - 混合融合 混合融合结合了早期融合和晚期融合,在一个统一的框架内利用它们的优势,但计算成本更高。
(2)基于模型的融合
- 浅层模型:
- 基于核的融合 是基于含核分类器的扩展,如SVM。不同的模态使用不同的核,核选择的灵活性和凸损失函数使多核学习融合在很多应用中受到欢迎,包括MER。但在测试过程中,这些融合方法依赖于训练数据中的支持向量,这导致了巨大的内存成本和无效的参考。
- 基于图的融合 为每一种模式构建独立的图或超图,将这些图合并为一个融合图,并通过基于图的学习来学习不同边和模态的权重。它只需根据现有数据构建图,就能很好地处理数据缺失问题。
- 深层模型:
- 基于神经网络的融合
- 基于注意力的融合 使用注意力机制来获得一组带标量权重的特征表示的加权和,这些权重由注意力模块动态学习所得。近期新设计的多模态适应门(MAG),使基于Transformer 的语境词表示(如BERT 和XLNet)能够接受多模态的非语言数据[22]。基于对非语言行为的注意条件,MAG 能将携带大量信息的多模态映射为一个时序统一的向量。
- 基于张量的融合 通过一些特定的张量操作,如外积和多项式张量池,来利用不同表示的相关性。
- 简单融合
- 门控融合(Gating) 门控融合和注意力融合是早些年提出的基础 的多模 态 融 合 方 法。 它 们 的 优 点 是 能 方 便 地 与 CNN/LSTM/Transformer等主流的神经网络结构 相结合,也能与多种单模态表示相结 合。 门 控 机 制 跟 XLNet相 结 合 的 MAG- XLNet模型在情感识别上获得了最佳的性能。
- Transformer 融合 分为单流模型和双流模型
- 图模型融合(GraphFusion) 图模 型 融 合 和 Transformer融 合 是 近 几 年 提 出的新方法,它们的模型结构较复杂,且对单模态 的表示要求较高。如图模型融合需要跟视觉场景 图表示 (和 文 本 的 图 表 示)相 结 合。 双 流 Trans- former融合视觉-语言-语音3种模态信息,需要多 个 Transformer。
- 双 线 性 注 意 力 (BilinearAttention)融合
这些用于深度模型的融合方法能性能良好地以端到端方式从大量数据中学习,但存在可解释性低的问题。
上述特征融合方法的一个重要属性是它们是否支持视频中MER 的时序建模。显然易见,由于在晚期融合之前基于每种模态的预测结果已经可以获取,所以早期融合可以,但晚期融合和混合融合不能。对于基于模型的融合,除了基于核的融合,其他的都能用于时序建模,如基于图融合的隐马尔可夫模型(HMM)和条件随机场(CRF),以及基于神经网络融合的RNN 和LSTM 网络。
5.协同学习:
- 探讨了从一种模式中学习知识如何帮助在不同模式上训练的计算模型。
- 协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。比如迁移学习(Transfer Learning)就是属于这个范畴。迁移学习:迁移学习能够从一个数据充分、干净的模态学习特征表示迁移到另一个数据稀缺、噪声大的模态,这种迁移学习常用多模态协同特征表示实现。
- 多模态协同学习允许一种模态影响另一种模态的训练,利用跨模态的互补信息。需要注意的是,协同学习是独立于任务的,可以用来创建更好的融合、翻译和对齐模型。即协同学习是与需要解决的任务无关的,因此它可以用于辅助多模态映射、融合及对齐等问题的研究。
- 多模态机器学习的一个特殊领域似乎还没有得到充分研究,那就是协同学习,其中来自一种模态的知识有助于在另一种模态中建模。这个挑战与协调表示的概念有关,在协调表示中,每个模态保持自己的表示,但找到一种交换和协调知识的方式。我们认为这些研究方向是未来研究的有前途的方向。
多模态情感识别的领域自适应
- 领域自适应的目的是从有标签的源领域中学习可迁移的MER 模型,该模型在无标签的目标域中也能取得良好表现。近期学者们致力于研究深度无监督领域自适应,它采用双流架构。一个流用于在已标记的源域上训练MER 模型,而另一个流则用于对齐源域和目标域。MER 领域自适应的主要困难在于同时对齐源域和目标域之间的多种模态。将对抗式生成模型从单模态扩展到多模态会更加困难。与图像不同,其他生成的模态,如文本和语音,尽管能让判别器无法区分,但可能存在语义混乱。用生成中间特征取代原始数据是一个可行的解决方案。
以下方向将是多模态信息处理 技术领域未来重要的研究内容:
- 非对齐语料上的多模态信息处理。 目前,大多数下游的多模态任务和多模态预训练模态都依赖多模态对齐语料。相对动辄上百 G 甚至 T 级别的单模态语料,多模态对齐语料的规模还是很有限。探索如何在海量非对齐多模态语料上训练多模态模型具有非常实用的价值。例如,利用多模态对齐技术将海量的单模态语料 与其他模态进行自动对齐。 大多数多模态数据通常是未对齐的,我们更愿意探索如何使用神经网络来对齐不同的模态数据,以及如何使用预先训练的模型来从未对齐的多模态数据学习更好的表示。
- 面向单模态和多模态的理解和生成任务的统一模型。 当前的主流模型或面向单模态理解 (或生成)或面向多模态理解(或生成)的模型,构建一个既适用于单模态理解与生成任务,又适用于多模态理解与生成任务的统一模型是未来非常重要的 研究方向
- 高噪声环境下的多模态鲁棒性融合。 真实场景常常有较强的背景噪声,部分模态的数据通常是模糊或缺失的。因此,探索如何在高噪声情况下获得信息缺失的有效表征, 提高模型预测鲁棒性和准确性是多模态领域重要的研究课题之一。例,Zhao等人提出了基于缺失模态想象网络(MissingModalityI- maginationNetwork,MMIN)来处理不确定的模态 缺失问题。由于模态缺失现象的普遍性,该问题将会是多模态领域接下来的一个研究热点。
- 多模态与知识的融合。 如何提取更精细粒度的视觉特征表示是多模态领域重要的基础研究方向之一。引入知识图谱作为图像实体信息的补充,从而进行知识增强的视觉特征表示是该方向一种探索思路。多模态预训练模型可以更好地对细颗粒度的多模态语义单元(词或者目标)间的相关性进行建模。
- 复杂交互情境下的多模态应用。
- 跨模态不一致性 同一样本的不同模态可能相互冲突,表达不同的情感。希望高效的MER 方法能自动评估哪些模态更可靠,例如能为各模态分配相应权重。
- 上下文和先验知识建模。