基于IF-MMIN改进的->IF-MMIN
代码地址->github传送
abstract
多模态情感识别(MER)旨在通过探索跨模态的互补信息来理解人类表达情感的方式。然而,很难保证全模态数据在真实场景中总是可用的。为了处理缺失模态,研究人员着重研究了跨模态缺失模态想象过程中有意义的联合多模态表征学习。然而,由于“模态差距”问题,跨模态想象机制极易产生误差,从而影响想象的准确性,从而影响最终的识别性能。为此,我们将模态不变特征的概念引入到缺失模态想象网络中,该网络包含两个关键模块:1)基于对比学习的新型模态不变特征提取模块;2)基于想象不变量特征的鲁棒想象模块,在缺失条件下重构缺失信息。最后,我们结合想象和可用的模式的情绪识别。在基准数据集上的实验结果表明,我们提出的方法优于现有的最先进的策略。与我们之前的工作相比,我们的扩展版本在缺失模态的多模态情感识别上更有效。
intro
多模态情绪识别(MULTIMODAL emotion recognition, MER)任务旨在利用多模态信号的互补信息来理解人类的情绪表达[1],[2],[3]。随着深度学习和情感计算的发展[4],[5],已有的研究已经对全模态数据进行了出色的情感理解能力[6],[7],[8]。然而,在现实场景中,它们经常面临设备损坏[9]、[10]、模态信息不同步[11]、视频质量差[12]等导致模态缺失的问题。现有的MER系统通常不能在缺失条件下表现良好。为此,越来越多的研究者开始关注缺失模态的多模态情绪识别[10]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]。
目前,主流方法的思想主要是利用现有可用模态重构缺失数据,并捕获多模态联合特征表示,用于最终的情感识别[13],[14]。
例如,Pham等人[20]提出了一种基于循环翻译的模型来学习鲁棒联合表示。此外,研究了基于级联残差自编码器(cascading Residual Autoencoder, CRA)的缺失模态想象网络[10],简称MMIN,通过CRA预测缺失模态并学习联合特征表示,取得了优于现有方法的性能。值得一提的是,这种方法的关键组成部分是跨模态想象,它对其鲁棒性起着重要作用。
尽管取得了进展,但多模态机器学习领域中众所周知的“模态差距”问题[23]对跨模态想象的性能产生了不利影响。
具体来说,情态差异是指情态有其独特的特征。请注意,异质模态之间存在天然差异,表现为各种模态的特征分布不同,在特征几何空间中会明显分开[23]。在全情态情境下,一些研究试图挖掘不同情态之间的内在关联,以缓解“情态鸿沟”问题[24],[25],[26]。例如,Hazarika等人[24]试图学习不同模态的共享子空间特征表示,用于增强单模态特征的信息。Liu等[27]提出了离散共享空间来捕获细粒度表示,以提高跨模态检索的准确性。最近的一些研究[28]、[29]试图使用对比学习将来自多个模态的信息约束到一个统一的语义空间中。所有的研究都表明,利用情态相关知识可以有效地弥合情态差距。
在上述研究的鼓舞下,如何缓解这种模式缺失的MER模式差距问题,这在以往的工作中尚未得到研究。
幸运的是,我们可以从人类的认知计算理论中得到启发[30],[31]。如文献[30]所述,人类具有在他人引导下预测某一模态信息的能力。更重要的是,丰富的跨模态一致性使机器模仿人类的跨模态生成能力成为可能。因此,如何挖掘不同模态的跨模态一致性,即模态不变特征,并将其有效地应用于缺失模态,特别是缺失模态想象中的模态一致性,是本文研究的重点
在这项工作中,我们提出了一种新的基于对比学习的情态不变特征的缺失情态想象网络,称为CIF-MMIN。在这种情况下,基于对比学习的模态不变特征被称为CIF。
具体而言,我们首先设计了一种基于对比学习的训练策略,从全模态信息中提取CIF。然后,我们设计了基于CIF-MMIN的想象模块(CIF-IM),通过推断理想全模态的不变性,在缺失条件下推断出鲁棒缺失信息。注意,我们提出了一个不变性损失来约束CIF-MMIN中不变性特征的推理能力。最后,将想象的模态信息和可用的模态信息融合,以获得完成模态识别所需的完整信息。这样,我们充分探索了可用的模态,缓解了跨模态想象中的模态差距问题,从而提高了缺失条件下的MER的鲁棒性。
图1显示了所提出方法的全景图。我们可以看到,我们的方法,CIF- MMIN,包括两个主要部分:CIF学习和CIF- MMIN训练。CIF学习最初侧重于学习全模态场景中的模态不变性特征。CIF-MMIN训练进一步扩展了在模态缺失的情况下进行多模态情感识别的学习过程。CIF学习旨在为推断CIF- mmin训练中的不变性特征提供学习目标。
我们将在第3、3.1和3.2节中依次介绍这些方面。为了验证我们方法的有效性,我们在三个基准会话数据集上进行了实验。通过定量和定性分析,结果表明我们的CIF-MMIN方法在所有缺失模态条件下都优于最先进的基线模型。
本文的主要贡献可以概括如下:
•本工作专注于多模态情感识别,解决了缺失模态问题,显著增强了多模态情感识别在现实场景中的鲁棒性;
•我们受到人类强大的跨模态推理能力的启发,研究具有缺失模态的MER,这在以前的研究中尚未得到解决;
•我们设计了一个新的框架,CIF-MMIN,以实现对缺失数据的鲁棒跨模态想象。利用基于对比学习的模态不变特征有效地缓解了模态差距问题;
•在三个基准数据集上的实验结果验证了我们方法的有效性。在失模态条件下,CIF-MMIN优于现有的先进方法。
虽然这项工作与我们之前的工作[32]有相似的动机,称为IF-MMIN,在模态不变特征学习方面,它在许多方面是不同的:
1)我们使用基于对比学习的策略来取代之前的无监督中心矩差异(CMD)距离约束策略,因为无监督学习策略缺乏可解释性,学习的特征遭受语义损失[33];
2)在之前的工作中,在完成跨模态想象后,将CRA中的联合表示用于最终的MER,而将想象获得的单模态信息和缺失模态信息丢弃,导致信息浪费。因此,在本工作中,将想象中的缺失情态信息与原始的单模态信息融合,完成最终的MER,有效地利用了多模态信息。我们在第5.3.2.2节的消融研究中验证了这一点;
3)为了更全面地验证我们的模型,本文引入了更多的基准数据集和更多的基线系统,并进行了更详细的定性和定量分析,以进一步完善我们的工作
在本文的其余部分,我们首先简要回顾第2节的背景。第3节介绍了CIF-MMIN的方法。之后,我们在第4节中介绍了实验设置,其中包括数据集、基线和实现细节。我们在Section 5中展示了所有的实验结果并进行了深入的分析。最后,我们对本文进行了总结,并在第6节中讨论了未来的工作。
intro
多模态情绪识别
自动多模态情感识别对于自然人机交互非常重要[1],[2],[3],[34]。先前的研究表明,这些不同的模态对情绪表达是互补的,并提出了许多有效的多模态融合方法来提高情绪识别性能[6],[34],[35],[36],[37]。如Zhao等[34]提出基于变压器的深度融合网络(Deep-scale Fusion Network, TDFNet)模型,通过促进多模态信息之间的交互来增强情感特征的提取,从而提高情感识别的准确性。
Chen等人[37]提出了一种基于鲁棒优化的BERT方法(RoBERTa)[38]和Wav2vec[39]的key-sparse Transformer,通过更多地关注多模态特征中的情绪相关信息来实现高效的情绪识别。然而,现有的基于全模态样本训练的多模态融合模型在缺少部分模态的情况下往往会失败。因此,这就引入了一个重要的研究方向,即缺失模态的多模态情感识别,这正是本文的重点。
研究多模态情绪识别任务中的模态缺失问题具有重要的现实意义[10]、[13]、[22]、[40]、[41]。在现实场景中,某些模式(如面部表情、声音线索或文本转录)不可用或不可靠是很常见的[10]、[22]、[40]、[42]。这可能是由于各种原因造成的,比如设备故障、环境噪音或姿势限制。例如,在视频会议中,由于网络延迟或摄像头故障,可能无法获得面部表情数据。同样,在嘈杂的环境中,整个声音线索可能被环境噪声掩盖,使语音数据不可靠。与前面的场景类似,在噪声环境下,语音识别模型可能会产生错误的结果或无法准确识别文本信息。因此,在这种情况下,文本情态可能受到影响,无法提供精确的文本数据。这些问题在实际应用中非常普遍,解决缺失模式的挑战对于实现准确和稳健的情感识别系统至关重要[10],[13],[22]。
通过解决缺失模式的挑战,我们可以开发更强大和准确的情绪识别系统,可以有效地处理某些模式不存在或不可靠的情况[10],[13],[22],[41]。该研究可以在多个领域得到实际应用,包括人机交互[13]、情感计算[10]、[22]和情感感知技术[41],最终提高情感识别系统在现实环境中的性能和可用性。
缺失模态解决方案
现有的缺失模态的MER解决方案可以归纳为三类:1)缺失数据的输入;2)缺失数据重建;3)缺失条件下的联合表示学习。
缺失数据输入方法试图填充缺失信息,以便该信息可以与可用模态的信息组合以形成可计算的多模态表示。注意,用零向量或平均值填充缺失模态是最简单和最广泛使用的方法。如Parthasarathy等[15]用零向量填充视频缺失帧。Zhang等[16]基于同一类别的可用样本,用平均值填充缺失模态。一些进一步的方法[17]考虑了不同模态之间的相关性。
然而,验证通过上述方法获得的填充信息的可解释性仍然是一个挑战。
缺失数据重建研究的目的是预测或想象缺失数据的原始信息,从目前观察到的模式。请注意,想象的数据被馈送到后续模块,而观察到的模态被丢弃。为了实现这一目标,已经出现了几种神经网络模型,其中包括变压器[12],[43],生成对抗网络(GAN)[18],[44],自动编码器(AE)[45],[46]和变分自动编码器(VAE)[9],[47]等,并取得了令人鼓舞的结果。例如,Duan等人[48]利用自动编码器来输入缺失的数据。Tran等人[46]受残差学习[49]的启发,提出残差自编码器,设计了一种CRA架构来进行缺失数据重建。Cai等[18]提出了一种编码器-解码器网络,根据可用模态生成高质量的缺失模态图像。Suo等人[50]提出了一个由GAN和度量学习组成的框架来生成缺失模态信息[51]。
缺失条件下联合表征学习的目标是利用现有数据学习有意义的特征表征,模拟全模态条件下的多模态联合特征表征[19],[20],[21],[22]。Pham等[20]提出了一种基于循环一致性损失的翻译方法来学习联合表示。
我们注意到后两种方法之间的界限正变得越来越模糊,研究人员使用在缺失模态重建过程中学习到的联合表示来进行最终的情感识别。
例如,MMIN模型[10]将具有循环一致性损失的CRA纳入跨模态想象,然后提取CRA之间的联合特征表示,取得了优于现有方法的性能。
这种结合了联合表征学习和缺失模态重构的方法已经成为当今的主流方法。
人类情态间隙与跨情态推理
模态差距一直是困扰多模态学习的难题[23],这是由异构模态之间的载体差异造成的。与[23]的观察结果类似,不同的模态在隐藏特征空间中表现出不同的特征分布。具体来说,我们从交互式情绪二元运动捕捉(IEMOCAP)数据集[52]中随机选择400个样本进行t分布随机邻居嵌入(t-SNE)[53]可视化分析。每个样本包含三种表示(<文本、声学、视觉>数据)。我们遵循[23],采用权重随机初始化的长短期记忆(LSTM)来提取每种模态的隐藏特征。二维特征空间的特征分布结果如图2(a)所示。我们观察到相同模态的特征聚在一起,而来自不同或异构模态的特征之间存在显著距离。
换句话说,异质模态在特征分布之间表现出分布差异,从而导致模态差距问题。注意语态的差距问题,由于特征空间的分布差异,跨模态缺失数据重建往往难以准确,这使得基于缺失模态重建的多模态重构难以很好地协同工作。
与基于神经网络的MER模型不同,人类在进行跨模态数据推理时可以很好地处理模态间隙问题[31]。一般来说,面对数据缺失的多模态信号,人类能够快速调用不同模态之间包含的先验跨模态一致信息或模态不变特征,并几乎无损地想象或重建缺失的数据[31]。假设多模态信号只包括文字信号和声音信号,而不包括视觉信号。如图2(b)所示,人脑首先处理声音和文本信号。虽然三种模态在特征分布上有所不同,但在语义表达上具有一致或不变的信息,即三种模态都应该表达快乐状态。
基于挖掘模态不变特征的能力,人脑可以很好地将可用信息与模态不变特征融合,用于缺失数据预测。最终,一个带有微笑表情的人脸图像被预测出来。现有的模态信息和预测的信息可以作为最终的多模态情感识别的补充信息。我们的工作正是将上述发现应用于缺少模态的MER模型,以解决以往工作中未研究的模态差距问题。
对比学习
近年来,自监督学习在表征学习方面的飞速发展吸引了众多研究者的关注[29],[54],[55]。自然语言处理(NLP)和计算机视觉(CV)领域都提出了许多基于对比学习的模型[54],[56],[57],[58],其基本思想是减小特征空间中锚点与正样本之间的距离,同时扩大锚点与负样本之间的距离。例如,用对比学习支持聚类(SCCL)[59]利用对比学习来促进在表示空间中更好地分离语义信息,用于短文本聚类任务。句子嵌入的简单对比学习(Simple contrast Learning of Sentence Embeddings, SimCSE)[60]利用语言模型通过dropout编码的各种表示作为正对来学习文本嵌入。一个简单的视觉表征对比学习框架(Simple Framework for contrast Learning of Visual representation, SimCLR)[54]将增强图像构建为正对,而批内其他未配对的图像组成负对来学习视觉表征。
近年来,对比学习在多模态加工领域的应用越来越广泛[61],[62]。
对比语言图像预训练(contrast Language-Image Pre-Training, CLIP)[61]在<文本、视觉>模式的成对数据上使用对比学习来构建语言监督视觉模型。Khare等人[55]将自监督训练扩展到多模态应用,以学习下游情绪识别任务的多模态表示。Akbari等人[29]提出了video - audio - text Transformer (VATT),这是一个基于对比学习的框架,用于学习多模态表示,从而有利于视频动作识别、音频事件分类和图像分类等下游任务。
简而言之,我们受到对比学习属性的启发,缩小正对之间的距离,推开负对之间的距离。本文将侧重于使用跨模态正负对学习来构建句子或样本级不变特征,以帮助MER处理缺失模态。
CIF-MMIN
本文主要研究不确定缺失模态下的多模态情感识别问题。为此,我们提出了一种基于基于对比学习的情态不变特征(CIF-MMIN)的缺失情态想象网络,用于识别话语层面的情感类别。请注意,我们首先使用对比学习进行预训练,称为“CIF学习”,以提取全模态下的模态不变特征。然后,CIF- im旨在借助CIF重建缺失信息。最后,结合现有模型和重建模型对最终结果进行预测。
利用基于对比学习的模态不变性特征,该模型可以很容易地重建缺失的模态,并在复杂场景下进行鲁棒识别。在接下来的部分中,我们将首先介绍了CIF的学习细节,并介绍了CIFMMIN的培训过程。表1总结了我们工作中使用的符号
CIF学习
如图3所示,CIF是一个多任务框架,它由三部分组成:
(1)特征提取用于从全模态信息中提取模态特征和不变特征;
(2)分类使用模态特征进行分类,监督模态编码器学习;
(3)不变性对比学习的目的是用自监督策略训练不变性编码器。
特征提取
给定具有三种模态的输入信号,即声学、文本和视觉信息,特征提取模块旨在提取每种模态的低级原始特征。然后,使用模态编码器和不变性编码器读取低级原始特征并生成高级特征
假设是三个模态的三个原始特征。具体来说,我们将原始特征输入到模态编码器中以捕获模态特征
:
其中m∈{a, v, t}, 由LSTM[63]和max-pooling层组成,
采用卷积神经网络文本TextCNN[64],该算法在NLP领域的文本表示方面表现出色,
的结构与
相同。
同时,不变性编码器以原始特征为输入,分别提取话语级特征:
其中m∈{a,v, t}, 都利用LSTM结构,同时包含不同的而不是共享的参数。
分类
在分类阶段,我们首先将模态特征串联为h:
然后,我们将h输入到分类器中,得到预测的情绪输出。因此,我们通过最小化LCLS来监督模态特征的学习:
其中表示由完全连接层和激活函数构建的分类器,
是基于交叉熵loss[65]构建的分类损失,p表示基础真实情感类别。
不变对比学习
在不变对比学习部分,我们首先定义特征投影,将高级特征映射到共享不变空间中,得到
。计算方程定义为:
其中m∈{a, v, t}, g(∗)是一个简单线性层
然后,我们采用“样本级配对构建”来获得正负对,进行不变对比学习。具体而言,我们通过不同的特征模式,如文本-声学、文本-视觉和声学-视觉对,构建了话语级(也称为样本级)对。正对由来自同一样本的对应特征构成,而来自不匹配样本的任意两个特征构成负对。如图2(b)所示,假设在一个训练批次中有两个样本,则
相互构成正对。另外,来自样本B的
和任何
的特征形成负对。例如,
是正对,而
等是负对。
参考归一化温度尺度交叉熵损失(NT-Xent Loss)[66],我们提出了以下用于X, Y对的不变对比学习的损失函数
式中, X为锚点,
为正对,
为负对,N为样本量,sim为X与Y的余弦相似度:
为了提高对比学习的效率,我们按照[61],将X和Y的顺序互换,即Y为锚点,重新计算。因此,不变对比学习的最终损失函数定义为:
最后,我们尝试通过最小化对比学习损失来学习模态不变特征。
Q:这个看上去特别像MoCo
A:是的,在PriSA里面也有,以下贴出PriSA论文中的公式部分
但是在这篇文章里没有温度,其他基本一致
联合学习
我们将预训练阶段的总损失表示为:
其中ω1 ω2 ω3是平衡因子。
Q:在PriSA中这部分是怎么做的?
A:
如图,PriSA的方法主要是以文本为引导进行文本-视频,文本-音频的融合,所以最后只有两个融合向量进行对比学习,得到一个损失函数。
CIF-MMIN训练
CIF-MMIN的整体架构如图4所示,它包括:1)模态编码器;2)不变性编码器;3)基于cif的想象模块,简称CIF-IM;4)信息融合;5)分类器。
假设全模态输入信号为x = 。为了模拟真实环境中的缺失情况,我们在CIF-MMIN训练过程中用零向量代替缺失模态信息的嵌入。例如,如果文本信息缺失,则将模型的输入更改为
,其中miss表示相应的模态缺失。
注意,缺失意味着零向量,这是数据输入方法中的标准操作[15]。
模态编码器
模态编码器旨在从原始特征中提取模态特征,并在预训练阶段由相应的编码器初始化。如图4左上角绿色模块所示,模态编码器以为输入,提取模态特征
。然后将所有特征连接为最终输出
:
不变性编码器
不变性编码器如图4所示,其结构和应用与预训练CIF学习阶段的不变性编码器相同。与模态编码器类似,不变性编码器的参数也是通过预训练阶段的参数初始化的。如图4左上角所示,未锁定的不变性编码器从中提取特征
,并将其连接为不变特征H':
为了引导未锁定的不变性编码器在缺失条件下执行准确的不变性特征,将全模态馈送到锁定的不变性编码器提取,如式5所示,并输出最终的不变性特征H,作为H '的目标:
Q:什么叫锁定的不变性编码器和不锁定的不变性编码器?
A:主要涉及参数更新的机制。这种设计用于处理模型在训练过程中对不同输入模态信息的处理方式,尤其是在部分模态数据缺失的情况下。
锁定的不变性编码器(Locked Invariance Encoder):
- 这部分的编码器在模型训练过程中不更新其参数。
- 它通常用预先训练的模型初始化,其目的是提供一个稳定的参考或基准,帮助模型学习如何从完整的模态数据中提取不变的特征。
- 锁定参数可以防止模型在缺失数据情况下过度拟合,保持对全模态数据的处理性能。
不锁定的不变性编码器(Unlocked Invariance Encoder):
- 这部分的编码器在训练过程中可以更新其参数。
- 允许参数更新的目的是使编码器能够从实际的输入数据(可能包括缺失一部分模态的情况)中学习并适应新的模式和特征。
- 这样的设计有助于编码器更好地处理不完整或部分缺失的输入数据,提高模型在实际应用中的灵活性和鲁棒性。
在CIF-MMIM框架中,通过这两种编码器的结合使用,模型能够有效地处理包含完整或部分模态的输入数据,同时通过不变性编码器的锁定与解锁机制,达到在模态缺失情况下仍然能够稳定输出高质量特征的目标。
基于cif的想象模块(CIF-IM)
如图5所示,CIF-IM采用CRA结构,该结构包含M个自编码器。注意,CIF-IM同时以作为输入来想象缺失的模态信息
缺失。此外,CIF-IM将H ’提供给CRA的每个中间层,以提供可信的不变特征信息,并确保想象信息的鲁棒性。对于每个自编码器,我们用
,每个自编码器的计算可表示为:
其中∆zi为第 i 个自编码器的输出。我们将最后一个编码器的输出作为想象的缺失模态特征
信息融合
与我们之前的工作[32]不同,我们提出了一个信息融合模块,将想象的情态信息与可用的情态信息融合,然后使用组合的信息进行最终的情绪预测。我们认为这样的信息融合模块可以防止CRA编码过程中特征降维问题中语义信息的丢失,并在缺失模态条件下最大限度地利用可用信息。因此,我们可以提高最终特征表示的鲁棒性
当我们得到想象的缺失模态特征后,我们将其与h ’结合得到融合特征f作为最终的特征表示来模拟完整模态:
尝试将H '合并到f中以丰富最终的特征表示,实验表明这种方法会破坏MER的性能,这可能是由于特征表示的冗余。我们将在5.3节中展示详细的实验结果。
分类
最后,分类器利用融合特征f预测最终的情感类别:
其中分类器由两个完全连接的(FC)层和一个softmax函数组成[67],q是预测的情感类别
联合优化
如图3所示,我们引入了分类损失(classification loss, LCLS)、不变性损失(Invariance loss, LINV)和想象损失(Imagination loss, LIMG)三个损失函数来优化CIF-MMIN模型。
对于LCLS,我们也使用CELoss[65]来实现它,并计算真实情感类别p与预测情感类别q之间的差值:
对于,我们采用均方根误差(RMSE) Loss[67]来实现,以减小预测不变特征H′与H之间的差距:
对于LIMG, RMSE损失也被用来使想象的缺失模态信息h ' miss和地面真值hmiss相互接近:
最后,总损失LCIF定义为以上三种损失函数的组合:
其中λ1和λ2是平衡因子。这些因素的值是由不同损失项的值范围的差异决定的。为了训练过程的稳定性,我们在实验过程中固定不调整。
值得注意的是,我们没有对LINV和LIMG使用任何掩码,因为LINV和LIMG都有自己不可替代的任务。对于LINV来说,它的目的是约束从缺失模态中提取的不变特征H’与从完整模态中学习到的不变特征H尽可能一致。类似地,LIMG旨在约束CIF-IM模块想象的缺失的模态信息,使其尽可能接近真实的模态信息
运行时推理
推理阶段的模型如图4中的虚线框所示。与训练阶段不同,推理阶段不需要参数冻结的不变性编码器和模态编码器。以文本情态缺失为例,如图4所示。推理阶段的整个过程如下:(1)首先,我们将缺失数据的多模态信号输入到模态编码器中,提取缺失模态下的模态特征h’;(2)同时,不变性编码器从多模态信号中提取不变性特征H′;(3)随后,我们在CIF-IM中输入H ‘和h ’,想象h 'miss的模态信息;(4)为了最大限度地利用可用信息,我们将h ‘和h ’ miss都传递给信息融合模块,在信息融合模块中将它们组合得到f。(5)最后,我们将f输入分类器,生成预测的情感类别
通过采用这种方案,我们的模型可以准确地识别情绪,即使在现实世界的环境中,一些模式可能会缺失
experiments
dataset
我们在三个公共基准数据集上验证了CIF-MMIN,包括IEMOCAP数据集[52]、研究情绪感知的二元交互行为语料库(MSP-IMPROV)[68]和情感强度多模态语料库(CMU-MOSI)数据集[69]。
IEMOCAP[52]包含五个二元对话会话的视频。每个会话被分割成多个话语,每个话语被标注不同的情感标签。这些数据总计大约12个小时,包含11种情绪:快乐、悲伤、愤怒、中性或兴奋。参考前人的研究[10]、[70]、[71],我们只取前四个标签(快乐、悲伤、愤怒、中性)进行情绪识别。进一步,我们采用[10]的划分方法,即选取4个会话作为训练集,剩余会话根据说话人的性别划分为验证集和测试集。
MSP-IMPROV[68]由12名演员的即兴对话视频组成。这个数据集可以分为四类情绪:快乐、悲伤、愤怒和中性。接下来[10],我们在10个演员的话语上训练我们的模型,并根据说话者将剩余的话语分成验证集和测试集。
CMU-MOSI[69],简称MOSI,是一种流行的多模态情感识别基准数据集。它包括2198个话语视频片段,这些都是来自YouTube的电影评论。这些数据用-3到+3的连续分数进行标注。[24]将MOSI分为三个固定集:训练集、验证集和测试集。
各数据集的统计结果见表2和表3。
baseline
为了评估我们提出的方法的性能,我们选择以下先进的模型作为基线。参考第II-A节中提到的方法类别划分,我们将这些基线分为以下两类:1)缺失数据重建,包括简单上下文LSTM (sc-LSTM)[72]和双向上下文LSTM (bc-LSTM) [72];2)缺失条件下的联合表示学习,缺失条件包括AE[73]、CRA[74]、MMIN[10]和IF-MMIN[32]。对于第II-A节中提到的第三类,由于缺失数据代入方法是上述基线中缺失信息表示的基本操作,因此上述所有基线也都可以看作是第一类的代表。所有基线的详细说明如下:
sc-LSTM[72]是基于单向LSTM的多模态情感分析任务的经典模型之一。它可以从同一视频中捕获当前话语的历史信息。
bc-LSTM[72]是sc-LSTM的变体,不同之处在于bc-LSTM利用了双向LSTM方法。
它更有能力提取上下文,因此通常用于多模态情感分析任务。
AE[73]广泛用于多模态学习,从可用输入中预测缺失的模态信息。
为了更好地适应这一任务,我们对声发射的重建损失和分类损失进行了优化。
CRA[74]是AE的扩展,它由多个残差自编码器组成,以减少缺失模态生成过程中的信息损失。在我们的实现中,我们也对AE的损失函数进行了优化。
MMIN[10]是一种结合CRA和循环一致性学习来预测缺失模态信息的强大模型。该模型在不确定缺失条件下具有较好的识别性能。
IF-MMIN[32]是我们之前提出的模型。该算法基于CRA和模态不变特征生成鲁棒的联合模态表示。
评价指标
我们选择以下评估指标来公平地评估CIF-MMIN和其他基线。
加权精度(WA)[75]和未加权精度(UA) [76]: IEMOCAP和MSP-IMPROV具有明确的分类标签,通常用于分类任务。参考文献[10],我们采用WA和UA作为评价指标。
平均绝对误差(Mean Absolute Error, MAE) [77]: MOSI在连续情绪评分中进行标注,通常在回归任务中建模。根据之前的工作[24],我们利用MAE作为MOSI的度量。值得注意的是,MAE的值越小,模型的性能越好
特征提取
对于IEMOCAP和MSP-IMPROV,我们采用了前人[10]的原始特征方法进行公平比较。具体来说,我们利用openSMILE工具包[78]配置“IS13 ComParE”进行声学特征提取。来自变压器的双向编码器表示(BERT)[79]用于提取文本特征。预训练密集连接卷积网络(DenseNet)[80]被用作视觉特征提取器。声学、文本和视觉特征的维度分别为130、1024和342。
对于CMU-MOSI,继[24]之后,我们利用COVAREP (Cooperative Voice Analysis Repository, COVAREP)[81]提取声学特征,采用BERT[79]提取文本特征,使用Facet[82]获得视觉特征,声学特征、文本特征和视觉特征的维数分别为74、768和47。
实现细节
在CIF学习的预训练阶段,我们将LSTM结构模块(包括Enca、Encv、EncI v、EncI a和EncI t)的隐藏层大小设置为128;因此,这5个编码器的输出维数为128。我们将Enct的卷积块数设置为3,每个块包含的内核大小分别为3,4,5。分类器由三个FC层组成,IEMOCAP和MSP-IMPROV的大小为{128,128,4},MOSI的大小为{128,64,1}。在对比学习阶段,所有特征投影由两个FC层、两个LeakyReLU (LReLu)[83]函数和一个结构为“FC- LReLu -LN- fclrelu”的层归一化(LN)组成。对于Eq. 9,考虑到文本模态比声学和视觉模态提供更多的信息[84],[85],我们遵循[84]并将ω1, ω2和ω3设置为0.25,0.25,0.5,以提高总损耗中LICL(a, v)的权重
在CIF-MMIN的训练阶段,由于所有的模态编码器和不变性编码器都是由预训练阶段对应的编码器初始化的,因此结构和配置与训练阶段的编码器相同,这里不再赘述。对于CIFIM,它由5个自编码器组成,每个自编码器的维度变化为“384-256-128-64-128-256-284”,其中隐藏向量的维度大小为64。分类器具有与CIF中相应模块相同的结构。由于LINV的值要小得多(LINV约为LIMG的1%),我们将λ1设为1,将λ2设为100,以平衡两者在总损失上的差异
我们选择动态学习率的Adam优化器[86],初始率为0.0002来优化模型,并通过Lambda LR更新学习率[87]。
为了评估我们的模型,我们参考了之前的工作[10],在IEMOCAP和CMU-MOSI上进行了10次交叉验证,在MSPIMPROV上进行了12次交叉验证。为了公平的比较,所有的实验每fold都包含40个epoch。我们的CIF-MMIN模型每个epoch大约需要12秒的训练时间,完成一个训练课程通常需要大约1.4到1.6小时。然后在验证集上选择最优模型,并在测试集上报告其性能。为了避免参数随机初始化的影响,我们将测试集上三轮实验的平均结果作为模型的最终结果。所有模型都由PyTorch深度学习工具包1实现,并在单个NVIDIA A100显卡上运行。
结果与分析
不确定缺失情态的主要结果
为了验证我们的CIF-MMIN在不同缺失模态测试条件下的有效性[10],我们在六种缺失模态条件下({a}, {v}, {t}, {a,v}, {a,t}, {v,t})测试了所有系统,方法如下[10],[32]。例如,{a}表示声学模态可用,而视觉和文本缺失。所有模型在三个数据集上的结果见表4
与先进基线的比较(IFMMIN除外)
我们首先将我们的CIF-MMIN与其他发布的一些基线进行比较,包括sc-LSTM、bc-LSTM、AE、CRA和MMIN系统。如表1所示,表4中带∆sota的行为IF-MMIN与各基线中最佳系统的比较结果。根据实验结果,我们得出以下结论:
首先,CIF-MMIN系统在6个缺失条件的平均值方面达到了所有数据集的最优性能。例如,在所有基线中,MMIN在WA和UA方面的平均结果最高,分别为65.13%和65.92%,但我们的CIF-MMIN与MMIN相比表现最佳,在两个指标上的平均值分别高出0.95%和0.92%。对于MSP-IMPROV, CIF-MMIN也达到了最好的性能,平均为62.43% (WA)和54.84% (UA)。对于CMU-MOSI,我们也观察到类似的现象,即CIF-MMIN在平均MAE值方面优于所有基线。这些量化结果表明,我们提出的方法通过引入基于对比学习的模态不变特征,可以有效地缓解模态差距,提高情绪识别的性能。
其次,仔细观察所有六个缺失的条件,我们的方法仍然优于基线系统,以获得令人满意的结果。具体来说,对于IEMOCAP, CIFMMIN除了{a, v}条件外,可以实现最佳性能。对于MSP-IMPROV,除了{v}条件外,CIF-MMIN的性能最好。对于CMUMOSI,除了{v}, {v}和{a, v}条件外,CIF-MMIN的性能最好。
有趣的是,我们注意到,当文本模态可用时(例如{t}、{a,t}和{v,t}), CIF-MMIN很容易实现卓越的性能。其中一个可能的原因可能是,文本情态比其他情态包含更多的语义信息[84],[85],导致当文本情态缺失时,特征的表征要弱得多。这个问题是多模态加工中经常遇到的问题,将在今后的工作中进一步讨论。
总的来说,我们提出的CIF-MMIN在各种缺失条件下都获得了显著的性能,这证明了CIF-MMIN可以很好地利用现有的模式来想象缺失的模式,并执行强大的情感识别。
与IF-MMIN比较
前一节对CIFMMIN与其他方法进行了比较。本节将CIFMMIN与我们之前发布的方法IF-MMIN进行比较。
如表1所示,∆pw行为CIF-MMIN与IF-MMIN基线的比较结果。我们还从全球和本地的角度观察到以下结果。
平均而言,我们注意到在三个数据集上,与IF-MMIN相比,CIF-MMIN实现了更好的性能。∆pw的值表明CIFMMIN具有良好的性能。具体来说,对于IEMOCAP,在WA和UA指标方面,CIF-MMIN的结果比IF-MMIN的结果高0.57%和0.82%。对于MSP-IMPROV, CIFMMIN比IF-MMIN的WA值高1.22%,比UA值高1.44%。对于CMU-MOSI,我们发现CIF-MMIN的MAE值高于IF-MMIN。
对于每个缺失条件的结果,我们看到CIF-MMIN总体上保持了稳定的改善。与前一节类似,当文本情态可用时,改进是显著的。对于IEMOCAP, CIFMMIN在所有条件下都优于IF-MMIN,除了{a,v}和{a,t}条件。对于MSP-IMPROV, CIFMMIN在所有条件下的UA都优于IF-MMIN。除了在{v}条件下略有下降0.16%外,WA的结果也呈现出类似的趋势,但这并不影响总体结论。对于CMU-MOSI来说,虽然IF-MMIN的性能已经非常接近CIF-MMIN,但是在{t}、{a,t}和{v,t}三种场景下,IF-MMIN仍然表现出更明显的劣势。
这些令人满意的结果表明,CIF-MMIN对IF-MMIN的优化增强了对不变特征的捕获能力,从而进一步弥合了模态差距,提高了缺失模态想象能力。另一方面,这些结果表明,语义信息在无监督CMD远程学习和CRA编码过程中会丢失,正如我们在第1节和3.2.4节中提到的。
对比学习与CMD的比较
我们还验证了基于cl的模态不变特征学习方法是否比基于cmd的IF-MMIN方法[32]更有效。为了比较基于cl的方法和基于cmd的方法,我们从IEMOCAP数据集中随机选取6个缺失条件下的600个样本(每个缺失条件包括100个样本),并分别使用从上述两种方法中学习到的不变特征(H ')进行t-SNE[53]可视化分析。
可视化结果如图6 (a)和(b)所示。
我们观察到,H ‘在相同条件下的聚类效果很好,在大多数不同条件下(即{a,v}, {a}, {t}), H ’在语义空间中的分布是相似的。这说明了基于cmd的方法在缓解模态差距方面的能力,正如我们在之前的工作中所报道的[32]。然而,在某些条件下,H '的分布仍然有明确的边界,如{a,t}和{a,v}。
相比之下,如图6(b)所示,基于cl的方法提取的不变特征在缺失条件下分布更加均匀,不同条件下的不变特征之间没有明显差异。通过分析这一现象,我们得出结论,与基于cmd的方法相比,基于cl的不变量学习方法可以提取出更鲁棒的不变量特征,并且可以有效地缓解模态差距问题。
此外,我们在缺失的模态想象能力方面比较了基于cmd和基于cl的方法。为此,我们比较了IF-MMIN(基于cmd的方法)和CIFMMIN(基于cl的方法)的LIMG收敛轨迹,比较了想象缺失特征(h ' miss)和真实缺失特征(hmiss)之间的距离。具体来说,对于CIF-MMIN和IF-MMIN的LIMG,我们分别在10倍交叉验证中记录了40个epoch的平均损失值。然后,我们将从第2 epoch到第40 epoch的损失值可视化,因为第1 epoch的损失值与随后的损失值之间的差异太大。
结果如图5 (c)所示,在二维平面上绘制,以显示其变化趋势。我们可以清楚地发现CIF-MMIN的所有LIMG值都小于IF-MMIN的LIMG值,这表明基于cl的方法比基于cmd的方法能够产生更鲁棒的h ' miss。此外,我们观察到IF-MMIN的LIMG数值振荡比CIF-MMIN更明显。这表明基于cl的方法在训练过程中更加稳定,再次证明了基于cl的方法优于基于cmd的方法。
最后,上述观察结果与表4的实验结果一致,再次证实了本文提出的基于cl的不变学习方法在模态不变特征学习方面优于基于cmd的方法
消融实验
为了深入探索CIF-MMIN中各子模块的有效性,我们进行了以下消融实验,并对IEMOCAP数据库进行了分析。各烧蚀模型的详细信息见表5。我们开发了六个消融系统,包括CIF- mmin - v1到CIF- mmin - v6,以进一步验证CIF和拟议的信息融合部分。
评估CIF的有效性
我们将从以下几个方面评估CIF的有效性,包括不变性编码器的特征输出和CIF学习的模态编码器的初始化方法。
5.3.1.1)不变性编码器输出的评估
不变性编码器提取的模态不变特征H '在我们的CIF-MMIN中起着关键作用。
为了验证不变性编码器是否能够有效地学习不变性特征,提高情绪识别性能,如表2的第二行和第三行所示,我们执行了两个消融系统,即CIF-MMIN- v1和CIF-MMMIN-V2,来验证CIF-MMIN中的H '。
对于CIF-MMIN-V1,我们将Eq. 13中的H ‘替换为h ’,并进行缺失的模态想象。六种缺失条件下的实验结果及平均值见表6第二行。表6的第三行为∆CIF−MM IN,表示CIF- mmin与CIF- mmin - v1之间的差距。我们注意到,在大多数情况下,CIF-MMIN在WA和UA方面都优于CIF-MMIN- v1,这证明了不变性编码器能够提取鲁棒的不变性特征,有效地提高了情绪识别能力。换句话说,就是引入模态不变特征可以减小模态差距,提高想象模态的鲁棒性
对于CIF-MMIN-V2,我们将H ‘替换为Eq. 13中的零向量,以进一步验证H ’。我们在表6中报告了6种缺失条件的实验结果和CIFMMIN-V2的平均值。相应的∆CIF−MM IN也报告了CIF- mmin和CIF- mminv2之间的差距。注意,∆CIF−MM IN均为负值,说明CIF- mmin - v2在所有条件下的性能都不如CIFMMIN。与之前的研究一样,这也证明了模态不变特征H '的可解释性。
5.3.1.2)模态编码器初始化方法的评估
在3.2.1节中,我们用CIF学习阶段的参数初始化了模态编码器。模态编码器的输出h′也会影响缺失的模态想象,因此,我们对模态编码器的初始化方法进行了消融研究。
具体来说,对于CIF- mmin - v3,我们不再在CIF学习阶段对未锁定模态编码器和锁定模态编码器进行相应模块的初始化,而是随机初始化。实验结果如表6所示;我们观察到,在大多数情况下,∆CIF−MM in行中的值小于0,这意味着CIF- mmin全面优于V3。结果表明,用预训练参数初始化模态编码器对提高模型的情绪识别能力有积极的作用。值得注意的是,在表6中的{v}条件下,CIF-MMINV3的结果略好于CIF-MMIN。这是因为预训练模型可能存在过拟合预训练任务和数据的风险[88]。
信息融合的有效性评价
为了验证信息融合的有效性,我们从以下三个方面进行了研究。
5.3.2.1)融合嵌入(f)vs联合嵌入(C)
对于CIF-MMIN-V4,我们比较了使用融合嵌入(f)和联合嵌入(C)在情绪识别最终结果上的差异。注意,联合嵌入(C)是通过以下方法将CIF-IM中每个声发射的潜在向量连接起来得到的[32]。实验结果如表6所示。使用融合嵌入信息的CIF-MMIN比使用关节嵌入的方法更有利,并且在所有条件下都表现更好。这一结果证实了我们在3.2.4节中的猜想,即自编码器的编码过程丢失了语义信息,从而降低了联合嵌入的鲁棒性。
5.3.2.2)融合嵌入(f) vs组合嵌入(f+C)
虽然联合嵌入C丢失了一些语义信息,但我们认为它仍然包含了一些交叉模态信息。为了验证联合嵌入C中的跨模态信息是否对情绪识别有积极的影响,我们设计了CIF-MMIN-V5,将联合嵌入C与f结合形成组合嵌入(f+C),然后用它来预测情绪类别
实验结果如表6所示。我们可以看到,除了{a, t}条件外,CIF-MMIN在所有条件下的性能都优于CIF-MMIN- v5。这说明联合嵌入C可能会给f引入更多的噪声,这再次证明了联合嵌入在学习过程中会造成语义信息的损失,f比联合嵌入包含更丰富的语义信息
5.3.2.3)融合嵌入(f) vs组合嵌入(f+H’)
进一步,我们将C替换为上一节的H ‘,形成新的组合嵌入(f+H ’),进行最终的情感识别。也就是说,CIF-MMIN-V6旨在比较融合嵌入(f)和组合嵌入(f+H’)的性能。
结果如表6所示。我们注意到,在大多数情况下,使用组合嵌入(f+H ')后,性能变得更差。这种现象与5.3.2.2节类似,即在H ‘中引入h ’的信息给融合嵌入带来的噪声大于有效信息。这可能是由于H′只包含了情态的不变特征,而没有包含更全面的特征,导致组合嵌入在预测最终情绪时存在偏差。实验结果验证了3.2.4节的猜想是合理的。
以上结果证明了CIF-MMIN的有效性,它可以很好地学习跨模态不变特征,并利用不变特征来弥补缺失的模态想象。最后,缺失条件下的多模态情感识别可以很好地完成。
可视化分析
最后,我们进一步使用更详细的可视化实验来验证该方法的有效性。
对比学习有效性的评价
为了验证对比学习的有效性,我们在CIF学习阶段对(Ha, Ht)、(Hv, Ht)和(Ha, Hv)进行了t-SNE可视化实验。具体来说,我们从IEMOCAP测试集中随机抽取400个样本。每个样本包含三种模式(文本、声学和视觉)。我们首先利用Eq.(5)只提取不变特征,而不从这些样本中实施对比学习策略,并将其可视化在图7(a)、7(b)和7(c)中,命名为“w/o contrast”。同样,我们在图7(d)、7(e)和7(f)的对比学习策略下对它们进行提取和可视化,而w/对比学习是指图6(d)、6(e)和6(f)中包含对比学习约束的方法。
t-SNE可视化结果如图7所示。我们注意到,在引入对比学习策略后,上述所有特征对都表现出模态特征的混合。从整体上看,跨模特征点簇由独立向重叠转变;从细节上看,每个小区域的跨模态信息点也有一定的重叠。这表明,不变性编码器可以借助对比学习策略学习模态之间的不变性信息,有效地减小模态差距。
评估各种缺失条件下不变编码器的学习能力
为了验证不同缺失条件下不变编码器对模态不变特征的学习能力,我们在CIFMMIN中绘制了六种不同缺失条件下不同尺度的H′,如图8所示。以图8(a)为例,我们从IEMOCAP测试集中随机抽取50个句子对应每个缺失条件,提取其不变特征H’。这些特征通过t-SNE算法在二维平面上可视化。之后,我们将每一种缺失情况的样本点分别增加到100和200,如图8(b)和图8(c)所示。我们首先以图8(a)为例进行分析。研究发现,在不同的缺失模态条件下,模态不变特征都表现出一定的聚集性,证明了该不变性编码器可以有效地提取各种不确定缺失条件下的模态不变特征。随着样本量的逐渐扩大,上述分析仍然成立,证明我们的分析是正确的。
最后,我们可视化了LINV,验证了全模态下模态不变特征对缺失模态不变特征的监督,如图9所示。我们将10次交叉验证中对应时代的损失值相加平均为平均值。我们观察到LINV可以在一个区间内收敛,说明H′和H在逐渐逼近,证明了LINV的有效性。
讨论和总结
在这项工作中,我们报告了缺失情态的情绪识别任务所面临的挑战,即情态差距问题。为此,我们提出利用缺失情态想象网络中的情态不变特征。具体来说,我们提出的方法由两部分组成:1)基于对比学习的策略来学习全模态条件下的模态不变特征;2)缺失情态条件下的情态不变特征,减少缺失情态想象时的情态差距,生成鲁棒的缺失情态信息。在三个基准数据集(IEMOCAP、MSP-IMPROV和MOSI)上的综合实验表明了我们所提出的方法的有效性。
这项工作有一些局限性,值得在今后的工作中进一步注意。我们总结如下三点。首先,我们没有充分讨论不变特征的可解释性。虽然我们的实验验证了纳入不变特征可以提高缺失模态下多模态情绪识别的准确性,但需要进一步探索这些不变特征与情绪之间的关系;其次,在这项工作中,我们只讨论某些模式完全缺失的情况。
在现实世界中,也存在模态部分缺失的情况[13]。例如,在电话交谈中,可能会出现间歇性的声音中断,或者在视频通信中,面部可能部分被口罩或其他物体覆盖。在这种情况下,如何模拟部分缺失模式并实现准确的情感识别将是一项有趣而有价值的任务;最后,尽管我们已经使用级联自编码器实现了鲁棒的缺失模态想象网络,但可能还有其他方法[13],[89]来实现这一目标。我们同样值得进一步探讨这些可能性。