本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文。
Multimodal Sentiment Analysis with Preferential Fusion and Distance-aware Contrastive Learning
基于优先融合和距离感知对比学习的多模态情感分析
2023 IEEE
数据集:MOSEI, MOSI, SIMS, and UR-FUNNY
实验运行环境:一个 NVIDIA RTX 3090 GPU
预备知识:
对比学习分类
「有监督对比学习」:通过将监督样本中的相同label的样本作为正样本,不同label的样本作为负样本,来进行对比学习;
正样本:同类型数据
负样本:不同类型数据
「无监督对比学习」:由于没有监督信号(label),此时,我们对同一个样本构造两个view,让同一样本构造的两个view互为正样本,而其他样本构造的view则全部为负样本,以此来进行对比学习。而由同一个样本构造两个view,又是数据扩增的过程,所以也可以称作是数据扩展对比学习。而不管那种范式,通常对比学习都是在batch内进行。
正样本:同一数据产生的增强数据
负样本:不同数据产生的增强数据
Abstrast
最近在多模态情感分析(MSA)方面的努力利用了来自多种模态的数据,其中文本模态是非常依赖的。然而,文本模态往往包含文本标记和情感标签之间的虚假相关性,导致情感分析出错。为了解决这个问题,本文提出了一个新的框架,即PriSA,它结合了优先融合和距离感知对比学习。
具体来说,本文首先提出了一种优先的模态间融合方法,该方法利用文本模态来指导模态间相关性的计算。
然后,通过提出的距离感知对比学习,进一步使用所产生的模态间特征来计算混合模态相关性,该学习利用了情感标签的距离信息。
最后,本文基于混合模态相关性和通过自注意模块从视觉和音频模态中提取的判别性模态内特征来识别情绪信息。
实验结果表明,本文提出的PriSA在四个数据集上实现了最先进的性能,包括MOEI、MOSI、SIMS和UR-FUNNY。
I Introducttion
异质性在模态之间是普遍的。每个模态可以揭示不同的情绪信息,具有不同的信息密度和不同的噪声水平。以具有文本、视觉和音频输入的MSA任务为例,具有不同手势的同一个单词可能暗示不同的态度,而具有不同音调的同一单词可能暗示着不同的情绪。此外,文本模态通常具有高度的语义和信息密集性,而视觉和音频模态在情感表示中相对冗余。此外,每个模态在呈现相同情绪时可能是异步的。
以前的方法在利用不同模态的互补和共享信息方面取得了重大进展,但往往严重依赖文本,并可能学习到文本和情感之间的虚假相关性[11]。如图1所示,红色文本“对不起”通常与负面情绪有关,而“强烈推荐”和“更好”通常与正面情绪有关。然而,它们并没有在这些句子中反映出真实的情感。过度依赖文本情态可能导致模型关注这些虚假的情感词,而忽视了应该关注的真实情感部分,如绿色文本。孙等人[11]注意到了这一问题,并提出了一个反事实框架来减去语篇情态的直接影响。与它们不同的是,本文从融合的角度来考虑这个问题。
在本文中,提出了MSA的优先融合策略,并提出了一个新的框架PriSA来解决这些问题。在优先融合策略中,如图所示。第2(b)段,使用文本模态作为主要模态来隐含地指导模态间学习。设计了一个基于变换器的注意力模块来计算模态间的相关性。基于转换器的模块[12]的输入键值对和查询分别来自文本模态和其他模态。在框架中,文本模态不再直接用作情绪分析的证据。相反,它是与其他模态进行跨模态学习的隐含指南。这意味着该方法消除了文本对情感分析的直接影响,并将文本与其他模态结合使用。通过距离感知对比学习,进一步利用所产生的模态间特征来生成混合模态相关性。除了从每个次要模态中提取的深度模态内特征外,提出的PriSA在四个数据集上优于最先进的方法。
Contributions:
(1)提出了PriSA框架,并介绍了MSA的优先融合策略。
(2)提出了距离感知对比学习,它结合了情感标签的距离信息来探索三种模态之间的混合模态相关性。
(3) 实验结果表明,在四个基准数据集上实现了最先进的性能,包括MOEI、MOSI、SIMS和UR-FUNNY。
II Related Work
MSA中使用的方法可以大致分为两组:表示学习和多模态融合。关于表示学习,Yu等人[7]设计了一个自监督标签生成模块,以获得独立的单模态监督。Hazarika等人[5]使用相似性损失和差异性损失将每个模态投影到两个不同的子空间,即模态不变子空间和模态特定子空间。基于张量的融合方法通过张量融合网络融合不同的模态。对于基于注意力的融合,Tasi等人[8]提出了一种关注多模态序列之间相互作用的定向成对跨模态注意力方法。
对比学习是一种新兴的自监督学习方法。其基本概念是将锚定样本和正样本拉近,同时将锚定样本和负样本推远。在多模态自监督任务中,最近的研究采用监督对比学习来探索不同模态之间的相互作用。为了减少多模态自监督任务中的模态差距,Mai等人提出了一种混合对比学习框架。类似地,Lin等人提出了一种新颖的层次图对比学习框架,该框架执行模态内部和模态间的图对比学习。
III Method
A. Overview
给定三种输入模态,首先用相应的预训练特征提取器提取每个模态的深层特征。
然后,对所有次要模态进行特征级增强,以便于后续的对比学习。
接下来,将增强的深度特征输入到优先融合模块中,其中模态间利用主要模态(文本)和每个次要模态(音频或视觉)之间的相关性。所得到的模态间特征被进一步传递到距离感知对比学习,以学习混合模态相关性。
最后,基于混合模态特征和模态内特征来识别情感信息,这些特征是由它们的专用编码器从次要模态中提取的。
B. Preferential Fusion
利用主模态,即文本模态,来隐含地指导模态间学习。使用cross attention模块和Transformer encoder 进行模态间融合。
受[8]的启发,作者通过在注意力操作中同时涉及主要和次要模态来探索模态间的相关性。如图所示,融合模块中的三个矩阵来自主要和次要模态。融合模块中的注意力函数变成:
其中上标s和p表示矩阵来自次要模态和主要模态。σ分别是Q、K和V的线性投影权重矩阵以及softmax激活函数,d是三种模态的公共维度。
换句话说,就在注意力模块中使用次要模态(音频和视觉)作为查询,使用主要模态(文本)作为键值,以在查询和键值对的公共空间上增强模态不变性,并缩小模态之间的分布差距。
最后,获得了两个融合特征,hat和hvt。前者用于音频和文本的融合,后者用于视觉和文本的结合。
由于主要模态被用作key和value,在优先融合中通过关注主要模态的相关元素来加强次级模态。因此,不同模态之间的分布不匹配得到了很好的弥补。此外,融合模块中的主要模态没有独立的分支,也不会直接参与最终预测。这意味着主要模态中的信息只能通过关于模态之间分布相似性的优先融合向前传播。因此,从主要模态到最终预测的捷径将被切断,并且次级模态的分布将被强制更接近主模态以获得更多与任务相关的信息。
C. Distance-aware contrastive learning
本文将对比学习应用于与文本融合的混合模态特征,以计算混合模态相关性。
先前使用监督对比学习的方法通常将MSA任务视为一个分类问题,方法是将情感标签划分为离散类,并基于这些类对正样本和负样本进行采样。然而,这些方法忽略了情绪标签的连续性及其之间的距离信息,这可能导致假阳性和阴性样本的抽样。例如,如图(c)左侧所示,实例2(ins.2)的标签比实例3(ins.3)更接近实例1(ins.1)。然而,传统的方法会将ins.2和ins.3视为阳性对,将ins.2和ins.1视为阴性对,因为ins.2和ins.3的标签在同一片段中。Zolfagari等人[15]根据输入嵌入排除对比学习中的假阴性样本。
受此启发,本文将标签的距离信息引入到距离感知对比学习中,这能够避免假阳性和阴性样本。当涉及到分类任务时,重要的是要注意损失将退化为常规的对比损失。如图右侧所示,根据一批中阳性和阴性样本标签之间的距离来选择它们。
具体来说,计算锚定样本与批次中其他样本之间的标签距离。标签距离小于阈值c的样本被视为正样本,而距离大于c的样本则被视为负样本。
形式上,距离感知对比损失LDACL(基于InfoNCE[16])可以推导为
其中Φ是余弦相似度评分函数,τ是温度,hvt是视觉和文本的融合特征,hat是音频和文本的结合特征,P表示基于标签距离选择的正样本的索引集,i,j,k表示不同样本的索引。作者考虑使用不同的融合对作为锚,因此最终的对比损失LCL为
D. Objectives Function
本文目标函数由任务损失和对比损失组成。
任务损失是为不同的任务设计的,并作为模型的主要训练目标。
在作者的实验中,考虑了两个目标不同的任务:回归任务和分类任务。
对于不同的任务,损失计算为
其中N是小批量的大小,yi和yi_hat表示第i个样本的真实标签和预测标签。对于每个分支,使用任务损失来指导其训练。
在优先融合模块之后,使用模态间特征之间的对比损失Lct,如等式所述。
其中,β是对比损失的权重。
IV Experiments
A.数据集和实现细节
本文使用四个数据集来评估PriSA的性能,包括CMU-MOSEI[17]、CMU-MOSI[4]、SIMS[6]和UR-FUNNY[18]。CMU-MOSI数据集是评估MSA性能的最普遍的基准之一。它是从YouTube上的视频博客中收集的,包含从93个视频中截取的2199个视频片段。CMU-MOSEI数据集是迄今为止MSA上最大的数据集,包含来自5000个视频的23453个视频片段。SIMS数据集是一个中国MSA数据集。它对每个模态都有细粒度的注释。UR-FUNNY数据集是一个多模态幽默检测数据集。UR-FUNNY数据集中的视频样本是从TED演讲中收集的。与其他数据集不同,UR-FUNNY数据集中的样本用二进制标签标记,指示它们是幽默的还是非幽默的。
在实验中,使用平均绝对误差(MAE)、皮尔逊相关性(Corr)、七类精度(Acc-7)、二元精度(Acc-2)和F1分数作为指标来评估性能。URFUNNY数据集上的任务是一个二进制分类任务,因此只使用二进制精度(Acc-2)来评估在UR-FUNNY数据集上使用的方法。
在训练过程中,作者将Adam优化器与StepLR调度器结合使用。为了避免过拟合,实施了一种具有5个时期耐心的早期停止策略,并利用MAE度量进行评估。
B.结果
实验结果如表I-IV所示。由于这些数据集中的所有三种模态都是序列,存在对准问题。为了确保公平和详细的比较,本文遵循未对齐的设置。正如MulT[8]中所示的结果,使用对齐语料库的模型通常会获得更好的结果。
在实验中,用不同的随机种子进行了三次试验,并计算结果的平均值以获得最终结果。如表I和表II所示,本文的PriSA在MOEI和MOSI数据集的所有指标上都取得了最先进或可比的结果。
值得注意的是,模型在MOEI数据集上显示出显著的改进,这可能是因为数据集更大,使模型能够学习主要模态和次要模态之间的更多相关性,并更有效地调整它们。
使用BERT的方法通常会比不使用BERT方法获得更好的结果,并且PriSA优于所有其他使用BERT的方法。
在SIMS数据集上,作者复制了TFN[21]、LMF[22]、MulT[8]和Self-MM[7],并在相同条件下对它们进行了比较。
在表III中,PriSA在相同条件下与以前的模型相比获得了最先进的结果。在UR-FUNNY数据集上,任务是确定给定的样本是否幽默。对于每个示例,都提供了笑点和上下文。本文模型只使用笑点信息来确定无论是否幽默,与表IV所示的最先进的方法相比,它都取得了显著的改进。PriSA在不同大小、语言、场景和任务的数据集上取得了最先进的结果,表明可以应用于不同的数据场景。
C.消融研究
作者对框架的每个组成部分进行了详细分析。这些组成部分包括优先融合(第2-5行)、专用编码器(第6、7行)和距离感知对比学习(第8行)。
特别地,本文讨论了优先融合的两个部分:模态间学习(第2、3行)和作为内隐引导的文本模态(第4、5行)。所有这些消融实验都是在MOEI和MOSI数据集上进行的。消融研究的结果如表五所示。
模态间学习。框架的核心设计是模态间学习,它只学习初级模态和次级模态之间的相关性。本文使用初级模态文本作为融合的关键和价值,以帮助学习这些相关性。在第2行中,作者实现了一种完全组合方法,该方法在每两种模态之间使用成对融合,类似于MulT[8]中使用的方法。在第3行中,作者使用文本作为查询,这意味着在PriSA框架中使用文本作为询问。
作者发现,即使完全组合具有更大数量的参数,并且每两种模态之间涉及更多的交互,它的性能不如本文的方法。这表明,并非所有模态之间的相关性都需要学习,最好只学习初级模态和次级模态之间的关系。而文本作为查询导致主要模态不再是隐含的引导作用。我们可以观察到第3行的数量有所减少。究其原因,是该模型严重依赖文本情态,学习其中的虚假关联和歧义词。
文本情态作为隐式引导。在本文的框架中,选择文本模态作为主要模态,因为作者认为它在三种模态中起着隐含的指导作用。第4行和第5行比较了使用音频和视觉模态作为主要模态的模型的性能,两者都显示出比使用文本作为主要模态第1行更差的结果。这些结果表明,在本文的框架中,文本模态是最适合隐含地指导初级模态和次级模态之间的模态间学习的初级模态。
模态内学习。目的是研究private encoder从二阶模态中提取的模态内特征的有效性。作者分别在表V的第6行和第7行中删除了视觉和音频模态的专用编码器。表现的显著下降表明,次要模态的模态内特征可以有效地补偿模态间学习的内隐对齐过程中情感信息的损失。
有距离意识的对比学习。在对比学习的帮助下,本文框架能够进一步获得混合模态相关性。在表V的第8行中,展示了消除距离感知对比损失对模型性能的影响。结果表明,消除这种损失将降低模型在所有指标中的性能。尽管有所下降,但该模型的性能仍然可以与其他最先进的方法相媲美。这表明本文的优先融合策略是有效的,对比学习可以在此基础上进一步建立混合模态相关性来提高性能。
隐式对齐的可视化。本文的方法可以隐含地将主要模态和次要模态对齐。在图3中,绘制了在训练和验证集上训练期间次要模态(音频)和主要模态(文本)之间的相似性。相似性随着而增加在高相似性时期获得训练和最佳验证结果。在MOEI数据集上的相似性高于在MOSI数据集上。这是因为MOSI数据集的数据集大小较小,特征维数较低,因此很难学习不同模态之间的相似性。这也是为什么本文的模型对MOSI数据集的改进不如对MOEI数据集的改善显著的原因。这些可视化结果表明,本文方法可以在主模态的隐式引导下对齐次模态和主模态,并且高相似性是有益的。
注意力图的可视化。在图4中,作者在视觉和文本模态之间绘制了一个注意力图,其中纵轴表示文本中的单词,横轴表示关键帧。可以发现,显示“闭眼摇头”动作的框架与短语“殴打”和“放下”的相似性更高,但与其他非情感单词的相似性较低。这表明本文的方法可以避免学习文本模态中的偏见,以及与情感无关的词在文本中的干扰。
V Conclusion
在本文中,解决了过度依赖文本模态可能导致文本表征和情感标签之间的虚假相关性的学习,从而导致情感分析错误的问题。
- 提出了一个具有优先模态间融合策略的框架,其中选择一个主要模态来隐含地指导模态间学习。
- 还提出了一种距离感知的对比学习方法来学习混合模态相关性,该方法利用了情感标签的距离信息。
- 最后,在MSA的四个数据集上评估了PriSA,并且PriSA在所有四个数据集中都优于其他最先进的方法。
部分参考于
有监督对比学习在分类任务中的应用 Supervised Contrastive Learning_对比学习分类-CSDN博客