【CMCL】多模态情感识别的跨模态对比学习

abstract

近年来,多模态情感识别因其能够通过整合多模态信息来提高情感识别的准确性而受到越来越多的关注。然而,模态差异导致的异质性问题对多模态情感识别提出了重大挑战。在本文中,我们提出了一个新的框架——跨模态对比学习(CMCL),它集成了多种对比学习方法和多模态数据增强来解决异质性问题。具体而言,我们利用多样性对比学习、一致性对比学习和样本水平对比学习建立了一个跨模态对比学习框架。通过多样性对比学习,我们将模态特征限制在不同的特征空间中,捕捉到模态特征的互补性。此外,通过一致性对比学习,我们将不同模态的表示映射到共享特征空间中,捕获模态特定特征的一致性。我们还引入了两种数据增强技术,即随机噪声和模态组合,以提高模型的鲁棒性。实验结果表明,我们的方法在三个基准数据集上达到了最先进的性能,并且优于现有的基线模型。我们的工作证明了跨模态对比学习和数据增强在多模态情感识别中的有效性,并为该领域的未来研究提供了有价值的见解。

intro

近年来,多模态情感识别已经成为情感计算领域一个很有前途的研究方向[1]。从面部表情、语音和语言语义等多种方式整合信息,有可能提高情感识别的准确性。图1以简化的方式提供了多模态情感识别过程的清晰示例。当前主流的多模态情感识别方法包括从单个模态中提取语义信息,然后构建一个模型,使模态之间的交互能够进行特征融合。然后将得到的多模态特征用于情感识别。然而,由于模态之间的差异而产生的异质性问题对多模态情感识别提出了重大挑战。在融合过程中,模式之间存在固有的异质性[2],因此,模式特有特征的互补性和一致性往往被忽视。这种疏忽会导致有价值的情态信息的丢失以及融合结果中冗余的多情态特征的存在,最终导致情感识别的准确性不理想。

为了应对这一挑战,早期的方法通常采用单模态表示,将原始音频、视觉和文本数据映射到共享空间中。目前,最先进的方法侧重于设计能够有效集成来自不同模式的信息的融合模型[3,4]。这种融合的质量对决定多模态情感识别任务的准确性起着至关重要的作用。这些融合方法主要包括情态关系融合[5,6]、情态特征对齐[7-9]和语义增强[10-12]。模态融合的目标是通过学习捕捉不同模态之间的依赖关系和相互作用,从而获得多模态特征的判别表示。

虽然目前的机制在编码更健壮的特征和捕获准确的比较方面取得了实质性的进展,但现有的情感识别方法通常依赖于直接的单模态表示和传统的信息融合。然而,这些方法的一个局限性是它们没有同时考虑到不同模式之间的一致性和互补性。为了解决模式之间的一致性和互补性问题,本研究提出了一个利用对比学习方法的新框架。对比学习利用样本之间的相似和不相似关系来学习判别表征。一些研究提出了多模态融合的对比学习方法。Y. Liu等人提出了一种名为TupleInfoNCE的多模态表示学习对比方法,该方法明确考虑了模态之间的互补协同作用[13]。Yang等人提出了一种旨在捕获语义一致表征的多模态对比学习方法[14]。然而,以往的多模态对比学习研究对多模态特征交互融合过程中模态之间的差异和一致性,以及样本之间的差异和一致性的研究并不充分。

跨模态对比学习是一种深度学习技术,用于处理来自不同模态的数据,如文本、图像、声音等。它的基本原理是围绕嵌入来自不同模式的数据并将它们映射到共享的表示空间。随后,使用对比损失函数来学习该表示空间内的特征,确保相似的数据点靠得更近,而不相似的数据点离得更远。跨模态对比学习的主要优势在于它能够有意义地整合和比较来自不同模态的信息,从而有效地解决跨模态数据分析和应用中的挑战。

所提出方法的原理如图2所示,其中圆形、正方形和三角形分别表示文本、音频和视频模态数据。三种颜色分别代表锚点样本、正样本和负样本。

首先,特定于模态特定特征都是通过网络的模态特征提取得到的。由于模态之间存在语义差异,本文采用多样性对比的方法在独立的语义空间中保持模态的差异性,从而实现模态特征之间的语义互补。

其次,对模态进行两两融合,得到交互特征;这些交互特征共享相似的信息,例如文本-音频交互特征和文本-视频交互特征具有共同的文本语义,因为音频和视频对应于相似的文本交互。因此,通过一致性对比建立交互特征之间的一致性,将它们映射到一个共享的特征空间中。此外,考虑到情感表达的个体差异和多模态样本之间的显著差异,采用样本对比学习来提高模型的泛化性。为了实现上述原则,本文引入了一个跨模态对比学习(CMCL)框架。

在我们提出的框架中,我们首先使用预训练模型和预处理工具(如BERT[15]、LibROSA[16]和MTCNN[17])从文本、音频和视频数据中提取模态特定特征。为了保持模式之间的互补性,我们设计了多样性对比损失(LDCL),鼓励模式特定特征之间的多样性。接下来,我们采用双峰融合神经网络,如注意力网络[18],建立模态之间的相互作用,并获得融合的相互作用特征。为了确保交互特征之间的一致性,我们引入了一致性对比损失(LCCL)来促进模式之间的一致性并将它们映射到共享的特征空间。此外,我们利用样本水平对比损失(LSCL)来降低情绪表达的个体差异对模型泛化能力的影响。此外,为了减轻过拟合并提高模型的性能,我们在模型训练过程中引入了随机噪声和模态组合等数据增强技术

我们的方法的主要贡献可以总结如下:

•我们提出了一个新的框架,称为跨模态对比学习(CMCL)用于多模态情感识别。CMCL通过考虑模态之间的互补性和特征一致性来解决多模态数据的异质性问题。我们设计了三个对比损失函数来促进情感识别任务的多模态对比学习。

•为了减轻过拟合并提高情感识别模型的性能,我们采用了多模态数据增强技术。具体来说,我们设计了随机噪声注入和模态组合两种方法来生成新的样本,用于训练多模态情感识别模型。

•我们在标准数据集上进行了广泛的实验,包括CMU-MOSI, CMU-MOSEI和CHSIMS。实验结果表明,与现有的方法相比,我们提出的CMCL框架具有显著的优势。此外,我们还提供了一套全面的消融实验和分析,以进一步支持对比学习和数据增强的有效性。

related work

多模态情绪识别

在多模态情感识别领域,多模态融合技术通过对各种模态的关键特征进行过滤、提取和组合,起到了至关重要的作用[1]。

近年来的研究对多模态融合的各个方面进行了广泛的探索,包括情态关系融合、情态特征对齐和语义增强。理解不同模式之间的关系对于有效融合至关重要,因为它有助于整合和理解来自不同来源的信息。例如,W. Han等人提出了一种双峰融合网络,通过相关性和差异增量来利用模态之间的独立性和相关性的动态[5]。此外,它们还利用多式联运互信息进行高级的情态交互[19]。特征对齐技术涉及将不同的模态映射到共享空间,从而产生内聚的多模态语义表示。C. Chen等通过消除背景噪声和遮挡噪声提高了模态对准性能[7]。研究表明,言语情态相对于非言语情态的重要性,整合言语情态的语义信息可以显著提高多模态表征的能力。D. Wang等人将音频和视觉线索整合到文本表示中,生成了更有效的多模态表示[10,11]。C. Huang等人利用跨模态注意机制建立了以文本为中心的多模态融合网络,取得了显著的性能提升[12]。这些研究不仅揭示了多模态融合技术的多样性,而且强调了在不同模态之间建立有效连接的重要性。这些研究工作的一个共同主题是他们致力于提高模态融合的准确性和效率,尽管实现这一目标的方法不同。

虽然已经提出了许多多模态融合方法来提高多模态情感识别的准确性,但多模态融合中异质性的挑战仍然是影响多模态表示有效性的一个重要障碍。解决这种异质性问题已成为多模态情感识别领域的核心焦点,旨在克服整合多种模态的挑战。D. Hazarika等人的一种方法是将多模态特征映射到模态不变子空间和模态特定子空间,从而实现共享多模态表征和模态特定表征的学习[20]。

W. Yu等人的另一项研究利用自监督模型生成情态标签,随后通过多模态和单模态任务学习模态之间的一致性和差异性[21]。张琪等通过整合一致性和差异网络来学习一致性和差异特征来解决这个问题[22]。

S. Mai使用对比学习方法探索了跨模态交互以及样本和类别之间的学习关系[23]。总之,这些研究共同强调了解决多模态情感识别异质性挑战的持续努力,提供了多种策略来增强多模态的整合。然而,值得注意的是,异质性问题,特别是控制不同模式之间一致性和互补性的机制,尚未得到充分探索,仍然是一个活跃的研究领域。

对比学习

对比学习是一种越来越流行的无监督学习技术,其重点是创建一个表示空间,在这个空间中,相似的样本被拉近,而不同的样本则根据它们的相似性被推开。这种方法的原理是,具有相似内容的数据点在特征空间中应该具有相似的表示,而那些不相似的数据点应该具有明显的不同。对比学习的基本理论可以通过它的损失函数来解释,通常被称为对比损失或三重损失。该损失函数的一般形式可表示为:

其中,(i,j)表示一对样本,其中:

•positive_pair(i,j)是一个函数,用于测量一对相似或“正”样本之间的距离(或不相似性)。

•negative_pair(i,j)是一个函数,用于测量一对不同或“负”样本之间的距离。

•margin是一个超参数,它定义了不同样本之间的距离。

•[x]+表示x的正部分,相当于max(0,x)。

这种机制有效地创建了一个空间,其中数据点根据其固有的相似性进行组织,从而学习有用的和有区别的特征。

值得注意的是,Chen等人引入的SimCLR是一个对比学习框架,专门用于通过比较同一图像的多个增强视图来学习视觉表征[24]。另一种自监督方法,由Grill等人提出的BYOL,通过对比两个相同神经网络的输出来学习图像表示[6]。在另一种不同的方法中,Caron等人提出了一种通过对比图像的聚类分配来进行无监督视觉特征学习的方法,其结果与有监督方法相当[25]。这些技术证明了对比学习在不同领域的有效性,SimCLR、BYOL和Caron的方法都利用对比学习在视觉表示学习中取得了令人印象深刻的结果

近年来,对比学习已成为解决多模态融合和样本分布相关挑战的一种有价值的方法,特别是在多模态情感识别领域。H. Wang等人提出了一种通过比较正负样本的相似性来增强情感表征判别能力的方法[26]。其他学者利用对比学习来解决多模态异质性问题,提高多模态融合的有效性。

为了保证模态一致性,采用跨模态一致性约束将数据的不同模态映射到同一语义空间中[27]。S. Mai等人引入HyCon混合对比学习方法,学习样本间和类间的关系[23]。全志等

利用跨模态对比学习来捕捉不同的多模态动态[28]。然而,以往的研究主要集中在模态一致性上,而忽视了模态差异。要全面解决模态异质性,必须同时考虑一致性和多样性两个方面。本文旨在通过融合一致性和多样性对比学习来提高多模态情感识别的性能

多模态数据增强

多模态数据增强涉及通过对现有数据应用各种转换或修改来人为地增加多模态数据集的大小和多样性。其目的是通过在输入数据中引入变量提高多模态模型的鲁棒性和泛化能力。

许宁等引入多模态数据增强框架,以提高多模态图像-文本分类任务的性能[29]。他们通过从已有的单模态数据集中选择图像-文本对来构建多模态合成数据集。J. Huang等人通过用从原始训练样本中提取的更短的重叠样本替换原始训练样本来改进训练数据,有效地增加了训练样本的数量[30]。H. Cucu利用语音数据增强技术来提高多模态系统的性能[31]。通过构建合成数据集、增加训练样本数量和利用语音数据增强等各种技术来增强多模态数据,研究人员已经证明了增强多模态模型鲁棒性和性能的能力,使它们能够有效地处理各种未知数据。

方法

模型结构

本文提出了CMCL,一种多模态情感识别框架,如图3所示。该框架由三个主要部分组成:单峰特征提取;跨模态对比学习和多模态数据增强。核心组件是跨模态对比学习,它使模型能够学习跨不同模态的联合表示。该框架利用样本内的多样性和一致性对比来实现特定于模态的学习,并有效地捕获模态间的关系。采用样本对比学习捕捉样本间情感表达的变化,增强了情感识别模型的鲁棒性。单模态特征提取组件采用先进的特征提取方法,分别从包括文本、音频和视频在内的每种模态中提取特征。多模态数据增强生成具有不同变化的新训练样本,从而提高模型对未知数据的泛化能力。总体而言,该模型利用跨模态对比学习和多模态数据增强来提高机器学习模型在多模态情感识别任务中的性能。

单峰特征提取

单模态特征提取阶段负责分别从每种模态中提取特征,包括文本、音频和视频。我们采用先进的特征提取方法,为每个模式量身定制,以确保最佳性能。对于文本情态,我们使用bert风格的预训练模型,如BERTweet[32]来提取句子表示。这些模型有效地捕获了文本的语义信息,提供了高质量的文本嵌入。在音频模态的情况下,我们利用广泛使用的有效工具LibROSA[16]从语音信号中提取声学特征。此外,我们采用双向长短期记忆(BiLSTM)网络来捕捉语音数据的时间特征。对于视频模态,我们使用MTCNN[17]提取面部图像,使用MultiComp OpenFace2.0工具包[33]提取面部特征,如面部地标、面部动作单元、头部姿势、头部方向和眼睛注视。与音频模态类似,我们利用BiLSTM网络来捕获视频数据的时间特征。单峰特征提取阶段的总体公式可以表示为:

其中表示特征提取模型的参数。由原始数据导出的初始向量由特征组成。

我们分别从不同的特征提取模型中提取特征,得到单峰特征向量

跨模态对比学习

跨模态对比学习旨在学习多模态融合过程中不同模态的鉴别联合表征。它利用多样性对比将情态特征限制在不同的语义空间中,有效地捕捉到不同情态的不同方面。此外,它利用一致性对比来保证交互语义空间内交互特征的一致性。

多样性对比学习鼓励模型捕捉每个模态中的变化,保留不同观点之间的差异。同样,一致性对比学习促进了模态不同观点之间的一致性,增强了模型捕捉潜在概念和关系的能力。此外,样本对比学习推动模型学习样本之间的差异,使其能够区分个体之间不同的情绪表达。通过利用这三种类型的对比,跨模态对比学习有效地学习了捕获不同模态和不同样本之间关系的联合表征。

多样性对比学习

多样性对比学习(DCL)通过获取每个模态的独特特征表示来解决模态互补性的挑战。它采用多样性对比来捕捉模态的多样性特征,从而增强泛化和更全面的表征。DCL特别关注负对,这是指来自不同模态但与同一样本相关的单模态表征对。对于每个小批中的每个模态,该方法基于编码表示生成两个负样本,。每对的评分函数依赖于单模态学习网络生成的表示的余弦相似性。为了简化计算,余弦相似度可以缩放到0到1的范围。我们引入了一个多样性损失函数来鼓励模态之间不同表征的学习,旨在最大限度地区分来自不同模态的表征。分集对比损失函数定义如下:

其中sim(·)表示模态特征与负表示之间的余弦相似度。E是一个期望算子,它计算一个mini-batch中所有可能集合S的平均值。此外,模态边界参数α作为区分不同模态的阈值。它允许模态分布的某些变化,为融合过程保留特定于模态的信息。通过最小化多样性对比损失,该模型获得了识别不同模态的能力,从而增强了捕捉模态之间互补性的能力。

Q:这个对比学习的作用是什么?

A:论文中的描述是“通过多样性对比学习,我们将模态特征限制在不同的特征空间中,捕捉到模态特征的互补性。

具体来说:

  • 目标:希望模型学会在保持模态间多样性的同时,不至于让不同模态的表示过于相似或过于不同。

  • 多样性对比:通过调整 与 α 的关系,控制模态间的差异性。

计算过程:

  • 当平均相似度接近 α 时:损失较小,表示模型在保持模态间适当差异的同时,没有过度分离。

  • 当平均相似度远离 α 时:损失较大,模型需要调整,使相似度回到合适的范围。

  • 通过最小化损失:模型学会在模态间保持一个适当的相似度水平,既能捕捉到不同模态间的共同信息,又能保留各自的特征。

一致性对比学习

一致性对比学习(CCL)通过学习表现出跨模态一致性的联合表征来解决模态一致性的挑战。在学习一致性之前,CCL利用多头注意整合来自不同模态的信息,促进模态互动。这使得模型能够从每个模态中识别和捕获互补信息,从而产生包含输入数据本质的综合表示。文本、语音和视频模式的交互和融合可以使用以下公式计算,产生融合特征

我们的目标是在模态交互过程中实现跨模态的一致信息。为了实现这一点,我们采用一致性对比学习方法来加强跨模态一致性的学习。

一致性对比学习的计算与多样性对比学习相似,主要区别在于用正对替换负对。

具体来说,该方法侧重于基于每个小批量中两种模式的融合表示生成的阳性样本对。对于每个小批中的每一个融合表示,该方法基于交互融合生成两个正样本,。每对的评分函数由融合表示的余弦相似度确定。为了鼓励模型学习跨模态的一致特征,我们设计并最小化一致性对比损失函数。一致性对比损失函数定义如下:

其中sim(·)表示之间的余弦相似度。E是一个期望算子,它计算一个mini-batch中所有可能集合S的平均值。通过最小化一致性对比损失,该模型学习跨不同模态集成相似信息,从而增强其捕获模态一致性的能力。

样本对比学习

使用样本对比学习(SCL)来探索样本之间的差异,从而产生更具判别性的多模态表示,从而增强模型的泛化能力。该方法采用多模态融合特征作为样本的锚点,根据样本的标签生成正样本和负样本。正样本定义为具有相同情绪标签的多模态表示,而负样本定义为具有不同情绪标签的多模态表示。该定义确保正样本捕获相同情绪类别的本质,而负样本提供对比信号,帮助模型区分不同的情绪类别。对于小批量中的每个锚点,该方法生成一个集合S = {p1, p2,⋯,pN, n1, n2,⋯,nM},该集合由N个正样本和M个负样本组成。为了同时考虑正负样本对,我们设计了一个样本对比损失函数。通过最小化这个损失函数,我们鼓励正样本对靠近,同时推动负样本对远离。

其中sim(·)表示的多模态表示与正或负样本表示之间的余弦相似度。E是一个期望算子,它计算一个小批量中所有可能集合S的平均值。这个损失函数鼓励模型通过最大化负对之间的距离和最小化正对之间的距离来学习更具判别性和鲁棒性的表示。

多模态数据增强

多模态数据增强是一种在训练阶段用于增强机器学习模型在多模态任务上的性能的高效技术。通过生成具有不同变化的新训练样本,例如引入随机噪声或组合不同的模态,模型暴露于更广泛的示例中,有助于改进学习并更有效地泛化看不见的数据。我们使用两种方法实现多模态数据增强:随机噪声(RN)和模态组合(MC)。

随机噪声

随机噪声(RN)涉及在原始数据中引入噪声或扰动,从而增加数据多样性并提高模型的鲁棒性。加入噪声的公式如下:

其中F'm表示模态m的新生成数据。表示生成的随机噪声,分别表示正态分布的均值和标准差。是从标准正态分布N(0,1)中抽取的随机数。在实验阶段,我们对每个训练样本添加一次随机噪声,从而产生一个新的样本

在实际实现中,对文本、音频和视频数据添加随机噪声的过程如下:

1)对于文本数据,我们使用同义词替换方法。这包括用同义词替换文本中的某些单词。这个过程从识别文本样本中的关键名词、动词和形容词开始。在每个句子中,我们随机选择一个单词。对于每个选择的单词,我们使用同义词典或语言模型(如WordNet)生成同义词列表。然后从这个列表中随机选择同义词来替换原始单词。该方法在文本中引入可变性,同时保持整体上下文和含义,增强了在该增强数据上训练的模型的鲁棒性

2)对于音频数据,我们采用了背景噪声添加的方法。背景噪声表示为,使用正态分布创建。我们从标准正态分布中产生噪声值。为了给噪声增加可变性和随机性,我们从标准正态分布N(0,1)中采样值。一旦产生背景噪声,它就会与原始音频信号相结合。噪声被叠加到音频信号上,产生一个新的增强版本的音频数据。这种方法通过引入在真实音频环境中常见的现实变化来增强音频处理模型的鲁棒性。

3)对于视频数据,我们实现了亮度变化。这涉及到引入视频帧亮度的变化。对于每一帧,我们从一个预定义的范围内生成一个随机的亮度因子,比如原始亮度的50-150%。然后我们通过改变像素亮度值来根据这个随机生成的因子来调整每帧的亮度。为了确保自然和一致的观看体验,我们采用平滑技术来确保亮度变化在连续帧中一致应用。这种方法有助于避免突然的视觉跳跃,为视频的视觉动态提供更加无缝和现实的改变。

模型组合

模态组合(MC)将数据的不同模态集成到统一的多模态表示中,从而增加了数据的多样性,增强了模型的泛化和鲁棒性。为了使用模态组合生成新样本,我们从具有相同标签的样本中随机选择模态数据并将它们组合以创建新的多模态样本。生成这些新样本的公式如下所示。

其中Fnew表示新生成的样本,ynew表示合并后的新样本的情绪标签,Average(·)表示三种模态对应样本的平均情绪强度,Fl1 m表示标签为l的样本中模态m的数据,Random表示该数据的随机选择。在实验阶段,我们通过模态组合生成了一批等于批大小的样本,批大小设置为32。

在模态组合(MC)数据增强过程中,我们首先根据情感标签(如“积极”和“消极”)对数据集样本进行分类,然后将它们分成不同的模态,如文本、音频和视频。我们从每个情感类别中的不同样本中随机选择并组合一段文本、一段音频剪辑和一段视频片段,以创建新的多模态样本。使用average(·)函数计算这些样本的平均情绪强度以保持一致性。

重复此过程以生成一组与预定批大小匹配的新样本,从而增强数据集的多样性以及模型对训练课程的泛化和鲁棒性

模型训练

为了识别情感类别,我们将从多模态交互网络中获得的融合表示连接起来,并将它们输入到一个直接的分类器中进行预测。

其中,K表示类的总数,wi表示第i类对应的权值向量。我们采用交叉熵损失函数作为情感识别任务的基本优化目标。

总体对比损失函数是DCL、CCL和SCL的加权和。我们的模型的总损失由整体对比损失和预测损失组成,共同优化模型的性能

其中Lpred是预测损失,λ1、λ2和λ3是调节三种对比损失的相对重要性的超参数。

experiments

在实验部分,我们的主要目标是评估我们提出的框架在多模态情感识别任务上的性能

datasets

在本研究中,我们使用三个基准数据集,即CMU-MOSI [34], CMUMOSEI[35]和CH-SIMS[36]来评估所提出的框架。CMU- mosi和CMU- mosei都是由卡内基梅隆大学(CMU)的研究人员使用类似的方法开发的。CH-SIMS是由清华大学的研究人员开发的中文多模态情感识别数据集。

表1给出了上述数据集的基本统计数据,提供了一个简明的概述。在这里,我们简要介绍这些数据集。

CMU-MOSI数据集包含2199个视频片段,分为训练集、验证集和测试集,分别包含1284个、229个和686个语音。这些话语被手工标注,情感强度范围从−3到3。为了与现有方法进行比较,我们报告了二元情绪识别的结果,其中值≥0表示积极情绪,值<0表示消极情绪

CMU-MOSEI数据集是一个更大的数据集,由23,454个关于电影主题的YouTube视频剪辑组成该数据集被划分为训练集、验证集和测试集,分别包含16216、1835和4625个话语。每个话语都被标注了一个情绪和情感标签,用于七个维度,包括效价、唤起、支配、快乐、惊讶、悲伤和厌恶

CH-SIMS数据集包括60个原始视频和精心挑选的2,281个视频片段,这些视频片段来自各种来源,包括电影、电视连续剧和综艺节目。数据集被划分为训练集、验证集和测试集,分别包含1,368、456和457个片段。数据集中的每个样本都由人类注释者精心注释,分配情感得分范围从- 1(表示强烈的消极情绪)到1(表示强烈的积极情绪)。这一综合标注方案使研究者能够探索中文多模态数据中细微的情感分析。

实现细节

在本节中,我们将详细介绍模型的实现细节。在模态特征提取方面,对于文本数据,我们使用BERTweet1模型在两个英语数据集(CMU-MOSI和CMUMOSEI)上进行词嵌入和特征提取;和RoBERTa2在CH-SIM中文数据集上进行词嵌入和特征提取。对于音频数据,我们使用LibROSA提取音频特征。对于视觉数据,使用MTCNN和OpenFace2.0提取面部视觉特征。训练epoch数设置为100,batch大小为32,使用Adam优化方法更新模型参数。学习率最初预热到1e-3,然后使用余弦调度衰减到1e-5。该模型在两台NVIDIA A100 Tensor Core gpu上进行训练。在训练过程中,为了提高训练速度,对预训练的BERTweet和RoBERTa语言模型的参数进行冻结,只更新模态融合和对比学习部分的参数

评价指标

对于CMU-MOSI、CMU-MOSEI和CH-SIMS数据集,我们采用类似的评估指标来评估所提出框架的性能。这些指标包括:(1)Acc2:计算二元精度,以确定模型在二元情绪分类中的表现,区分积极和消极情绪;(2) F1分数:F1分数用于评价模型在情感分类任务中的准确率和召回率;(3) MAE:平均绝对误差(Mean Absolute Error)是一种回归度量,用于量化预测情绪得分与真实值之间的平均绝对差值;(4) Corr:计算模型预测的情感得分与人类注释者确定的情感得分之间的相关性。在我们的实验结果中,我们提出了分类和回归任务的评价指标。对于分类任务,我们报告Acc2和f1分数。对于回归任务,我们报告了MAE和Corr,其中较低的平均绝对误差和较高的相关性表明较好的性能。

baseline

为了充分评估本文提出的模型的有效性,我们在多模态情感识别的背景下与基线进行了比较。

TFN:张量融合网络(TFN)[37]通过使用外积计算一个多维张量来捕获单峰、双峰和三峰输入之间相互作用的信息。

LMF: LMF (Low-order Multimodal Fusion)[38]是一种更高效的TFN版本,它利用低阶多模态张量融合技术来提高性能。

MFN:记忆融合网络(MFN)[39]引入了新的技术,如delta-attention模块和多视图门控记忆网络,旨在揭示数据中存在的多模态相互作用。

MFM: MFM (Multimodal Factorization Model)[40]学习针对特定渠道的生成特征的生成表示和用于分类目的的判别表示。

MULT: MULT (Multimodal Transformer)[3]是多模态转换器架构的扩展,它采用有向双向交叉注意来实现一种模态到另一种模态的转换。

magg -BERT: magg -BERT[41]将多模态自适应门与BERT模型集成在一起。

这种集成使BERT模型能够在微调过程中有效地纳入多模态非语言数据。

MISA:在MISA[20]中,每个模态被投影到两个子空间中,以创建模态不变和特定表示:第一个子空间表示模态不变特征,而第二个子空间捕获模态特定特征。

MICS:在MICS[28]中,通过对每个模态采用合适的策略并利用多模态比较学习交互模块进行融合,解决了模态异质性问题。

HyCON:在HyCON[23]中,为了把握样本间和类间关系的细微差别以减少情态差距,同时进行了模态内/模态间对比学习和半对比学习。

定量结果

在本节中,我们将提出的方法CMCL与其他基线方法在三个标准实验数据集上进行比较。基线方法在CMUMOSI和CMU-MOSEI数据集上的结果使用各自文献中提供的原始数据进行报告。对于CH-SIMS数据集,基线方法的一些结果来自原始文献。此外,我们在CH-SIMS数据集上重建和测试了magg - bert、MISA和MICS模型,以获得我们的结果。

表2给出了基于CMU-MOSI数据集的多模态情感识别实验结果。从表中可以观察到,我们提出的方法在几乎所有评估指标上都优于基线。与表现最好的基准HyCON相比,CMCL在Acc2上提高了1.5%,在F1得分上提高了1.4%。虽然MICS和HyCON也使用对比学习方法,但它们主要关注学习模态差异,而没有考虑多模态融合过程中的一致性学习。实验结果表明,该方法在小规模多模态情感识别数据集上具有显著的优势。

CMU-MOSEI数据集的实验结果如表3所示。实验结果表明,该方法在Acc2、F1分数、MAE等方面均优于基线方法。与MICS和HyCON的最佳结果相比,CMCL的Acc2提高了0.1%,F1评分提高了0.1%,MAE降低了0.014。虽然所提出的方法在Corr度量方面略低于HyCON,但它仍然达到了相当的性能水平。实验结果表明,我们提出的跨模态对比学习方法在应用于大规模多模态情感识别数据集时表现出显著的优势。

CH-SIMS数据集的实验结果如表4所示。对实验结果的分析表明,我们提出的方法在Acc2、MAE和Corr方面优于基线方法。与比较中表现最好的方法相比,CMCL的Acc2改善了0.2%,MAE降低了0.015,Corr提高了0.026。值得注意的是,MICS取得了非常好的结果,在F1得分方面优于我们提出的方法,这可能是由于预训练的语言模型在相对小规模的中文数据集上的语义表示能力有限。然而,我们提出的方法在大多数指标上仍然优于MICS,表明其在中文多模态情感识别任务上的有效性。

消融实验

不同模态组合的效果

从表5可以看出,文本模态在单一模态中二元分类准确率(Acc2)最高,为78.9%,平均绝对误差(MAE)值最低,为1.194。视频模态的准确率为60.3%,平均绝对误差为1.325;音频模态的准确率为61.1%,平均绝对误差为1.307。这些结果表明,单模态特征提取网络在文本情态中提取的特征对情感识别是有效的。文本模态的优异表现可以归功于BERTweet的预训练语言模型,它通过CLS令牌生成富文本特性,从而在从头开始训练文本模态时消除了对特征提取模块的需求。

在双峰场景中,利用每个单独模态中的特征提取网络,以及跨模态对比学习,与单模态设置相比,可以提高性能。具体来说,音频和文本、文本和视频以及音频和视频的双峰组合都表现出优异的效果。这些发现为双峰对比学习在提高系统整体性能方面的有效性提供了证据。

在三模态情况下,与双模态模型结构相比,提出了一种包含三模态的CMCL方法。该架构产生了最佳结果,Acc2为87.9%,F1为87.8%,MAE为0.674,Corr为0.828。这些结果表明,跨模态对比学习在整合和利用所有三种模态的信息方面是有效的,从而提高了三模态情感识别任务的表现。

不同对比学习方法的效果

为了分析DCL (Diversity contrastive learning)、CCL (Consistency contrastive learning)和SCL (Sample contrastive learning)三种对比学习方法的效果,我们在CMU-MOSI数据集和CMU-MOSEI数据集上进行了实验,结果如表6所示。当使用个体对比学习方法时,DCL表现出最好的性能,在CMUMOSI数据集上达到85.6%的准确率,在CMU-MOSEI数据集上达到85.0%的准确率。

这些结果表明,模态之间的互补性在多模态情感识别中至关重要。

此外,与基线模型相比,另外两种对比学习方法也提高了识别性能。两种对比学习方法的结合进一步提高了多模态情感识别的有效性,突出了不同对比学习方法之间的相互强化。其中,DCL和CCL的组合达到了最好的性能,在CMU-MOSI数据集上的准确率为87.3%,在CMU-MOSEI数据集上的准确率为85.8%。此外,当同时考虑这三种对比学习方法时,CMU-MOSI数据集的分类准确率达到87.9%,CMU-MOSEI数据集的分类准确率达到86.6%。结果表明,通过学习模型之间的互补性和一致性以及样本数据之间的差异性,该模型有效地提高了情感识别的性能。

损失因子λ1、λ2、λ3的影响

首先,初步实验表明,将损失函数参数设置在0 ~ 0.1之间效果较好。然后,使用网格搜索方法搜索最优参数。Eq.(17)中的λ1、λ2和λ3对CMU-MOSI数据集和CMU-MOSEI数据集的影响

如图4图像左侧可以看到,当λ1设为0时,该模型没有进行多样性对比学习,也没有利用多样性对比损失进行训练。因此,该模型在两个数据集上的性能都不令人满意。随着λ1值的增加,两个数据集的精度都略有提高。当λ1设置为0.02时,精度达到峰值。

这些结果表明,无论λ1值如何,经过多样性对比训练的模型的准确率始终优于未经过多样性对比训练的模型。

图4中间展示了λ2对CMU-MOSE数据集和CMU-MOSEI数据集的影响。当λ2设为0时,训练模型时没有进行一致性对比学习,导致特征包含很多不一致的信息。因此,该模型在数据集上的性能并不令人满意。随着λ2值的增加,两个数据集的精度都略有提高。在这一点上,通过一致性约束的应用删除了冗余和不相关的特征,从而提高了准确性。当λ2设置为0.03时,精度达到峰值。这些结果表明,无论λ2值如何,经过一致性对比训练的模型的准确率始终优于未经过一致性对比训练的模型。

在图4的右侧,描述了λ3对CMUMOSE数据集和CMU-MOSEI数据集的影响。λ3参数用于控制样本对比学习的损失。通过调节λ3,我们可以调节模型训练时分配给样本对比损失的权重。当λ3设为较大值时,样本对比损失的权重占主导地位,从而更加强调学习判别表征。但是,如果λ3过大,则会导致样本对比学习过程中增加的噪声过大,导致准确率下降。这是因为噪声淹没了数据中有意义的信号,阻碍了模型学习有意义表示的能力。相反,当λ3设置为较小的值时,它对样本对比学习方面的重视程度较低。因此,在两个数据集上,精度可能会略有提高。达到最高精度的最佳值λ3取决于特定的数据集和任务的性质。在CMU-MOSI数据集和CMU-MOSEI数据集中,λ3分别为0.01和0.02时,精度达到峰值。

这些结果证明了适当调整λ3以平衡样本对比学习和噪声的影响对于在情感识别任务中获得最佳性能的重要性。

模态边界参数α的影响

通过比较前面讨论的学习方法,我们可以观察到,当使用DCL时,模型的精度提高了,说明多样性对比学习的有效性。为了进一步研究DCL的作用,本研究深入研究了不同模态边界参数α值的影响。

我们的CMCL模型在参数α为0.7时达到最优性能。根据表7所示的结果,我们可以观察到当α偏离0.7时,我们的模型性能下降。当α设置为较低的值时,例如0.6或0.8,会产生显着的模态间隙,从而阻碍更好的性能。

相反,如果α设置得太高,如0.9,不同模态的对齐可能导致模态特定信息的丢失。因此,选择一个合适的α值是实现最优解的关键。

不同多模态数据增强的效果

为了研究包括随机噪声(RN)和模态组合(MC)在内的多模态数据增强技术对情感识别性能的影响,在CMU-MOSI和CMU-MOSEI数据集上进行了对比实验。实验结果见表8。

值得注意的是,单独结合RN或MC都产生了令人印象深刻的情感识别准确性,强调了引入噪声或组合模式以生成不同训练样本的好处。这表明两种增强方法对提高模型的性能都有积极的作用。当两种数据增强方法同时使用时,获得了最佳性能。

CMU-MOSI和CMUMOSEI的准确率分别为87.9%和86.6%。这些结果表明,随机噪声注入和模态组合之间的协同作用可以进一步增强模型在不同多模态数据集上的泛化能力。研究结果强调了多模态数据增强在多模态情感识别任务中的重要性。

嵌入空间的可视化

我们给出了嵌入空间中多模态表示分布的可视化。在图5中,右和左图分别描述了采用和不采用跨模态对比学习的CMCL学习到的嵌入空间。可视化是通过应用t-SNE算法将多模态表示转换为二维特征空间来生成的。我们可以推断,在没有对比损失的情况下,嵌入空间中的数据点是分散的,不同的情感类不会形成不同的聚类。然而,当对比损失被纳入模型时,数据点之间的距离显着减少,导致每个情感类形成一个可区分的聚类。此外,两个情感集群的中心相距很远,嵌入空间的中间位置有挑战性的数据点。这是因为我们显式地对不同样本之间的相似性进行建模,使同一类的样本更接近,并将不同类的样本推得更远。这种方法有助于分类器做出准确的预测。尽管如此,值得注意的是,一些数据点很难正确分类,并且可能出现在错误的聚类中。这是合理的,因为即使使用训练有素的分类器,情感分类的准确率也大约是88%。

情绪回归的样本分析

为了证明我们提出的模型在情感识别领域的有效性,我们展示了输入数据的可视化,包括文本、语音和视频,以及每种情态的相应分数和最终的预测情感分数,如图6所示。在可视化中,消极情绪用红色表示,积极情绪用绿色表示,中性情绪用白色表示。在这个例子中,我们可以观察到视频形态中明显的情感两极分化,面部表情传达出严肃和皱眉的感觉。然而,视频内容在传达情感方面可能是模棱两可的。在这个特定的样本中,真实标签被确定为0.4,而我们的模型预测得分为0.38,表明积极情绪较弱。仅考虑视频方式时,情绪强度为-0.6,表明消极情绪强烈。为了解决这一问题,CMCL结合了多样性对比学习和一致性对比学习,有效地减轻了歧义。最终得分结果验证了在CMU-MOSI数据集上合并声学图5 T-SNE多模态嵌入空间可视化的有效性。

“红点”和“绿点”分别表示消极和积极情绪的数据点,以及在视觉分析中消除情感内容歧义的文本模式。

conclusion

本文针对多模态情感识别任务,提出了一种跨模态对比学习框架CMCL,以解决多模态数据融合过程中的异质性问题。该框架既考虑了模式之间的互补性和一致性,也考虑了样本之间的差异。对比学习损失函数旨在保留不同模态特征之间的差异,并将模态交互特征映射到共享特征空间。

在训练阶段,采用多模态数据增强方法防止过拟合,提高模型的鲁棒性。大量的实验和比较分析表明,该框架在三种不同的多模态情感识别数据集上优于其他基线方法,表明对比学习框架部分解决了多模态数据的异质性问题。然而,特征可视化表明,对比学习框架获得的多模态融合特征的判别能力仍有提高的空间,获得更多的判别多模态特征将是未来研究的重点。

在未来的研究中,可以通过整合先验知识、特征去噪和多视角学习等方法来增强多模态情感特征的可识别性。整合先验知识包括使用经过先验知识增强的专门神经网络架构,或者在模型训练期间将这些知识作为约束。这有助于模型在处理不确定和复杂的数据时保持鲁棒性。

特征去噪是通过使用自动编码器、噪声滤波算法或统计方法来减少来自各种模态的数据中的噪声来实现的。多视图学习通过并行或交互的多视图学习框架实现,充分利用每种模式的独特特性,提高模型对复杂模式的理解和预测能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值