【CMCL】多模态情感识别的跨模态对比学习

最新推荐文章于 2025-03-05 11:23:50 发布

___Dream

最新推荐文章于 2025-03-05 11:23:50 发布

阅读量1.8k

点赞数 25

分类专栏：对比学习文章标签：深度学习人机交互

本文链接：https://blog.csdn.net/weixin_45962681/article/details/143573849

版权

abstract

近年来，多模态情感识别因其能够通过整合多模态信息来提高情感识别的准确性而受到越来越多的关注。然而，模态差异导致的异质性问题对多模态情感识别提出了重大挑战。在本文中，我们提出了一个新的框架——跨模态对比学习（CMCL），它集成了多种对比学习方法和多模态数据增强来解决异质性问题。具体而言，我们利用多样性对比学习、一致性对比学习和样本水平对比学习建立了一个跨模态对比学习框架。通过多样性对比学习，我们将模态特征限制在不同的特征空间中，捕捉到模态特征的互补性。此外，通过一致性对比学习，我们将不同模态的表示映射到共享特征空间中，捕获模态特定特征的一致性。我们还引入了两种数据增强技术，即随机噪声和模态组合，以提高模型的鲁棒性。实验结果表明，我们的方法在三个基准数据集上达到了最先进的性能，并且优于现有的基线模型。我们的工作证明了跨模态对比学习和数据增强在多模态情感识别中的有效性，并为该领域的未来研究提供了有价值的见解。

intro

近年来，多模态情感识别已经成为情感计算领域一个很有前途的研究方向[1]。从面部表情、语音和语言语义等多种方式整合信息，有可能提高情感识别的准确性。图1以简化的方式提供了多模态情感识别过程的清晰示例。当前主流的多模态情感识别方法包括从单个模态中提取语义信息，然后构建一个模型，使模态之间的交互能够进行特征融合。然后将得到的多模态特征用于情感识别。然而，由于模态之间的差异而产生的异质性问题对多模态情感识别提出了重大挑战。在融合过程中，模式之间存在固有的异质性[2]，因此，模式特有特征的互补性和一致性往往被忽视。这种疏忽会导致有价值的情态信息的丢失以及融合结果中冗余的多情态特征的存在，最终导致情感识别的准确性不理想。

为了应对这一挑战，早期的方法通常采用单模态表示，将原始音频、视觉和文本数据映射到共享空间中。目前，最先进的方法侧重于设计能够有效集成来自不同模式的信息的融合模型[3,4]。这种融合的质量对决定多模态情感识别任务的准确性起着至关重要的作用。这些融合方法主要包括情态关系融合[5,6]、情态特征对齐[7-9]和语义增强[10-12]。模态融合的目标是通过学习捕捉不同模态之间的依赖关系和相互作用，从而获得多模态特征的判别表示。

虽然目前的机制在编码更健壮的特征和捕获准确的比较方面取得了实质性的进展，但现有的情感识别方法通常依赖于直接的单模态表示和传统的信息融合。然而，这些方法的一个局限性是它们没有同时考虑到不同模式之间的一致性和互补性。为了解决模式之间的一致性和互补性问题，本研究提出了一个利用对比学习方法的新框架。对比学习利用样本之间的相似和不相似关系来学习判别表征。一些研究提出了多模态融合的对比学习方法。Y. Liu等人提出了一种名为TupleInfoNCE的多模态表示学习对比方法，该方法明确考虑了模态之间的互补协同作用[13]。Yang等人提出了一种旨在捕获语义一致表征的多模态对比学习方法[14]。然而，以往的多模态对比学习研究对多模态特征交互融合过程中模态之间的差异和一致性，以及样本之间的差异和一致性的研究并不充分。

跨模态对比学习是一种深度学习技术，用于处理来自不同模态的数据，如文本、图像、声音等。它的基本原理是围绕嵌入来自不同模式的数据并将它们映射到共享的表示空间。随后，使用对比损失函数来学习该表示空间内的特征，确保相似的数据点靠得更近，而不相似的数据点离得更远。跨模态对比学习的主要优势在于它能够有意义地整合和比较来自不同模态的信息，从而有效地解决跨模态数据分析和应用中的挑战。

所提出方法的原理如图2所示，其中圆形、正方形和三角形分别表示文本、音频和视频模态数据。三种颜色分别代表锚点样本、正样本和负样本。

首先，特定于模态特定特征都是通过网络的模态特征提取得到的。由于模态之间存在语义差异，本文采用多样性对比的方法在独立的语义空间中保持模态的差异性，从而实现模态特征之间的语义互补。

其次，对模态进行两两融合，得到交互特征；这些交互特征共享相似的信息，例如文本-音频交互特征和文本-视频交互特征具有共同的文本语义，因为音频和视频对应于相似的文本交互。因此，通过一致性对比建立交互特征之间的一致性，将它们映射到一个共享的特征空间中。此外，考虑到情感表达的个体差异和多模态样本之间的显著差异，采用样本对比学习来提高模型的泛化性。为了实现上述原则，本文引入了一个跨模态对比学习（CMCL）框架。

在我们提出的框架中，我们首先使用预训练模型和预处理工具（如BERT[15]、LibROSA[16]和MTCNN[17]）从文本、音频和视频数据中提取模态特定特征。为了保持模式之间的互补性，我们设计了多样性对比损失（LDCL），鼓励模式特定特征之间的多样性。接下来，我们采用双峰融合神经网络，如注意力网络[18]，建立模态之间的相互作用，并获得融合的相互作用特征。为了确保交互特征之间的一致性，我们引入了一致性对比损失（LCCL）来促进模式之间的一致性并将它们映射到共享的特征空间。此外，我们利用样本水平对比损失（LSCL）来降低情绪表达的个体差异对模型泛化能力的影响。此外，为了减轻过拟合并提高模型的性能，我们在模型训练过程中引入了随机噪声和模态组合等数据增强技术

我们的方法的主要贡献可以总结如下：

•我们提出了一个新的框架，称为跨模态对比学习（CMCL）用于多模态情感识别。CMCL通过考虑模态之间的互补性和特征一致性来解决多模态数据的异质性问题。我们设计了三个对比损失函数来促进情感识别任务的多模态对比学习。

•为了减轻过拟合并提高情感识别模型的性能，我们采用了多模态数据增强技术。具体来说，我们设计了随机噪声注入和模态组合两种方法来生成新的样本，用于训练多模态情感识别模型。

•我们在标准数据集上进行了广泛的实验，包括CMU-MOSI， CMU-MOSEI和CHSIMS。实验结果表明，与现有的方法相比，我们提出的CMCL框架具有显著的优势。此外，我们还提供了一套全面的消融实验和分析，以进一步支持对比学习和数据增强的有效性。

related work

多模态情绪识别

在多模态情感识别领域，多模态融合技术通过对各种模态的关键特征进行过滤、提取和组合，起到了至关重要的作用[1]。

近年来的研究对多模态融合的各个方面进行了广泛的探索，包括情态关系融合、情态特征对齐和语义增强。理解不同模式之间的关系对于有效融合至关重要，因为它有助于整合和理解来自不同来源的信息。例如，W. Han等人提出了一种双峰融合网络，通过相关性和差异增量来利用模态之间的独立性和相关性的动态[5]。此外，它们还利用多式联运互信息进行高级的情态交互[19]。特征对齐技术涉及将不同的模态映射到共享空间，从而产生内聚的多模态语义表示。C. Chen等通过消除背景噪声和遮挡噪声提高了模态对准性能[7]。研究表明，言语情态相对于非言语情态的重要性，整合言语情态的语义信息可以显著提高多模态表征的能力。D. Wang等人将音频和视觉线索整合到文本表示中，生成了更有效的多模态表示[10,11]。C. Huang等人利用跨模态注意机制建立了以文本为中心的多模态融合网络，取得了显著的性能提升[12]。这些研究不仅揭示了多模态融合技术的多样性，而且强调了在不同模态之间建立有效连接的重要性。这些研究工作的一个共同主题是他们致力于提高模态融合的准确性和效率，尽管实现这一目标的方法不同。

虽然已经提出了许多多模态融合方法来提高多模态情感识别的准确性，但多模态融合中异质性的挑战仍然是影响多模态表示有效性的一个重要障碍。解决这种异质性问题已成为多模态情感识别领域的核心焦点，旨在克服整合多种模态的挑战。D. Hazarika等人的一种方法是将多模态特征映射到模态不变子空间和模态特定子空间，从而实现共享多模态表征和模态特定表征的学习[20]。

W. Yu等人的另一项研究利用自监督模型生成情态标签，随后通过多模态和单模态任务学习模态之间的一致性和差异性[21]。张琪等通过整合一致性和差异网络来学习一致性和差异特征来解决这个问题[22]。

S. Mai使用对比学习方法探索了跨模态交互以及样本和类别之间的学习关系[23]。总之，这些研究共同强调了解决多模态情感识别异质性挑战的持续努力，提供了多种策略来增强多模态的整合。然而，值得注意的是，异质性问题，特别是控制不同模式之间一致性和互补性的机制，尚未得到充分探索，仍然是一个活跃的研究领域。

对比学习

对比学习是一种越来越流行的无监督学习技术，其重点是创建一个表示空间，在这个空间中，相似的样本被拉近，而不同的样本则根据它们的相似性被推开。这种方法的原理是，具有相似内容的数据点在特征空间中应该具有相似的表示，而那些不相似的数据点应该具有明显的不同。对比学习的基本理论可以通过它的损失函数来解释，通常被称为对比损失或三重损失。该损失函数的一般形式可表示为：