这篇文章语言极其晦涩难懂,内容和同专栏下的CENet中每一张图都百分之95相似,有些描述位置和内容都一模一样,还并且没有引用人家
abstract:
多模态情感分析(Multimodal Sentiment Analysis, MSA)综合利用多模态数据获取更准确的情感属性,在社交媒体分析、用户体验评价、医疗健康等领域有着重要的应用。值得注意的是,以往的研究很少关注语言(文本)和非语言(听觉和视觉)模式之间初始表征粒度的不一致性。因此,他们之间的情感信息不平衡使交互过程复杂化,最终影响模型的性能。为了解决这一问题,本文提出了一种帧级非语言特征增强网络(FNENet),通过缩小模态之间的差距和整合异步情感信息来提高MSA的性能。具体而言,将矢量量化(VQ)应用于非语言模式,以减少粒度差异,提高模型的性能。此外,通过序列融合机制(Sequence Fusion mechanism, SF)将非语言信息整合到预训练的语言模型中,增强文本表征,有利于根据非对齐帧级非语言特征中保留的异步情感线索进行词级语义表达。在三个基准数据集上的大量实验表明,fneet显著优于基线方法。这表明我们的模型在MSA上具有潜在的应用前景。
随着以人为中心的在线视频的爆炸式增长,计算机科学学术界越来越认识到多模态情感分析(MSA)的重要性。MSA主要旨在通过文本、声学和视觉等多模态信号进行情感识别和情感分析。近年来,相关研究不断涌现,利用语言(文本)、声学和视觉模式分析视频中的人类情感,一些研究在MSA方面取得了重大进展。
其中,基于预训练语言模型(Pre-trained Language Models, PLM)的MSA研究是近年来研究最为广泛的研究领域。这些模型,特别是基于Transformer的模型,可以提取上下文语义特征,并且通过微调对下游任务非常灵活。这使他们大大提高了对MSA的识别精度。然而,数据水平异质性导致的模式之间的显著差异限制了在融合阶段实现更高性能的能力(见图1)。
在这些研究中,通过PLM预训练的文本特征被表示为言语模态,而通过特征提取工具提取的声学和视觉特征统称为非语言模式。
在大多数先前的研究中,研究人员都专注于设计更有效的整合模式的机制来提高准确性,而忽略了不同模式的异质性和使用不同特征提取器所产生的语义层面的差异。对于声音和视觉模式,通常首先使用COVAREP (Degottex等人,2014)和OpenFace (Baltrusaitis等人,2016)等特征提取工具提取手工制作的低级特征,然后使用基于循环神经网络(RNN)的网络,如双向长短期记忆网络(BiLSTM) 和双向门循环单元(BiGRU) 。
相比之下,主要研究使用PLM获取文本特征。值得注意的是,与通过PLM学习的语言特征相比,非语言特征相对欠发达,这意味着不同模式在初始表征粒度上存在差异(Wang, Liu, Wang, Tian, He, & Gao, 2022)。因此,它使得模态之间的交互和融合非常低效,最终影响了模型的性能
如图1所示,言语情态(顶部)特征通常是由大规模预训练的语言模型训练出来的高维抽象表征,在词级具有很强的上下文语义相关性粒度。他们有高密度的情感信息。相反,对于非语言模式(底部部分),研究人员通常对原始数据帧进行采样,并使用特征提取工具获得手动特征,这些特征通常在与情绪相关的不同方面连接起来。值得注意的是,这些方面实际上是互不相关的,因此单帧特征的情感信息是严重稀疏的。
此外,在不同的非语言信息条件下,话语层面的情绪也会有所不同。例如,当只使用单模态文本特征来判断“这部电影很疯狂”的情感时,这句话中的语言歧义可能会导致预测的情感与实际的情感之间存在很大的差距。因此,该模型在情绪分析中似乎容易出现偏差。考虑到包含丰富情感信息的声音和视觉模式,例如大声说话和微笑,该模型预测了一个结合异步情感线索的积极句子。如图2所示。
为了减少模态之间的交互差距,整合情感线索,从而提高MSA的性能,我们提出了一个框架级非语言特征增强网络,通过将非语言特征转换为标记嵌入,并整合来自听觉和视觉模态的情感信息,来改善言语表征。在fneet中,矢量量化(VQ)通过训练每一帧声学和视觉原始特征的索引嵌入来转换帧级特征。引入序列融合机制,重点从非语言特征中捕获异步非语言情感语境。将增强的文本表示集成到PLM中,进一步提高了模型的性能。
本文的主要贡献如下:
•提出了一种帧级非语言特征增强网络,通过将帧级非语言特征整合到PLM中来改善文本表示。
•采用帧级特征变换,通过学习非语言嵌入,减少模态之间的分布差异,进一步提高模型的融合性能。
•基于序列融合机制,有效利用时序信息整合模态的异步情感线索,增强文本特征。
•在三个MSA公共数据集上的广泛实验结果表明,我们的方法优于基线技术。
related work
在本节中,我们介绍了多模态情感分析中的一些相关工作。接下来,我们讨论预训练的语言模型。最后,我们介绍了一些基于矢量量化的研究。
多模态情感分析
以往对多模态情感分析的研究可以分为两类。一类方法不使用PLM,另一类方法利用PLM提取文本特征。
对于第一类,这些方法通常使用GloVe 词嵌入,然后使用LSTM 提取语言表示。张量融合网络(TFN)使用三模态的三重笛卡尔积,通过模态嵌入子网络学习模态内动力学。低秩多模态融合网络(LMF) 通过使用低秩张量减少了与张量计算相关的许多参数。Recurrent Attended Variation Embedding Network (RAVEN) 利用细粒度非语言子词信息来动态调整单词表示以实现多模态融合。因子化多模态变压器(FMT)应用因子化多模态自关注(FMS)来设计多模态交互。Multimodal Transformer (MulT) 使用跨模态注意(CMA),它扩展了标准Transformer 模型,将一种模态转换为另一种模态,并在未对齐的数据上构建不同模态对之间的交互。相反,我们的方法侧重于通过时间注意机制捕获的异步情感线索来增强言语特征。进一步说,这意味着长距离充足的信息流是单向地从非语言流向语言的。
另一类通常比前面提到的一类效果更好,因为在大型文本语料库上训练的PLM可以显著促进对文本情态中情感的理解(Wang et al, 2022)。情感分析(MISA)的模态不变和特定表征框架(Hazarika et al ., 2020)将每个模态投影到两个子空间中,以学习模态不变和模态特定表征,并融合这两种表征来预测情绪。交互典型相关网络(ICCN) (Sun et al ., 2020)使用典型相关来分析隐藏的文本、音频和视频关系。自监督多任务多模态情感分析网络(Self-MM) (Yu et al ., 2021)设计了一种单模态标签生成策略来获得单模态标签,并引入单模态子任务,通过多任务框架帮助学习特定于模态的表征。多模态自适应门网络(multi - modal Adaptation Gate network, MAG-BERT) (Rahman et al, 2020)利用声学和视觉特征,通过对齐的非语言行为信息来丰富语言特征,使BERT能够适应多模态输入。我们的方法可以从未对齐的非语言数据中捕获异步情感线索,以增强文本表示,但MAG-BERT只能处理对齐的数据。在对齐数据方面,双双峰融合网络(BBFN) (Han等人,2021)分离和融合每个模态的表示,通过额外的任务损失来预测情绪。BBFN的部分动机与我们相似,使用非语言情态信息来增强语言情态。BBFN学习两对与文本相关的表征,即文本-声学和文本-视觉,通过迫使每对模式相互补充。而FNENet利用VQ策略对非语言情态特征进行了改造,并与SF机制相融合。此外,BBFN使用多任务学习来增强模型的性能,因此有必要计算多任务损失。fneenet基于单任务学习,只设计一个任务损失。在数据使用方面,BBFN用于对齐的数据,而我们的用于未对齐的数据。一般来说,自然情况下的模态是不对齐的,这意味着我们的模型比BBFN更具通用性。自适应多模态元学习(AMML) (Sun, Mai, & Hu, 2023)引入了一种基于元学习的方法来学习更好的单模态表示,并使其适应随后的多模态融合。高效多模态转换(Efficient Multimodal Transformer, EMT) (Sun, Lian, Liu, & Tao, 2023)提出了一个通用和统一的框架,将每个