论文阅读——《Mitigating Inconsistencies in Multimodal Sentiment Analysis underUncertain Missing Modaliti》

Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

减轻不确定缺失模态下多模态情感分析的不一致

摘要

对于多模态情感分析(MSA)中的模态缺失问题,当情感因模态缺失而发生变化时,就会出现不一致现象。 决定整体语义的缺失模态可以被视为关键缺失模态。 然而,以前的工作都忽略了不一致现象,只是丢弃缺失的模态或仅从可用模态生成相关特征。 忽略关键缺失模态情况可能会导致错误的语义结果。 为了解决这个问题,提出了一种基于集成的缺失模态重建(EMMR)网络来检测和恢复关键缺失模态的语义特征。 具体来说,首先通过backbone encoder-decoder网络学习剩余模态的联合表示。 然后,根据恢复的特征,我们检查语义一致性,以确定缺失的模态是否对整体情感极性至关重要。 一旦存在由于关键缺失模态导致的不一致问题,我们将集成多种编码器-解码器方法以做出更好的决策。 在CMU-MOSI和IEMOCAP数据集上进行了大量的实验和分析,验证了该方法的优越性。

Introduction

在本文中,通过提供一种集成解决方案来解决上述挑战,该解决方案可以准确检测和恢复关键缺失模态的特征。 更具体地说,提出了一种基于集成的缺失模态重建(EMMR)网络来处理不一致问题并进一步提高性能。 所提出的 EMMR 由一个backbone网络组成,该网络利用编码器-解码器结构来恢复缺失的模态特征。 此外,为了区分关键丢失的模态,我们将恢复的完整模态的语义与原始可用模态进行比较,以检查它们的一致性。然后为了减轻不一致,我们聚合了基于自动编码器(AE)和基于变换器的编码器-解码器 以整体方式接近。 这种策略自然地扩展了特征搜索空间,因此更适合做出连贯的决策。 正如预期并将通过实验验证,所提出的 EMMR 在两个基准数据集上显着优于几个最先进的基线。 我们的主要贡献总结如下:

Related Works

Missing Modality Problem in MSA

Ensemble Learning

集成学习旨在通过组合多个基础模型来获得比单个模型更好的预测性能。 近年来,集成技术在许多NLP中得到应用任务。 主要思想是,权衡和汇总多种意见比选择一个人的意见更好。 具体来说,李等人用随机种子生成多个候选结果,然后训练融合分类器以提高情感识别性能。 此外Duan 等人利用权重调制技术开发了一种用于数据多样性的集成语言模型。 沿着这条线,在本文中,我们汇总了集成学习的几种重建方法,以在表达不同情绪时权衡不同的模式,并进一步减轻与更好的预测性能的不一致性。

Methodology

主要任务是根据可用的模式对总体情绪(积极、中立或消极)进行分类。

Backbone Network

 

它首先由多头注意力(MHA)模块编码,然后经历两个分支:1)一个由预训练网络编码,该网络经过所有完整模式的训练,并且 2)另一个通过编码器-解码器网络获得相应的输出,其中编码器输出用于情感分类。 最后,计算前向相似性损失和后向重建损失来监督联合特征的学习过程。

Feature Extraction

在被 MHA 模块处理之前,我们为每种模态提取特征如下: 视觉表示:遵循(Yu et al., 2010;Zeng et al., 2022),我们还采用 OpenFace2.0 工具包(Baltrusaitis et al., 2018)获得709维的视觉表示,除了帧号、face_id和时间戳等不相关属性的数据。 文本表示:对于每个文本话语,预训练的Bert(Devlin et al., 2019) 利用(12层,768隐藏,12头)来获取768维的词向量。 声学表示:采用Librosa(McFee et al.,2015)来提取33维声学特征,包括过零率、梅尔倒谱系数(MFCC)和常Q变换(CQT)等属性。

Pre-trained Network

具有完整模态的预训练网络用于指导缺失模式的学习过程。 具体来说,我们首先连接三个完整的模态,然后将它们输入到 softmax 分类器中进行训练。

注意到一旦具有完整模态的模型经过良好训练,我们就会在整个训练阶段修复预训练的网络。

Encoder-Decoder Network

由于集成学习融合了多个模型的信息知识,并以自适应方式实现了更好的预测性能,因此可以有效缓解不一致现象。 在我们的方案中,自动编码器(AE),缺失模态想象网络(MMIN)和基于 Transformer 的编码器-解码器模型(TF)进行决策。 我们现在一一介绍。

AE

AE 是经过训练将其输入复制到输出的网络。 具体来说,我们采用尺寸为[300,256,128,64,128,256,300]的全连接(FC)层

MMIN

MMIN采用级联残差自动编码器(CRA)(Tran et al., 2017)结构,具有一组残差自动编码器(RA)。 具体来说,我们在AE中采用相同层设置5个RA。

TF

Transformer架构遵循编码器解码器结构,可以有效地处理顺序输入数据。

Ensemble

如前所述,当由于 MSA 中缺乏模态而导致情绪发生变化时,就会出现不一致现象。 基于这种现象,我们利用不一致性来确定缺席模态是否对整体情绪极性至关重要。 具体来说,我们首先结合每两种模态来获取相应的情感标签:

当恢复的完整模态的情感标签与剩余可用模态的语义不相等时,缺失的模态可以被认为是关键缺失模态。为了获得一直的预测结果,应该减轻不一致现象。 处理缺失关键形态问题的一个直接方法是投票。 然而,每种方式的重要性是不同的。如图3(a)所示,我们建议根据其最大逻辑值来分配权重

如图 3(b) 所示,我们首先使用 TF 编码器解码器将输入馈送到骨干网络中。 然后,根据恢复的特征,我们检查恢复的完整模态与原始可用模态之间的语义一致性。 一旦它们与缺席模态不一致或不一致,我们就会整合 TF、AE 和 MMIN 以进行进一步决策。 考虑到集成学习中多种方法的整体性能会优于单一方法,我们根据相应的注意力权重组合了三个提取的特征。

代码

1. 输入

        初始输入每个样本有三个模态,
        audio:  33维; 


          visual:

        

        text:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值