论文阅读 UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition论文阅读

论文阅读 UniMSE:面向统一的多模态情感分析与情感识别

摘要

多模态情感分析(MSA)和会话情感识别(ERC)是计算机理解人类行为的关键研究课题。从心理学的角度来看,情绪是在短时间内情感或感觉的表达,而情绪是在较长时间内形成并保持的。现有大多是将情感与情绪分开研究,并没有充分挖掘二者背后的互补知识。在本文中,我们提出了一个多模态情感知识共享框架(UniMSE),该框架将MSA和ERC任务从特征、标签和模型中统一起来。我们在句法和语义层面进行情态融合,并在情态和样本之间引入对比学习,以更好地捕捉情感和情绪之间的差异和一致性。在MOSI、MOSEI、MELD和IEMOCAP四个公共基准数据集上的实验证明了该方法的有效性,并与最先进的方法相比取得了持续的改进。
图1:情感与情感共享统一嵌入空间的示意图。底部是根据情绪极性相同的样本之间的相似度sim将情绪和情绪形式化后的统一标签图1:情感与情感共享统一嵌入空间的示意图。底部是根据情绪极性相同的样本之间的相似度sim将情绪和情绪形式化后的统一标签

简介

MSA的目标是预测情绪强度或极性,ERC的目标是预测预定义的情绪类别,,在图1中,说明了情感和情绪是如何在语言或非语言中相关的,并且可以被投射到一个统一的嵌入空间中

提出了一种基于统一MSA和ERC (UniMSE)任务的多模态情感知识共享框架。UniMSE将MSA和ERC重新定义为生成任务,统一输入、输出和任务。提取和统一音视频特征,将MSA和ERC标签形式化为UL (Universal labels),统一情感和情感。

之前在多层级文本特征的多模态融合方面的研究(Peters等人,2018;Vaswani等人,2017),就像语法和语义一样,缺乏。因此,我们提出了一种预训练的模态融合层(PMF),并将其嵌入到Transformer (Vaswani et al., 2017) T5层(Raffel et al., 2020)中,该层融合了具有不同层次文本特征的声视觉信息,以探测更丰富的信息。最后但并非最不重要的是,我们执行跨模式对比学习(CL),以最小化类内方差和最大化不同模式的类间方差。

工作主要包括:
1.提出了一个多模态情感知识共享框架2 (UniMSE),该框架将MSA和ERC任务统一起来。该方法利用情感和情绪之间的相似性和互补性,以更好地预测。
2. 通过在T5模型中注入听觉和视觉信号,融合了多层文本信息的多模态表示。同时,我们利用跨模态对比学习来获得判别多模态表示。
3.实验结果表明,对于MSA和ERC任务,UniMSE在MOSI、MOSEI、MELD和IEMOCAP四个公共基准数据集上都取得了较好的性能。
4. 据我们所知,我们是第一个以生成方式解决MSA和ERC问题的公司,也是第一个在MSA和ERC任务中使用统一音频和视频功能的公司。

在这里插入图片描述

方法

整体架构

如图2所示,UniMSE包括任务形式化、预训练模态融合和跨模态对比学习。首先,我们脱机将MSA和ERC任务的标签处理成通用标签(UL)格式。然后利用统一的数据集特征提取器分别提取音频和视频特征。在获得音频和视频特征后,我们将它们输入到两个独立的lstm中,以利用长期上下文信息。对于文本模态,我们使用T5作为编码器来学习序列的上下文信息。与之前的工作不同,我们在T5中嵌入了多模态融合层,在T5的几个Transformer层中,每个层都遵循前馈层。此外,我们还进行了多模态对比学习来区分样本间的多模态融合表示。具体来说,对比学习的目的是缩小同一样本的模态之间的差距,并进一步缩小不同样本的模态表征。

任务规范化

给定多模态信号 I i = { I i t , I i a , I i v } I_{i}=\left\{I_{i}^{t}, I_{i}^{a}, I_{i}^{v}\right\} Ii={Iit,Iia,Iiv},用 I i m I_{i}^{m}{\normalsize } Iim, m∈{t, a, v}表示从视频片段i中提取的单模态原始序列,其中{t, a, v}表示文本、听觉和视觉三种模态。MSA的目标是预测反映情感强度的真实数字 y i r y_{i}^{r}{\normalsize } yir∈R, ERC的目标是预测每个话语的情感类别。MSA和ERC通过任务形式化实现了输入特征、模型结构和标签空间的统一。任务形式化包括输入形式化和标签形式化,其中输入形式化用于处理对话文本和模态特征,标签形式化用于统一MSA和ERC任务,将它们的标签转换为通用标签。将MSA和ERC形式化为生成任务,将它们统一在一个单一的体系结构中。

输入规范化

将当前的话语ui与之前的2次转换的话语{ui−1,ui−2}以及之后的2次转换的话语{ui+1, ui+2}连接起来作为原始文本。此外,设置片段id S i t S_{i}^{t}{\normalsize } Sit以区分话语ui及其文本形态的上下文:
I i t = [ u i − 2 , u i − 1 , u i , u i + 1 , u i + 2 ] S i t = [ 0 , ⋯   , 0 ⏟ u i − 2 , u i − 1 , 1 , ⋯   , 1 ⏟ u i , 0 , ⋯   , 0 ⏟ u i + 1 , u i + 2 ] \begin{array}{l}I_{i}^{t}=\left[u_{i-2}, u_{i-1}, u_{i}, u_{i+1}, u_{i+2}\right] \\S_{i}^{t}=[\underbrace{0, \cdots, 0}_{u_{i-2}, u_{i-1}}, \underbrace{1, \cdots, 1}_{u_{i}}, \underbrace{0, \cdots, 0}_{u_{i+1}, u_{i+2}}]\end{array} Iit=[ui2,ui1,ui,ui+1,ui+2]Sit=[ui2,ui1 0,,0,ui 1,,1,ui+1,ui+2 0,,0]
I i t I_{i}^{t}{\normalsize } Iit作为Ii的文本形态。利用librosa 3将原始声信号处理成数值序列向量,提取mel谱图作为音频特征。对于视频,从每个片段中提取固定的T帧,并使用effecentnet (Tan and Le, 2019)在VGGface 4和AFEW数据集上进行预训练(监督)来获取视频特征。

标签规范化

设计了一种通用标签(universal label, UL)方案,并将UL作为UniMSE的目标序列。将MSA和ERC的样本根据其情绪极性分为正、中性和负三个样本集。然后计算两个情绪极性相同但属于不同标注方案的样本的相似度,从而弥补通用标注中缺失的部分。图3中展示了一个示例。对于MSA样本m2,其情绪为积极情绪,注释得分为1.6。对于通用标签的格式,m2缺乏情感类别标签。在本例中,e1与m2的语义相似度最大,因此我们将e1的情绪类别指定为m2的情绪类别。
图3:通用标签(universal label, UL)的生成过程,红色虚线表示e1是与m2语义相似度最大的样本。

预训练模式融合(PMF)

使用一个预训练模型(如T5)作为文本编码器,将多模态融合层嵌入到预训练模型中。这样,听觉和视觉信号就可以参与到文本编码中,并与多级文本信息进行融合。由浅层 Transformer层编码的低级文本语法特征和由深层 Transformer层编码的高级文本语义特征(Peters等人,2018;Vaswani等人,2017)将音频和视频特征融合成多模态表示。使用T5作为UniMSE的骨干。T5包含多个堆叠的Transformer层,编码器和解码器的每个Transformer层都包含一个前馈层。多模态融合层设置在前馈层之后。本质上,T5第一变压器层的PMF单元接收到一个三元组 M i = ( X i t , X i a , X i v ) M_{i}=\left(X_{i}^{t}, X_{i}^{a}, X_{i}^{v}\right) Mi=(Xit,Xia,Xiv)作为输入,其中 X i m ∈ R l m × d m X_{i}^{m} \in R^{l_{m} \times d_{m}} XimRlm×dm表示 I i m I_{i}^{m} Iim的模态表示,m∈{t, a, v}, lm和dm分别为模态m的序列长度和表示维数。将多模态融合层视为一个适配器(Houlsby等人,2019),并将其插入T5模型,以优化多模态融合的具体参数。多模态融合层接收模态表示三元组Mi,并将多模态连接表示的大小映射回该层的输入大小。具体来说,我们将这三种模态表示连接起来,然后将这些连接提供给下投影层和上投影层,以融合表示。对于第j个PMF,多模态融合为:
F i = [ F i ( j − 1 ) ⋅ X i a , l a ⋅ X i v , l v ] F i d = σ ( W d F i + b d ) F i u = W u F i d + b u F i ( j ) = W ( F i u ⊙ F i ( j − 1 ) ) \begin{array}{l}F_{i}=\left[F_{i}^{(j-1)} \cdot X_{i}^{a, l_{a}} \cdot X_{i}^{v, l_{v}}\right] \\F_{i}^{d}=\sigma\left(W^{d} F_{i}+b^{d}\right) \\F_{i}^{u}=W^{u} F_{i}^{d}+b^{u} \\F_{i}^{(j)}=W\left(F_{i}^{u} \odot F_{i}^{(j-1)}\right)\end{array} Fi=[Fi(j1)Xia,laXiv,lv]Fid=σ(WdFi+bd)Fiu=WuFid+buFi(j)=W(FiuFi(j1))
其中 X i a , l a X_{i}^{a, l_{a}} Xia,la, X i v , l v X_{i}^{v, l_{v}} Xiv,lv∈R1×dv分别是 X i a X_{i}^{a} Xia X i v X_{i}^{v} Xiv的上次步隐态.分别是由两个独立的lstm编码的声和视觉通道表示。[·]为特征dim上的串接运算,σ为Sigmoid函数,{Wd,Wu,W, bd, bu}为可学习参数。F(0) i = Xt i, Xt i为T5第1层Transformer编码后的文本表示,F(j−1)i为(j−1)Transformer层后的融合表示。 ⊙ \odot 表示元素相加。融合层的输出然后直接传递到下面的层归一化(Ba et al., 2016)。

模态间对比学习

通过一维卷积将每个模态表示处理为相同的序列长度。
将文本模态作为锚定,其他两种模态作为其扩充版本。每个锚点的一批随机采样对由2对正对和2K对负对组成。其中,正样本为同一样本中文本与对应声学组成的模态对,以及同一样本中文本与对应视觉组成的模态对。反面的例子是由文本和其他样本的另外两个模态组成的模态对。对于每个锚样,自我监督的对比损耗公式如下:
在这里插入图片描述式中Lta,j, Ltv,j分别表示编码器第j个Transformer层的文本声学和文本视觉的对比损耗。

训练阶段,使用负对数似然优化模型,该模型以通用标签作为目标序列。总体损失函数可以表示为:
在这里插入图片描述式中,Ltask为生成任务损耗,j为编码器变压器层的指标,{α, β}为0 ~ 1之间的小数,表示权重值。此外,在推理过程中,我们使用解码算法5将输出序列转换为MSA的实数和ERC的情感类别。

实验

评估指标

对于MOSI和MOSEI,采用平均绝对误差(MAE)、皮尔逊相关性(Corr)、七类分类精度(ACC-7)、二值分类精度(ACC-2)和正/负分类和非负/负分类计算的F1分数作为评价指标。对于MELD和IEMOCAP,使用精度(ACC)和加权F1 (WF1)进行评估。

结果

在这里插入图片描述

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值