【情感计算翻译】

原文链接:Deep Emotional Arousal Network for Multimodal Sentiment Analysis and Emotion Recognition - ScienceDirectDeep Emotional Arousal Network for Multimodal Sentiment Analysis and Emotion Recognition——用于多模态情感分析和情绪识别的深度情感唤醒网络

【摘要】

       多模态情感分析和情感识别已成为一个日益热门的研究领域,其中最大的挑战是有效地融合来自不同模态的输入信息。最近的成功很大程度上归功于基于注意力的模型,例如transformer及其变体。然而,基于注意力的机制由于其平行结构,往往忽视了人类情感的连贯性。受认知科学中情绪唤醒模型的启发,该文提出一种能够模拟情绪连贯性的深度情绪唤醒网络(DEAN),将时间依赖性融入Transformer的并联结构中。所提出的DEAN模型由3个部分组成,即设计了一种跨模态变换器来模拟人类感知分析系统的功能;该文开发了一种多模态BiLSTM系统来模拟认知比较器,并引入多模态门控块来模拟人类情绪唤醒模型中的激活机制。我们对多模态情感分析和情感识别的三个基准进行了广泛的比较和消融研究。实证结果表明,DEAN取得了最先进的性能,并从中得出了有用的见解。

【1】介绍

       人类的情绪由神经元回路控制,神经元回路收集情绪信息,通过生理唤醒产生情绪行为[1]。在大多数沟通场景中,人们通常需要将基于语言的情感分析和情感识别扩展到多模态设置[2,3]。

       Transformer(Vaswani等人,2017)及其变体([4];Lan et al., 2019)最近在多模态情感分析和情感识别方面越来越受欢迎[5,6]。这些基于注意力的方法可以直接对每两个话语之间的全局依赖关系进行建模,也可以在并行结构中实现。因此,通过减少顺序计算的约束,大规模处理依赖序列是很强大的。然而,仍然存在三个主要挑战: 

     (a)基于注意力的融合策略由于其平行结构而无法模拟情绪的连贯性。一般来说,现在的人类情绪通常受到过去情绪记忆的影响。如图1所示,叙述者的积极情绪随着时间的流逝而从连续的片段中变得越来越明显;

     (b)现有的基于注意力的模型通常忽略了通过简单串联来区分不同情态([5]),而前人研究的实验结果表明,不同的情态对分类结果的影响不同,语言情态的影响往往大于视觉和听觉。 

       更重要的是,大多数多模态模型的准确性很大程度上取决于融合策略。因此,与其在融合策略上投入大量精力,不如通过模拟具有多模态输入的人类通信来探索一个完整的框架。

       受心理学中的情绪唤醒模型[8]的启发,本文提出了一种深度情绪唤醒网络(DEAN)来应对上述挑战。DEAN由三个组件组成:跨模态变压器、多模态BiLSTM系统和多模态门控模块。这些组件旨在分别模拟感知分析系统、认知比较器和激活机制在人类心理情绪唤醒中的作用(见图2)。

 

       跨模态Transformer通过采用改进的自注意力机制和串扰头注意力来探索模态之间的空间相互作用力。多模态BiLSTM系统通过利用双向LSTM(长短期记忆)网络对情绪的连贯性进行建模,使DEAN能够捕捉模态之间的时间相互作用。多模态门控模块通过自适应控制门控系统的输出,隐式地执行多模态信息的融合。DEAN试图提供一个完整的框架和另一种想法,引导学习系统沿着类似人类的道路前进,从而逐步获得对人类情感的复杂理解。为了进行评估,我们使用 CMU-MOSI、CMU-MOSEI 和 IEMOCAP 数据集进行了广泛的实验和消融研究,以进行多模态情感分析和情感识别。实验结果表明,DEAN在这些基准数据集上取得了最先进的性能。

       为了进行评估,我们使用 CMU-MOSI、CMU-MOSEI 和 IEMOCAP 数据集进行了广泛的实验和消融研究,以进行多模态情感分析和情感识别。实验结果表明,DEAN在这些基准数据集上取得了最先进的性能。 

【2】相关研究

       多模态情感分析和情感识别的目的是预测每个多模态输入的情感或情感标签。关键的挑战在于多模态输入的融合策略,这可以通过与模型无关或基于模型的方法来实现。与模型无关的融合方法包括早期、晚期和混合融合,不涉及特定的分类器或回归模型。相反,基于模型的方法通过融合模型构建来解决多模态融合问题。

       与模型无关的融合方法:与模型无关的融合方法根据多模态输入的融合方式,可分为早期、晚期和混合融合策略。早期融合策略,也称为特征级融合,通常依靠通用模型来学习代表性特征,然后通过串联或加权组合简单地将提取的特征进行集成。由于深度学习具有强大的表示能力,最近提出的早期融合策略通常采用卷积神经网络(CNN)[9]、[10]、[11]、LSTM模型[12,13]或循环神经网络(RNN)[14,15] ] 进行特征提取。 

       然而,这些早期融合策略在解决模态内动态方面是无效的。此外,基于深度学习的早期融合策略由于其庞大的网络结构,往往会受到过拟合问题的影响。晚期融合策略为每个模态独立设计一个分类器,并通过平均、加权和或投票来聚合每个分类器的输出[2,16]。混合聚变策略[17]结合了基于每个单峰预测的早期聚变和后期聚变的优点,通常优于早期或后期聚变策略[18]。然而,所有这些融合策略都缺乏对模态间动态进行建模的能力,因为融合策略背后的动力学比决策投票复杂得多。因此,融合策略仍然是情感分析和情感识别的主要挑战。

       基于模型的融合方法:基于模型的融合方法的早期例子包括多核学习(Gönen和Ethem,2011),双线性融合[19]图形模型[20]。近期基于模型的融合方法主要包括:

 (1)基于张量的融合,具有张量融合网络(TFN)[21]、低秩多模态融合(LMF)[2]和局部受限模态融合网络[22]的代表模型; (2)基于翻译的融合,例如模态翻译模型(MCTN)[23]和Seq2Seq 模态翻译模型( SSMT)[24];(3)基于注意力的融合,利用各种注意力机制组件来融合模态。例如,多注意力循环网络(MARN)(Zadeh等人,2018)使用多注意力块对模态之间的相互作用进行建模,并将它们存储在混合记忆中。多模态变压器(MulT)[5]通过前馈融合过程合并来自多个定向模态变压器的多模态信息。Recurrent Attended Variation Embedding Network(RAVEN)[25]通过根据非语言行为的模式改变单词表示来构建人类语言。详细的实验结果表明与其他基于模型的融合方法相比,基于注意力的融合方法提高了情感分析和情感识别任务的性能。原因是基于注意力的融合方法可以隐式地模拟不同模态的动力学间和动力学内动力学。

       然而,大多数基于注意力的方法(通常使用Transformer建模[5,6,25])由于其平行结构而忽略了人类情感的连贯性。此外,大多数现有的基于注意力的机制都忽略了通过简单的串联来区分不同的模式[5]。

       受心理学中情绪唤醒模型的启发,该文提出了一种深度情绪唤醒网络(DEAN)。DEAN模型为多模态情感分析和情感识别构建了一个完整的框架。DEAN中的组件结合了像人类一样理解多模态通信的能力。

       DEAN的优点是:(1)通过将瞬态相互作用引入Transformer的并行结构来模拟情感连贯性;(2)通过嵌入多模态门控机制来识别不同模态的区别;(3)基于人类生理学模型,为人类多模态信息交流提供整体框架。在三个基准数据集上进行了广泛的性能评估实验和消融研究。实验结果表明,DEAN在这些基准问题上的表现优于现有模型。

【3】深度情感唤醒网络

 在本节中,我们将详细解释所提出的DEAN模型。具体来说,DEAN 由三个主要部分组成:

  • a 跨模态转换器:该模块模拟生理学中已建立的人类情绪唤醒模型的第一个子系统。更具体地说,利用注意力机制,采用三对跨模态变换器(图2 b)对模态间和模态内的相互作用进行建模。注意力权重较高的模式具有更大的重要性。
  • b 多模态BiLSTM系统:这种时间结构用于对心理情绪唤醒模型中的认知比较器进行建模。该过程包括三个步骤:(i) 通过应用双向 LSTM 网络从每个多模态输入中提取上下文相关特征,该网络对模态之间在时间上的相互依赖关系进行建模;(ii)将当前提取的特征与过去记忆的特征进行比较;(iii)实施时间序列中的信息传递,以模仿情感的连贯性。
  •  c 多模态门控块:采用该门控块来模仿心理情绪唤醒模型中激活机制的功能。它能够根据目标模态的重要性,通过控制目标模态的输出信息,区分和融合来自每个单模态的信息。

【3.1】跨模态 Transformer 模块

       受基于Transformer的方法在自然语言处理方面的成功启发,在DEAN中采用并改进了跨模态Transformer[5]模块,以模拟人类神经系统中的多通道感知分析过程。该模块通过前馈融合过程隐式融合多模态输入。它基于成对的跨模态注意力机制,可以探索多模态输入之间的相互作用,并直接从对齐的多模态流中学习表示。对于未对齐的多模态输入,采用一维时间卷积层作为预处理器,使多模态输入对齐。

       DEAN的跨模态Transformer利用注意力机制在低特征层面用其他模态增强目标模态。由于高性能和与基本注意力相似的计算成本[26],多头注意力通常用于基于变换的模型进行多模态情感分析和情感识别。然而,随着头数的增加,查询向量和键向量变得如此低维,以至于它们的点积不再构成信息匹配函数。因此,通过在注意力头之间插入线性投影来引入串扰注意力机制,使每个注意力头依赖于所有键和查询。由于本文考虑了三种模态(即语言、视觉和听觉),因此DEAN中包括了六种跨模态变压器(图2b)。以V→L的跨模态Transformer为例(图3),将语言模态(L)和视觉模态(V)分别设置为目标和辅助对应物。视觉情态 XV 的嵌入特征用于通过学习 L 和 V 特征的注意力来强化语言情态 XL。例如,语言和视觉模态对的相扰注意力可以通过方程来表述。(1)-(3).

​       其中 QLi、KVi 和 VVi 是第 i 个注意力头的对应查询、键和值向量,i = 1, 2, ..., h. XLi ∈∗ R∗T×d 和 XVi ∈ ∗R∗T×d 分别是注意力头 i 的语言和视觉模态的对齐输入嵌入特征;WQi ∈∗ R∗d×dk、WKi ∈∗ R∗d×dk 和 WVi ∈∗ R∗d×dv 是要学习的权重参数;̅̅̅̅̅ DK √ 是一个比例因子;Wth ∈∗ R∗T×T×h 是跨注意力头的参数张量,Wthi ∈∗ R∗T×T 是每个注意力头的参数矩阵。CroTA ∈∗ R∗T×dv 是串扰注意力的输出,它是所有 h 注意力头输出串联的线性投影。 

       为了将目标模态的初始信息与其他模态强化的信息保持在一起,在跨模态注意力之后,利用式(4)在交叉模态注意后加入残差连接结构[27],其中LaNorm表示层归一化[28]。

       因此,̃ XV→L 的融合特征包含来自目标模态和其他模态提供的强制补充的信息。为了学习跨模态的更有意义的交互,将 ̃ XV→L 用作前馈网络 FFN 的输入。它通过其残差进行增强,以通过使用方程产生 V→L 的跨模态 Transformer 的输出,即 XV→L。(5)和(6)

       以类似的方式,得到了A→L的跨模态Transformer的输出,表示为XA→L。然后,语言模态的输出及其与其他模态的整体交互由式(7)定义。

       每对跨模态变压器分别用于模拟不同模态之间的交互。因此,通过方程获得与不同目标模态相关的每个成对融合结果的输出。(8)和(9)。

       式中,YL∈∗R∗T×2dv、YV∈∗R∗T×2dv和YA∈∗R∗T×2dv分别表示不同跨模态变压器经其他辅助模态增强后的输出。

【3.2】多模态BiLSTM系统

       人类的情感在时间上是连贯的。当下的情绪变化,往往受到其过去的情绪记忆的影响。由于LSTM网络在捕获长距离语义依赖方面的优势,它被用于模仿心理情绪唤醒模型中比较器的功能。在DEAN中,其多模态BiLSTM系统(图4)可以通过利用训练样本中的前向和后向语义依赖性来学习每种模态的顺序模式。因此,它能够通过放大记忆中关键因素的贡献来捕捉情绪的连贯性。

       设 Ym t 是第 m 个跨模态转换器在时间 t 的输出,其中 m ∈{Language, Visual, Audio}。Ym t 通过输入门,以双向方式忘记LSTM的门和输出门。将其与内存中的 Tm t-1 进行比较,以产生输出 Tm t 。LSTM在时间t时以前向和后向方式的输出被连接起来,形成BiLSTM模块的输出。LSTM 的输出由 Eqs 更新。(10)-(15).

       其中,itm、f、mt和otm分别表示LSTM的输入门、遗忘门和输出门,分别表示时间t的m-th模态,Wm i、Wm f、Wm o、Wm ̃c为对应的权重矩阵,⊙表示Hadamard积(元素积),σ表示Sigmoid激活函数。多模态BiLSTM模块的输出分别用TL ∈∗ R∗T×dL、TV ∈∗ R∗T×dV、TA∈∗R∗T×dA表示。它连接了前向和后向LSTM模型的输出,保证了多模态的时间交互。BiLSTM对每个模态的输入来自其对应的跨模态Transformer在时间步长t的输出,保留了不同模态的空间相互作用。因此,多模态BiLSTM系统从空间和时间的角度捕捉了模态内和模态间的动态。

【3.3】多模态门模块

       构建了多模态门控块(图5)来模拟人类情绪唤醒模型的激活机制。该模块通过隐式考虑其重要性来强化目标模态并控制每个目标模态的输出。 

      首先,通过3个前馈神经网络构造的3个门对TL、TV、TA的串联进行滤波,得到各模态的权重向量。因此,通过考虑不同模态的区别,可以得到多模态门控块的输出。该过程是使用 Eqs 实现的。(16)-(20). 

       其中 γL ∈∗ R∗T×dL、γV ∈∗ R∗T×dV、γA ∈∗ R∗T×dA 分别表示基于门控机制的每种目标模态的输出。DEAN的信息流如下算法所示。

【4】实验

【4.1】数据集 

       为了评估所提出的DEAN模型的有效性,使用与多模态情感分析和多模态情感识别相关的三个基准问题进行了广泛的实验。对于情感分析任务,选择CMU-MOSI和CMU-MOSEI作为基准数据集,而对于情感识别任务,则使用IEMOCAP数据集进行性能评估和比较。

       CMU-MOSI由YouTube上来自不同国家背景的89位演讲者的2,199个简短的独白视频剪辑组成。分别以15 Hz和12.5 Hz的采样率提取CMU-MOSI的声学和视觉特征,并按字分割文本数据。CMU-MOSEI有3,228个独白视频剪辑,包含少量角色,总共65小时。两个数据集(MOSI 和 MOSEI)都以 [-3,3] 的连续尺度进行了标记。IEMOCAP 数据集涵盖了 10 名演员的 302 个视频会话,持续时间长达 11 小时。每个部分都有相应的情绪标签,即愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、快乐、失望和中立。

【4.2】基线模型

       将DEAN在多模态情感分析和情感识别方面的表现与7个最新模型的性能进行了比较。这些基线模型涵盖了近年来提出的多模态情感分析和情感识别模型的主要类别,包括基于LSTM的融合模型、基于张量的模型、基于记忆的模型、基于注意力的模型和其他新型模型。

       BC-LSTM(Bidirectional Contextual LSTM)[2]是一种多模态情感分析模型,用于捕获视频中的上下文信息,其中常规LSTM被双向LSTM取代。

       TFN(张量融合网络)[21]是一种基于张量的融合模型,它显式聚合了单模态、双模态和三模态的相互作用,并通过创建多维张量来捕获特定于视图和交叉视图的动态。

       MFN(Memory Fusion Network)[29]是一种基于内存的融合网络,用于构建多模态门控存储器。该网络由Delta-memory注意力网络、Multi-view Munated Memory和LSTMs系统组成,其中存储单元随着三个单模态LSTM模块中隐藏状态的演变而更新。

       Graph-MFN(Graph Memory Fusion Network)[30]基于MFN的循环架构,使用动态融合图对跨模态交互进行建模。Graph-MFN 将 MFN 中的 Delta 内存注意力网络替换为 Dynamic Fusion Graph,使网络更具可解释性。

       RAVEN(Recurrent Attended Variation Embedding Network)[25]使用基于视觉和听觉模态的多模态移位词表示。它有效地模拟了非语言语境中词表示空间的动态变化。

       MulT(Multimodal Transformer)[5]使用Transformer结构对未对齐的多模态序列相互作用进行建模。它在 CMU-MOSI、CMU-MOSEI 和 IEMOCAP 数据集上取得了更好的性能。

       QMN(类量子多模态网络)[31]利用量子理论(QT)的数学形式和LSTM网络来捕获来自不同说话者的不同模态之间的相互作用。QMN由多模态决策融合方法和强/弱影响模型组成,用于表示话语内部/话语之间的交互。

 【5】结果与讨论

       使用CMU-MOSI和CMU-MOSEI进行多模态情感分析,使用IEMOCAP进行情感识别。每个数据集分别分为 70% 用于训练、10% 用于验证和 20% 用于测试。

       多模态情感分析的比较结果分别如图 6 和图 7 所示,最佳得分以粗体突出显示。DEAN 的结果是通过平均 40 次运行来计算的。DEAN 的最佳超参数是ldim = vdim= adim= 30,批量大小 bs = 24,头数 h = 5,学习率 lr = 0.001。

       图6显示,DEAN在区分更细粒度的人类情绪方面优于其他方法。这是由于DEAN能够捕捉人类情绪唤醒模型的特征。这种能力与发表在《科学》杂志上的一篇文章中的说法一致,即“目前尚不清楚生物电路的哪些方面在计算上是必不可少的,并且可能对基于网络的人工智能系统有用,但结构上的差异是突出的。(Ullman 等人, [32])。将深度学习与类脑先天结构相结合,使DEAN能够处理多模态输入之间的复杂交互。从图 6 中,我们注意到 DEAN 与 CMU-MOSI 数据集上的 MulT 相比,ACC7 增加了 2.2%,MAE 降低了 1.8。图7显示了DEAN在CMU-MOSEI数据集上取得了出色的性能。

       为了获得细粒度的情绪理解,我们使用IEMOCAP数据集进行了额外的情绪识别实验。实验结果如表1所示。DEAN在快乐、愤怒和中性情绪类别中取得了更好的分数,与最先进的方法相比,除了悲伤类别。对于这种悲伤的情绪,基于记忆的模型在所有比较模型中得分最高。识别神经情绪是所有模型中最具挑战性的任务,如表1所示。

【5.1】消融实验

       在本节中,对 CMU-MOSEI 和 CMU-MOSI 数据集进行了各种消融研究。目的是:(1)揭示每个模块对所提出模型的影响,(2)调查每种模态的重要性,(3)探索模态之间的相互作用。

【5.1.1】每个模块对所提出模型的影响

       为了研究DEAN每个模块的影响,我们逐渐从DEAN中删除每个组件,如下所示。

       DEAN:以最初提出的模型为基准,由(1)跨模态变压器、(2)多模态BiLSTM系统和(3)多模态门控模块三个模块组成。

       不带门的 DEAN:多模态门控块从 DEAN 中移除。在这种情况下,该模型类似于基于注意力的LSTM模型[31],该模型缺乏控制目标模态输出的能力。从心理学的角度来看,DEAN without GATE类似于联觉失衡后患者的知觉重组。

       不带 BiLSTM 的 DEAN:从 DEAN 中删除了多模态 BiLSTM 系统。输出仅实现了多模态信息的空间融合,而忽略了时间融合信息。它旨在评估模态之间时空融合的重要性。

       DEAN without BiLSTM & GATE:从 DEAN 中删除多模态门控块和多模态 BiLSTM 系统会产生基于注意力的融合模型。在这种情况下,我们可以探讨 Transformer(即跨模态 Transformer 模块)是否可以完全取代顺序建模中的 RNN 模型。

       表2表3显示了用于CMU-MOSI情感分析的消融研究的实验结果。对比结果表明,在跨模态变压器上有串扰注意力的DEAN模型均优于没有串扰注意力的DEAN模型。具有所有模块的 DEAN 在所有指标上都取得了最佳结果。以具有串扰注意力的Acc7为例,从表2中可以看出,不带BiLSTM的DEAN和不带GATE的DEAN的准确率分别降低了51.6%和52.0%,而DEAN的准确率分别为52.3%。表3显示了类似的结果。这一实证结果表明,多模态BiLSTM系统很重要,这支持了我们关于人类情感的连贯性对于情感分析至关重要的说法。实验结果还揭示了类RNN结构仍然有助于改善基于Transformer的模型的时间方面。

【5.1.2】个体模式的重要性

       为了研究每种模态的重要性,我们在CMU-MOSEI上进行了几个有和没有语言、音频和视觉模态的实验,用于情感分析。每个模态的嵌入向量分别用作其相应 Transformer 的输入。消融研究结果如表4所示。

       我们可以从表4中得出结论,与音频和视频模态相比,语言模态在情感分析中起着重要作用。这是因为在使用基于 Transformer 的方法时,语言被视为情感分析的枢轴模式。实验结果还表明,与单个模态输入相比,具有所有三个模块的集成模型都实现了最佳性能,因此多模态门控块对于区分每个模态的贡献是必不可少的。

【5.1.3】模态之间的相互作用

       为了研究模态之间的相互作用,我们进行了双模态和三模态实验。目的是观察辅助模态和目标模态之间的相互作用,其中语言、视觉和音频分别被设置为目标模态和辅助模态。实验结果见表5表6

 

       根据表5表6,目标模态的性能可以通过其他辅助模态以双模态或三模态的方式增强。具体来说,与单模态和双模态情感分析相比,三模态组合实现了最高的性能。无论使用一种还是两种辅助模态,以语言为目标模态的性能都优于以视觉或听觉为目标模态的性能。5显示,以语言为目标,以视觉和听觉为辅助模式的效果更好,即语言为50.7%和50.3%,视觉为49.5%和44.7%,音频为48.6%和44.9%。表6显示了类似的观察结果。

       此外,语言作为一种辅助方式起着至关重要的作用。与L→V相比,A→V的Acc7在语言模态无特征输入的情况下下降了4.8%。这一观察结果进一步表明了语言在多模态情感分析中的重要性。

【6】结论

       受心理学中人类情绪唤醒模型的启发,本文提出了一种用于多模态情绪分析和情绪识别任务的深度情绪唤醒网络(DEAN)。DEAN提供了一个集成的框架,用于使用多模态信息对人类通信进行建模。它能够通过将瞬态交互合并到 Transformer 模型的并行结构中,并通过嵌入多模态门控模块来识别不同模态的区别来表示情感连贯性。对三个基准数据集进行了一系列综合评估和分析研究。实证结果表明,DEAN在多模态情感分析和情感识别任务中的有效性,在所有三个基准问题上都优于几个最先进的模型。

       多模态情感分析和情绪识别的研究与脑神经科学中的多感觉统合研究高度相关[33]。我们的目标是将多感官文献的最新发现整合到DEAN中,以便将来进行多模态情感分析和情感识别。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值