2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis

最新推荐文章于 2025-01-16 21:59:46 发布

Darren_zeng

最新推荐文章于 2025-01-16 21:59:46 发布

阅读量2.2k

点赞数 1

分类专栏：情感分析跨模态情感分析 NLP深度学习文章标签： bert 自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_44691087/article/details/120632861

版权

情感分析同时被 3 个专栏收录

2 篇文章

订阅专栏

跨模态情感分析

2 篇文章

订阅专栏

NLP深度学习

2 篇文章

订阅专栏

abstract

多模态情感分析是一个新兴的研究领域，旨在使机器能够识别、解释和表达情感。通过跨模态互动，我们可以得到说话者更全面的情绪特征。来自Transformers(BERT)的双向Encoder表示是一种有效的预训练语言表示模型。通过微调，它在11个自然语言处理任务，如问题回答和自然语言推理上获得了新的最先进的结果。然而，以往的大多数工作都只基于文本数据对BERT进行微调，如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中，我们提出了跨模态BERT(CM-BERT)，它依赖于文本和音频模态的交互作用来微调预先训练过的BERT模型。masked 多模态注意作为CM-BERT的核心单元，被设计为通过结合文本和音频模态的信息来动态调整单词的权重。我们在公共多模态情绪分析数据集CMU-MOSI和CMU-MOSEI上评估了我们的方法。实验结果表明，与以往的基线和BERT的仅文本微调相比，它显著提高了所有指标的性能。此外，我们可视化了掩蔽的多模态注意，并证明了它可以通过引入音频模态信息来合理地调整单词的权重。

1. Introduction

随着通信技术的进步和Facebook和YouTube等社交平台的普及，人们每天都会产生大量具有丰富情感信息的多模态数据。情感在人类的人际交往中起着至关重要的作用。情绪分析作为人机交互的关键技术之一，影响着人工智能的发展，已广泛应用于许多应用场景，如人机对话、自动驱动等。文本是我们日常生活中的一种基本的方式，它通过词语、短语和关系来表达情感。在过去的几年里，文本情绪分析取得了很多成就，例如，TextCNN 在针对句子级分类任务的预训练词向量之上进行训练，并在 7 个任务中的 4 个任务上改进了最新技术。

然而，在文本模态中所包含的信息是有限的。在某些情况下，很难通过文本信息来准确地判断情绪。在日常生活中，文本模式往往伴随着音频模式。音频模态中包含的情感信息的特点是语音特征的变化，例如音高、能量、发声力度、响度和其他与频率相关的度量。文本和音频模式之间的交互作用可以提供更全面的信息和捕捉更多的情感特征。图1是文本和音频模态之间模态交互的示例。“But you know he did it”这句话的情绪是模棱两可的，它可以在不同的情况下表达各种情绪。根据这些话来确定这句话的情绪是具有挑战性的。在引入相应的音频信息后，由于说话者的声音较低和啜泣，不难预测这句话的情绪是negative。为弥补单模态的不足，多模态情感分析作为一个日益广泛的情感计算领域受到了广泛的关注。多模态融合是通过模态间的相互作用来结合来自不同模态的信息。由于融合信息可以提供更多的情感特征，它往往会提高整体结果或决策的准确性。

最近，来自 Transformers (BERT) 的双向编码器表示作为一种高效的预训练语言模型，在 11 项自然语言处理任务上取得了最新成果，包括问答、自然语言推理等。与传统的预训练语言模型不同，BERT 通过对所有层的左右上下文进行联合调节来生成上下文词表示。因此，单词的表示可以描述上下文内容。微调预训练的 BERT 在大量句子级和token级任务上取得了高效的表现。然而，大多数微调策略仅基于文本模态设计，如何将其从单模态扩展到多模态并获得更好的表示仍然是一个悬而未决的研究问题。

在本文中，我们提出了一种跨模态 BERT (CM-BERT)，它引入了音频模态的信息，以帮助文本模态微调预训练的 BERT 模型。作为 CM-BERT 的核心单元，masked multi-modal attention 旨在通过跨模态交互动态调整词的权重。为了证明我们方法的有效性，我们在公共多模态情感分析数据集 CMU-MOSI 和 CMU-MOSEI 上对其进行了评估。实验结果表明，CM-BERT 在所有指标上都比以前的基线和 BERT 的纯文本微调显着提高了性能。本文的主要贡献可以总结如下：

我们提出了一种跨模态 BERT (CM-BERT) 模型，该模型引入了音频模态的信息，以帮助文本模态微调预训练的 BERT 模型。
我们设计了一种新颖的屏蔽多模态注意力，可以通过文本和音频模态之间的交互动态调整单词的权重。
我们展示了我们的模型仅使用文本和音频模态数据在公共情绪基准数据集 CMU-MOSI 和 CMU-MOSEI 上创建了新的最先进的多模态情感分析结果。

2. Related work

2.1 Multi-modal Sentiment Analysis

多模态情绪分析是自然语言处理中一个新的流行研究领域。考虑到不同模式之间的内部相关性，多模态融合可以捕获更有效的情绪特征来进行情绪分析。多模态融合的难点在于如何有效地集成多模态信息。迄今为止，融合策略主要有两种类型：特征融合和决策融合。特征融合是通过连接和其他方式来融合不同模式的特征。由于融合特征包含了更多的情感信息，因此它可以明显地提高性能。

A semi-supervised multi-path generative neural network approach

结合了文本和音频模态的特征，设计了一个半监督的多路径生成神经网络来更好地推断情绪。
Tensor Fusion Network for Multi-modal Sentiment Analysis.

为了获得更好的多模态信息表示，提出了一种利用多模态特征乘积的多模态融合网络来表示多模态融合信息。
Efficient Low-rank Multi-modal Fusion With Modality-Specific Factors

与张量融合网络不同，Liu等人采用低秩融合的低秩多模态融合方法来提高效率，实验结果表明，它不仅降低了参数，而且提高了情绪分析性能。
Context-dependent sentiment analysis in user-generated videos.

这些话语是相互关联的，而且可以相互影响。考虑到话语之间的关系，玉兰等人引入了一个语境长期短期记忆网络，可以利用话语水平的语境信息来捕捉更多的情绪特征。在决策融合过程中，对不同模式的特征进行了独立的检验和分类，并将其结果融合为决策向量，得到最终的决策。
Towards efficient multi-modal emotion recognition.

Dobrišek等人将权重和加权乘积规则用于音视频决策级融合，实验结果表明加权乘积的性能优于权重和。

随着注意机制的普及，它在多模态融合中起着越来越重要的作用。

Multi-attention recurrent network for human communication comprehension

Zadeh等人提出了一种多注意力循环网络，它可以通过使用多注意力块来发现不同模式之间的交互作用
Contextual inter-modal attention for multi-modal sentiment analysis

Ghosal等人提出了一个多模态多话语双模态注意框架，利用注意多模态表示来学习其中的贡献特征。
Multimodal Transformer for Unaligned Multimodal Language Sequences.

Tsai等人在他们的多模态转换模型中使用了定向成对的跨模态注意，它可以关注跨不同时间步长的多模态序列之间的相互作用，并潜在地将流从一种模态调整到另一种模态。

2.2 Pre-trained Language Model

近年来，预训练的语言模型在自然语言处理中得到了广泛的应用，它在一系列句子级和标记级任务（如问答和命名实体识别）上提高了性能。Peters等人介绍了语言模型嵌入（ELMo），它使用深度双向语言模型在大型文本语料库上进行了预训练。实验结果表明，它可以显着提高六个任务的性能。之后，为了学习通用表示，Radford 等人。提出了Generative Pre-trained Transformer (GPT)。与之前的方法相比，他们在微调期间利用了任务感知输入转换，并且可以很好地转移以最小的架构进行更改。与 ELMo 和 GPT 不同，来自 Transformers 的双向编码器表示（BERT）是一种掩码语言模型，它通过使用两个无监督预测任务 Masked LM 和 Next Sentence Prediction 进行预训练。微调预训练的 BERT 明显优于其他预训练的语言模型，它在 11 项自然语言处理任务上创造了新的最先进的结果。

3. Methodology

在本文中，我们提出了跨模态BERT(CM-BERT)，它可以结合来自文本和音频模态的信息来微调预先训练过的BERT模型。采用掩蔽多模态注意作为其核心，通过跨模态交互作用来动态调整单词的权重。

3.1 Problem Definition

给定一个word-piece token的文本序列: 𝑇 = [𝑇1,𝑇2, …𝑇𝑛]，其中 $n$ 是序列长度的数量。由于BERT模型的嵌入层将在输入序列之前附加一个特殊的分类embedding（[𝐶𝐿𝑆]），最后一个encoder层的输出是一个𝑛+1长度的序列，记为𝑋𝑡=[𝐸[𝐶𝐿𝑆]，𝐸1，𝐸2，……𝐸𝑛]。为了与文本模态一致，我们在词级对齐音频特征之前附加一个零向量（在第 4.2 节中介绍），音频特征表示为 𝑋𝑎 = [𝐴[𝐶𝐿𝑆 ] , 𝐴1, 𝐴2, …𝐴𝑛]，其中 𝐴[𝐶𝐿𝑆 ] 是一个零向量。我们的方法的目的是利用 𝑋𝑡 和 𝑋𝑎 之间的交互作用来调整每个单词的权重，以便更好地微调预先训练过的BERT模型，提高情绪分析的性能。

3.2 CM-BERT: Cross-Modal BERT

CM-BERT的架构如图2所示。CM-BERT模型的输入包括两部分：字块令牌(word-piece tokens)的文本序列和字级(word-level)对齐音频特征。首先，文本序列将经过BERT模型，并使用最后一个encoder层的输出作为文本特征，其定义为𝑋𝑡=[𝐸[𝐶𝐿𝑆]，𝐸1，𝐸2，……𝐸𝑛]。由于单词级对齐音频特征𝑋𝑎的维度明显小于文本特征𝑋𝑡，与参考文献26一样，我们使用了一个一维时间卷积层来控制它们到相同的维度：

其中 $k{\{t,a\}}$ 表示文本和音频模态的卷积内核的大小。因为𝑋𝑡的维数明显高于𝑋𝑎，所以在训练过程中， $\hat{X_t}$ 的值会越来越大于 $\hat{X_a}$ 。为了防止点积变大并将 softmax 函数推入极小的梯度区域，我们将文本特征 $\hat{X_t}$ 缩放到 $\hat{X_t}'$ 和音频特征 $\hat{X_a}$ 到 $\hat{X_a}'$ ：

在得到 $X_t$ 、 $\hat{X_t}'$ 和 $\hat{X_a}'$ 后，为了使文本和音频信息充分交互，我们将它们输入到 masked multi-modal attention 中，它可以通过结合单词在不同模态下的表现来调整单词的权重。在获得 masked multi-modal attention $X_{Att}$ 的输出后，按照以往的工作[8, 29]，我们在 $X_t$ 和 $X_{Att}$ 上使用残差连接来保持数据的原始结构。然后它会经过一个线性层和一个归一化层。最后，我们可以得到最后一个线性层的输出 𝑌𝑙 = [𝐿[𝐶𝐿𝑆 ] , 𝐿1, 𝐿2, …𝐿𝑛]。因为第一个token 𝐿[𝐶𝐿𝑆 ] 的表示是根据其他token 的信息学习的，所以我们将其作为聚合表示并输入到一个线性层中以产生最终的预测结果。

3.3 Masked Multi-modal Attention

作为CM-BERT核心的masked multi-modal attention旨在利用音频模态的信息来帮助文本模态调整词的权重和微调预训练的BERT模型。 masked多模态注意力的结构如图 3 所示。首先，我们评估每个词在不同模态下的权重。 Query 𝑄𝑡 和 Key 𝐾𝑡 文本模态定义为 𝑄𝑡 = 𝐾𝑡 = $\hat{X_t}'$ ，其中 $\hat{X_t}'$ 是缩放后的文本特征。 Query 𝑄𝑎 和音频模态的 Key 𝐾𝑎 被定义为 𝑄𝑎 = 𝐾𝑎 = $\hat{X_a}'$ ，其中 $\hat{X_a}'$ 是缩放后的词级对齐音频特征。然后文本注意力矩阵 $\alpha_t$ 和音频注意力矩阵𝛽𝑎定义为：

为了通过文本和音频模态之间的交互来调整每个单词的权重，我们对文本注意力矩阵𝛼𝑡和音频注意力矩阵𝛽𝑎进行加权求和，加权融合注意力矩阵𝑊𝑓计算如下：

其中，𝑤𝑡和𝑤𝑎分别表示文本和音频模态的权重，𝑏为偏差。为了减少padding序列的影响，我们引入了一个mask 矩阵 $M$ , 它使用0表示token的位置，并使用−∞表示padding位置(在softmax函数后，填充位置的注意分数为0)。然后将多模态注意矩阵𝑊𝑚定义为：

得到多模态注意力矩阵后，我们将𝑊𝑚与mask的多模态注意力𝑉𝑚的值相乘，得到注意力𝑋𝐴𝑡𝑡的输出：

其中𝑉𝑚是BERT最后一个encoder层的输出，定义为𝑉𝑚=𝑋𝑡。

4. experimental methodology

在本节中，我们评估了跨模态BERT在公共多模态情绪分析数据集cmumosi和CMU-MOSEI上的性能。我们将从以下几个方面来介绍我们的实验。首先，我们将展示有关数据集和实验设置的信息。然后，我们将展示音频特征和多模态对齐。最后，我们将介绍在实验中使用的评估指标和基线。

4.1 Datasets and Experimental Settings

我们在 CMU 多模态Opinion级情绪强度 (CMU-MOSI) 和 CMU 多模态意见情绪和情绪强度 (CMU-MOSEI) 数据集上评估我们的方法。 CMU-MOSI 由来自 YouTube 电影评论的 93 个观点视频组成。这些视频包含了 2199 条话语。每个话语的标签由 5 个不同的工作人员注释，并且在 -3 到 +3 的连续范围内，其中 -3 表示高度负面，3 表示高度正面。考虑到说话者不应同时出现在训练和测试集中，以及正负数据的平衡，我们在训练、验证和测试集中拆分了 52、10、31 个视频，分别对应 1284、229 和 686 个话语。与 CMU-MOSI 类似，CMU-MOSEI 是一个多模态情感分析数据集，由来自 YouTube 的 23,454 个电影评论视频剪辑组成。我们采用的策略与之前发表的作品一致 [26, 30]。

我们提出的 CM-BERT 中使用的预训练 BERT 模型是 uncased BERTBASE 版本，它由 12 个 transformer块组成。为了防止过拟合，我们将encoder层的学习率设置为 0.01，并将其余层的学习率设置为 2e-5。为了获得更好的性能，我们冻结了嵌入层的参数。为了训练 CM-BERT 模型，我们将批量大小和最大序列长度分别设置为 24 和 50，epoch 数设置为 3。此外，我们使用 𝐴𝑑𝑎𝑚 优化器和 𝑚𝑒𝑎𝑛 - 𝑠𝑞𝑢𝑎𝑟𝑒𝑒𝑟𝑟𝑜𝑟损失函数👠。

4.2 Audio Features and Multi-modal Alignment

在这项工作中，我们使用 COVAREP 来提取音频特征。每个片段表示为一个 74 维特征向量，包括 12 个梅尔频率倒谱系数 (MFCC)、音高和分段特征、声门源参数、峰值斜率参数和最大色散商。为了获得词级对齐特征，按照 [26]，我们使用 P2FA 来获取每个词的时间步长。然后我们在相应的单词时间步长内对音频特征进行平均。为了与文本模态的序列长度保持一致，使用零向量来填充音频序列。

4.3 Evaluation Metrics

在我们的实验中，与之前的工作[30]一致，我们使用相同的评估度量来评估基线和我们的模型的性能。情绪评分分类任务采用7类精度（𝐴𝑐𝑐7)，二元情绪分类任务采用2类精度(𝐴𝑐𝑐2）和F1评分（𝐹1)。回归任务采用模型预测与真实标签的相关性(𝐶𝑜𝑟𝑟）和平均绝对误差(𝑀𝐴𝐸)。除𝑀𝐴𝐸外，指标值越高，意味着模型的性能就越好。为了使实验结果更有说服力，我们随机选择5颗种子，并以5次运行的平均结果作为最终的实验结果。

4.4 Baselines

我们比较了CM-BERT与之前的模型在多模态情绪分析任务上的性能。我们所比较的模型如下：

EF-LSTM: Early Fusion LSTM (EF-LSTM) 连接多模态输入并使用单个 LSTM 来学习上下文信息。
LMF: 低秩多模态融合 (LMF) 是一种利用低秩权重张量在不影响性能的情况下使多模态融合高效的方法。它不仅大大降低了计算复杂度，而且显着提高了性能。
MFN: 记忆融合网络 (MFN) 主要由 LSTM 系统、增量记忆注意力网络和多视图门控记忆组成，它明确考虑了神经架构中的这两种相互作用，并随着时间的推移不断对其进行建模。
MARN: Multi-attention Recurrent Network (MARN) 使用 Multi-attention Block 和 Long-short Term Hybrid Memory 来发现不同模式之间的交互。
RMFN: 循环多级融合网络 (RMFN) 将多级融合过程与循环神经网络相结合，以对时间和模态内的交互进行建模。
MFM: 多模态分解模型 (MFM) 可以将多模态表示分解为多模态判别因子和模态特定生成因子，它可以帮助每个因子专注于从跨多模态数据和标签的联合信息子集中学习。
MCTN: 多模态循环翻译网络 (MCTN) 旨在通过在不同模态之间进行转换来学习稳健的联合表示，它只能在测试过程中使用文本模态数据并创建新的最新结果。
MulT: Multimodal Transformer (MulT) 使用定向成对交叉模式注意跨不同时间步长的多模式序列之间的交互，并潜在地将流从一种模式调整到另一种模式，它是 MOSI 数据集上当前最先进的方法。
T-BERT: 来自 Transformers (BERT) 的双向Encoder表示，仅使用文本模态信息进行微调。

5. Results and discussion

在本节中，我们展示了我们的实验结果并讨论了我们的方法与以前的工作之间的差异。此外，我们将masked多模态注意力可视化，并讨论了引入音频模态信息后注意力矩阵的变化。

5.1 Comparison with Baseline

我们在 CMU-MOSI 数据集上评估 CM-BERT 模型，表 1 显示了实验结果。不难看出，CM-BERT 模型在 MOSI 数据集上创建了一个新的最先进的结果，并提高了所有评估指标的性能。在二元情感分类任务中，CM-BERT 模型在 𝐴𝑐𝑐ℎ2 上达到了 84.5%，与基线相比提高了约 1.5%-9.2%。与𝐴𝑐𝑐ℎ2 类似，我们的模型在𝐹 1 上实现了1.7%-9.3% 的提升。在情感评分分类任务中，CM-BERT 模型的提升效果更加明显。我们的模型在 𝐴𝑐𝑐ℎ7 上达到了 44.9%，比基线高出约 4.9 到 12.1 个百分点。在回归任务中，CM-BERT 在 𝑀𝐴𝐸𝑙 上减少了大约 0.142-0.294，在 𝐶𝑜𝑟𝑟ℎ 上提高了大约 0.093-0.183。值得注意的是，表 1 中 CM-BERT 和 T-BERT 之间的学生 t 检验的 p 值在所有指标上都远低于0.05。更重要的是，除 T-BERT 之外的所有基线都使用来自文本、音频和视频的信息，但我们的模型仅使用文本和音频模态信息来创建新的最先进的结果。

从实验结果可以看出，MulT 模型的性能明显优于其他基线。主要原因是 MulT 将transformer 扩展到多模态设置，并通过注意力潜在地适应跨模态的元素。但是，将 MulT 模型与 T-BERT 模型进行比较，因为后者可以通过对预训练的 BERT 模型进行微调来获得更好的表示，因此获得了比前者更好的性能。不同于T-BERT模型，我们提出的CM-BERT模型将预训练的BERT模型从单模态扩展到多模态，并引入了音频模态的信息，帮助文本模态有效地调整词的权重。由于CM-BERT模型可以更全面地反映说话者的情绪状态，并且可以通过文本和音频模态之间的交互来捕捉更多的情感特征，因此它在所有评估指标上的表现都得到了显着的提升。

我们还在 CMU-MOSEI 数据集上进行了实验，以证明我们的方法对其他多模态语言数据集的推广。为了便于比较，继之前的工作[24]之后，我们将表1中前3个模型的𝐴𝑐𝑐ℎ2和𝐹1进行了比较。首先，MulT在𝐴𝑐𝑐ℎ2上达到了82.5%，在𝐹1上达到了82.3%。 MulT，T-BERT表现出更好的性能，它在𝐴𝑐𝑐ℎ2上达到了83.0%，在𝐹1上达到了82.7%。此外，CM-BERT在𝐴𝑐𝑐ℎ2和83.83上与T-BERT相比，在𝐴𝑐𝑐ℹ2上达到了83.6%。我们的模型在𝐴𝑐𝑐ℎ2 上提升了约 0.6%-1.1%，在𝐹 1 上提升了 0.9%-1.3%。因此，在 CMU-MOSEI 数据集上的优越性能也证明了我们提出的方法的泛化。

5.2 Visualization of the Masked Multi-modal Attention

为了证明mask多模态注意力的效率，我们分别可视化了文本注意力矩阵𝛼𝑡和多模态注意力矩阵𝑊𝑚。通过观察词权重的差异，可以证明在引入音频模态信息后，masked multimodal attention可以合理调整词权重。我们从 MOSI 数据集中选择三个句子作为示例，这些句子的文本注意力矩阵和多模态注意力矩阵如图 4 所示。颜色梯度代表单词的重要性。

第一个例子是句子“THERE ARE SOME FUNNY MOMENT”，（a1）和（b1）是对应的注意力矩阵。很明显，(a1) 和 (b1) 之间存在很多差异。例如，在（a1）中，“FUNNY”这个词在“ARE”这个词上的注意力得分很高。然而，它毫无意义，我们从中得不到任何有用的信息。引入音频信息后，masked multi-modal attention降低了“ARE”的分数。相比之下，它更多地关注“SOME”和“MOMENTS”这两个词。第二个例子是句子“I JUST WANNA SAY THAT I LOVE YOU”，(a2)和(b2)是对应的注意力矩阵。从（a2）和（b2）不难看出，masked multi-modal attention可以提高相关词的权重，降低不相关词的权重。例如，在（b2）中，“LOVE”和“YOU”两个词之间的权重得到了提高，“JUST”和“THAT”两个词之间的权重得到了降低。这些变化符合人类的逻辑。通过赋予相关词更多的权重，我们可以捕捉到更丰富的情感信息，减少噪音信息的影响。最后一个例子是句子“I THOUGHT IT WAS FUN”，相应的注意力矩阵如（a3）和（b3）所示。和上面的例子一样，句子中词的权重也做了合理的调整。比如“I”这个词和“THOUGHT”、“FUN”这个词之间的权重都提高了。同时，这些词含有丰富的情感信息，正确预测说话人的情感很重要。从以上三个例子我们可以得出结论，masked multi-modal attention可以合理地调整词的权重，并且可以通过文本和音频模态的交互来捕捉最重要的信息。

6. CONCLUSION

在本文中，我们提出了一种新的多模态情感分析模型，称为跨模态 BERT（CM-BERT）。与之前的工作不同，我们将预训练的 BERT 模型从单模态扩展到多模态。我们引入了音频模态信息来帮助文本模态微调 BERT 并获得更好的表示。作为 CM-BERT 的核心单元，masked multimodal attention 旨在通过文本和音频模态之间的跨模态交互来动态调整单词的权重。实验结果表明，CM-BERT 在 CMU-MOSI 和 CMU-MOSEI 数据集上的性能比以前的基线和 BERT 的纯文本微调有显着提高。此外，我们将注意力矩阵可视化，可以清楚地表明在引入音频模态后，掩蔽的多模态注意力可以合理调整词重。事实上，CM-BERT 也适用于文本和视频模态，并且可以灵活应用于两种以上的模态。未来，由于现实世界中的大多数多模态数据通常是未对齐的，我们更愿意探索如何使用神经网络对齐不同模态数据以及如何使用预训练模型从未对齐的多模态数据中学习更好的表示.

github: https://github.com/thuiar/Cross-Modal-BERT
paper地址: https://dl.acm.org/doi/10.1145/3394171.3413690