【情感计算翻译】ViPER: Video-based Perceiver for Emotion Recognition

原文链接https://dl.acm.org/doi/10.1145/3551876.3554806 

ViPER: Video-based Perceiver for Emotion Recognition——ViPER基于视频的情绪识别感知器

【关键词】视频处理、情感识别、多模态学习、模态不可知学习

【摘要】

       从视频中识别人类情感需要深入了解潜在的多模态源,包括图像、音频和文本。由于输入数据源在不同模态组合中变化很大,因此利用多种模态通常需要临时融合网络。为了预测一个人对给定视频剪辑的反应的情绪唤醒,我们提出了ViPER,这是一种多模态架构,利用基于模态不可知的转换器模型来组合视频帧,录音和文本注释。具体来说,它依赖于与模态无关的晚期聚变网络,这使得ViPER很容易适应不同的模态。在MuSe-Reaction挑战的HumeReaction数据集上进行的实验证实了所提方法的有效性。

【1】介绍

       人类的情感通常通过不同的渠道和方式传达,例如面部表情、肢体语言、声音。表达情感的能力使人类能够有效地彼此互动。例如,面部表情在非语言交流中传达关键信息。

       众所周知,自动化视频中的情感识别过程与各种应用环境特别相关,例如人类行为分析,情感教育和医疗保健。然而,在许多现实世界的场景中,应用图像处理来识别面部表情并不足以有效识别人类情绪。主要原因是面部表情可能是模棱两可的,也可能取决于周围的环境。例如,人们不仅可以在快乐时微笑,还可以在紧张、愤怒或在权威面前微笑。因此,通常需要有效且高效地组合多模态数据源,包括图像、音频记录和文本注释。

       本文解决了使用多模态数据表示从视频中自动识别情感的问题。现有方法(例如,[28,29])依赖于融合网络来组合多种模式的数据。然而,这些网络通常依赖于模态,因此不容易适应不同的场景和任务。

       我们介绍了ViPER,这是一种新的多模态架构,可以从视频中提取人类情感。ViPER旨在解决MuSe反应挑战,该挑战旨在自动识别人们对给定视频剪辑做出反应的情绪状态。更具体地说,它需要估计七种不同情绪反应的强度,即崇拜、娱乐、焦虑、厌恶、移情痛苦、恐惧和惊讶。人们对视频剪辑的反应的视频记录由前置摄像头捕获,显示该人的面部并在观看视频时记录她/他的声音。

       ViPER 依赖于深度学习架构,该架构使用已建立的与模态无关的后期融合策略组合多模态数据源(例如,图像、音频、文本)。面部表情、录音和与视频帧相关的文本注释被共同利用来准确预测人类的反应。使用基于感知器的与模态无关的后期融合步骤,保留了所提出的解决方案对不同场景的通用性和可移植性。所提出的解决方案通过使用将输入转换为固定长度潜在表示的注意力瓶颈来确保模型的可扩展性。无论原始输入大小如何,生成的嵌入都具有独立的计算开销。

       这项工作的主要贡献可归纳如下:

1.ViPER采用与模态无关的融合网络,使所提出的架构能够适应其他输入模态。据我们所知,这是首次尝试从视频中解决与模态无关的情感识别问题。

2.ViPER 利用 CLIP 预训练模型使用新的文本注释丰富视频帧。目的是用视频帧的文本描述来增强输入源,从而提供对相关人员情绪唤醒的相关见解。

3.我们对不同的模式组合进行消融研究。图像、音频和文本的融合可在所有测试的模态组合中实现最佳性能。

       项目源代码仅供研究之用。本文的其余部分组织如下。第2节回顾了相关文献。第3节介绍了 ViPER 架构。第4节和第5节描述了实验设计并总结了主要的实证结果。最后,第6节得出了论文结论和未来的研究方向。

【2】情感识别的预先准备工作

       以前的研究已经解决了来自图像,文本或数据模式组合的自动情感识别。接下来,我们将分别分析基于图像处理、自然语言处理和多模态学习的现有方法。此外,我们还介绍了与模态无关的学习环境。

【2.1】基于图像的处理方法

       使用卷积神经网络(CNN)解决了从单个图像帧中识别人类情感的问题,该网络是为从图像中提取特征而建立的。为了将面部表情置于语境中,一些以前的工作还分析了面部特征和面部动作单元(FAU)。最近,基于Transformer的模型在各种计算机视觉任务中都非常成功,包括面部表情识别。尽管它们能够参与相关的图像部分,但它们对于视频中的情感识别并不理想,因为它们忽略了检测到的模式的时间演变。为了解决上述问题,已经利用递归神经网络(RNN)和3D卷积神经网络(3D-CNN)来分析视频帧序列。

【2.2】基于自然语言理解的方法

       从自然语言中检测情绪是一个长期存在的自然语言理解(NLU)问题,通常被表述为文本分类任务。除了语音转录和人工生成的视频注释之外,现有的NLU方法还考虑了音频信号的主要声学特性如音高和响度。结合文本和声学特征进行情感识别最近被证明是特别有前途的。具体来说,作者利用文本和声学特征之间的时间和语义关系来执行高质量的情感预测。尽管非语言声学特征在人类交流中起着至关重要的作用,但他们对解决视频情感识别问题的探索仍然开放。这是MuSe反应挑战[8]的主要目的,由ViPER解决。

【2.3】多模态方法

       多模态情感识别需要组合不同模式的数据源来识别人类情感。他们依靠融合技术,旨在联合分析多种模式来捕捉人类情感的复杂动态。例如,深度学习模型(例如,[19,32])可以有效地结合语音和面部表情,以提高预测的准确性。

       多模态情感分析挑战(即MuSe)旨在促进多模态情感识别的研究。在本次研究竞赛中,已有工作尝试使用注意力机制来参与输入数据的相关部分。然而,现有的情绪识别方法依赖于特定于模态的融合网络。例如,它们在视觉和音频数据中访问相关区域。作为一个缺点,特定模态的融合网络不容易适应不同的模态组合。

【2.4】与模态无关的学习

       与模态无关的架构旨在有效地学习复杂的数据表示,无论涉及何种模态。这些架构已成功应用于解决不同的任务,包括视觉语言分类,图像文本检索和视觉问答。本文研究了在视频情感识别中使用最先进的模态不可知架构。据我们所知,这项工作是这一研究领域的第一次尝试。

【3】方法

       我们提出了ViPER(即基于视频的情感识别感知器),这是一种用于从视频进行情感识别的多模态架构。ViPER适合解决MuSe反应挑战,该挑战旨在预测观看视频剪辑的人的情绪唤醒。MuSe-Reaction解决的关键方面是:

1.输入数据的多模态性质,包括视觉和听觉特征。

2. 面部表情对解决情绪识别任务的首要重要性。

3.录音中非语言交流的盛行。

       ViPER 架构的草图如图 1 所示。为了解决MuSe反应任务,ViPER采用了基于注意力的、与模态无关的后期聚变策略。融合网络将视觉分量(即视频帧对应的图像)和声学分量(即录音)作为与视频相关联的输入。视觉组件被用来引出各种特征,包括基于变压器的视觉嵌入、面部动作单元 (FAU) 和帧标题。特别是,帧字幕允许我们使用一种新的模式来增强输入数据,该模式包括使用最先进的上下文嵌入模型编码的视频帧的文本描述。

        原始和增强数据产生以下潜在特征: 

1.视觉特征:视觉转换器 (ViT) [10]、面部动作单元 (FAU)(即图 1 中的黄色标记)。

2.文本特征(增强):RoBERTa 上下文嵌入 [15] 的帧标题(即图 1 中的红色标记)。

3.声学特征:源自 WavLM [7] 的音频波形的 x 向量表示(即图 1 中的蓝色标记)。

       视觉、文本和声学特征使用晚期融合网络(即感知器)组合在一起。由于它依赖于与模态无关的方法,因此网络本质上可以适应不同的模态组合。以下是 ViPER 组件的更详细说明。

【3.1】图像嵌入

       视频数据样本可以看作是数百个图像的序列。视频序列中的两个连续图像可能彼此高度相似。因此,我们对图像进行采样并从采样数据中提取视觉特征。每个视频的采样频率会根据其持续时间进行调整,以避免在样本量中引入不平衡。

       由于变压器架构已经证明了它们在计算机视觉领域的优越性,优于卷积神经网络,我们使用视觉转换器 (ViT)来提取每个选定帧传达的信息。ViT具有类似BERT的架构,并将224×224图像作为输入。图像分为 16 个× 16 个补丁,这些补丁作为输入令牌提供给转换器。最后,我们通过考虑添加到输入序列的特殊分类令牌的 768 维最后隐藏状态来提取图像嵌入。它对图像的全局信息进行编码,并用作下一阶段帧的表示。

【3.2】音频嵌入

       为了将从每个帧中提取的视觉信息与视频音轨中存在的声学信息耦合,每个音频记录被分成N个小片段。它们中的每一个都具有相同的长度,与其他视频没有重叠,并且在对应于所选视频帧(包括第一个和最后一个)的时间戳中居中。与视频肢体关联的音频片段的持续时间是其他片段的一半。它们分别以与关联帧对应的方式开始和结束。

       为了对每个音频片段的内容进行编码,我们使用 WavLM 模型。它使用自我注意从原始波形中提取声学表示。WavLM最初是为语音识别任务提出的,它已经展示了其他任务的泛化能力,包括意图检测和说话人验证。我们的方法应用 WavLM 模型,使用与 x 矢量技术相同的方案获得特征丰富的表示。X向量是从原始波形派生的表示形式,通常用于从录音中提取与扬声器相关的声学特征。相应的嵌入向量被馈送到分类层,以了解声学特征和音频类别(例如,说话人的身份或情感)之间的关系。通过这种方式,我们使用上述音频编码为输入音频片段生成声学表示。

【3.3】基于帧字幕的数据增强

我们用文本字幕来增强与每个视频帧相关的视觉特征。为此,我们首先生成 53 个字幕模板,每个目标情感由 6 到 9 个描述性句子组成。除了任务中涉及的情绪外,字幕模板还涵盖了中性情绪,可以映射到实际人类反应之前或之后的视频帧。接下来,我们将每个视频帧与最相关的字幕模板匹配,以获得相应的文本描述。为此,我们利用在图像情感识别上微调的CLIP编码器将句子和视频帧编码到一个公共嵌入空间中。然后,我们计算句子和框架嵌入并使用相似度得分最高的句子作为框架的文本描述。然后使用预先训练的RoBERTa模型对相应的句子进行编码,并将生成的768维向量与其他帧特征连接起来,以构成我们提出的模型的输入。

表 1 报告了与每个情感类关联的基于模板的描述的一些定性示例。模板句子的完整列表可在项目存储库中找到。

【3.4】面部动作单元

       FAU描述了导致人脸许多元素运动的面部肌肉的活动,例如眼睛,嘴唇和鼻子。这种动作通常与特定情绪的表达有关。FAU已经被用于训练神经网络,它们是MuSe挑战组织者发布的得分最高的基线方法的关键特征。出于这些原因,我们利用从N个选定帧中提取的FAU来增强视觉组件表示。

       与基线方法类似,我们使用 Py-Feat4 从选定的帧中提取 20 个不同的 FAU,但我们利用逻辑回归器预训练模型而不是随机森林,因为已弃用。此外,该工具提供了 7 种情绪(即愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性)的分数,这些分数与任务提出的略有不同。因此,我们将上述分数包含在 FAU 功能集中。

【3.5】情绪识别的主要知识

       前置摄像头视频(通常是网络摄像头录像)是MuSe-Reaction数据集的特征。这是输入数据的一个特殊特征,这导致我们对提取的视觉特征进行以下考虑:

1.为了识别情绪,我们主要针对面部表情。

2.由于视频记录是人类主体在不受控制的环境中自制的,因此背景可能包含嘈杂元素,可能会转移模特对面部表情的注意力。

3.我们需要一种方法来裁剪视频帧中的人脸。

       为了达到我们的目的,我们使用YOLO5Face自动检测帧内的人脸并裁剪它们以删除背景信息。此外,为了使我们的特征提取器更有能力处理人脸图像,我们使用迁移学习将一些关于相貌的先验知识注入到模型中。除了在 ImageNet上预训练的基本模型外,我们还在实验中加入了使用 FairFace (即 ViT-Face)在年龄估计任务上预训练的ViT提取的特征,这是一个特写照片数据集。

【3.6】基于注意力的晚期融合

       我们尝试了几种特征集组合,包括与图像相关的特征集,以解决下游任务。对于每个组合,我们将所涉及的特征集连接起来,为每个视频的 N 个选定帧中的每一个形成一个唯一的输入数组。通过这种方式,我们获得一系列固定长度的 N 个输入标记,具体取决于所涉及的特征。然后,我们使用这些数组来馈送感知器模型以执行多元回归任务。

       感知器是一种基于注意力模态不可知的模型,它可以合并来自不同输入模态的信息,而无需做出任何特定于模态的假设。与其他后期融合方法相比,Perceptionr架构中的注意力瓶颈机制确保了其可扩展性,即将输入转换为固定长度的潜在表示,可以用不受原始输入大小影响的计算成本进行处理。 

       我们将最后一个线性层中的神经元数量设置为与任务相关的情绪数量。因此,可以使用我们架构的单个实例为它们中的每一个分配一个分数。

【4】实验设置

       挑战组织者提供对Hume-Reaction数据集的访问,其中包含75小时显示情绪反应的视频剪辑的细粒度注释。每个视频都有七个自注释,每个情绪一个,规范化到 [0,1] 范围。数据收集包括25067个视听剪辑,每个视频持续10至15秒,平均持续时间为11.63秒。

       视频是以每秒帧数 (FPS) 30 再现的一系列帧,它给观众一种流畅运动的错觉。每个视频的总帧数从 300 到 450 不等。出于这个原因,在我们所有的实验中,我们选择了 32 作为所选帧 N 的数量。我们平均每 0.37 秒播放一帧视频,平均音频片段长度为 0.74 秒。

       后期融合的感知器使用情绪之间的平均均方误差(MSE)损失进行微调。晚期融合模块训练 50 个 epoch,使用 16 的批量大小,初始学习率为 10−5,每 10 个 epoch 减半。我们根据开发集上的 Pearson 相关分数选择最佳检查点。

      方式贡献。为了研究每种模式对整体性能的贡献,我们在不同的环境中训练和评估ViPER。

1. 仅视觉:ViPER 仅使用 ViT 提取的图像嵌入进行训练。

2.双模态:ViPER 使用图像嵌入与其他模态之一(即音频、文本或 FAU)独立训练。

3.三模态:ViPER 使用图像嵌入和两种附加模态进行训练。

4.全部:ViPER使用图像,音频和文本编码以及面部动作单元进行训练。

      硬件设置。实验是在配备英特尔®至强®可扩展处理器Gold 6130 dualCPU,Nvidia® Tesla® V100 GPU和384 GB共享RAM的集群上进行的,运行CentOS 7.6。 

【5】结论

       在本节中,我们将介绍并讨论ViPER在MuSe反应挑战中的结果。具体来说,第5.1节报告了对视觉组件影响的深入分析,而第5.2节讨论了旨在探索每种模式对情绪预测任务影响的消融研究的结果。最后,第5.3节讨论了每种情绪预测结果的质量。

【5.1】视觉特征的影响

可视编码器提供视频帧内容之间依赖关系的高级描述。表2比较了(1)组织者提供的基线(即FAU和VGGFace2 )的性能,(2)基于各种预训练ViT模型的不同ViPER设置,包括面部裁剪策略和不包括面部裁剪策略,(3)标准预训练模型(即ViT)与ViT-Face,这是在FairFace数据集上微调的ViT的特定版本,用于年龄估计。

       与标准 ViT 预训练模型相比,使用对人脸图像进行微调的预训练 ViT 模型 (ViTFace) 可提高 ViPER 的性能。根据这些发现,使用在面部图像上预先训练的模型可以让我们提取更好地代表人类情感的特征,这反过来又使我们能够实现更准确的情绪预测。

       结果证实,通过裁剪每个视频帧内的面部区域并强制学习过程仅关注面部表情,与整个视频帧分析相比,ViPER 显着提高了其性能。这也意味着,如果允许模型处理整个视频帧,则视觉组件提取的特征无法充分表示情感表达,这可能是由于背景信息的存在可能会分散模型对面部表情的关注。因此,使用面部裁剪策略提供的归纳偏差可能有助于模型提取更好地表示情感表达的特征。

【5.2】MuSe反应挑战的消融研究

表3总结了所有测试设置下获得的所有ViPER结果,以及挑战组织者(即FAU和VGGFace2)发布的基线方法的结果。

       所有系统设置都在开发集中进行了测试。挑战参与者只允许提交 5 个设置以在测试集上进行评估。为了深入了解单独和联合模态的贡献,我们将仅视觉和双峰系统提交给了评估平台。在测试仪上取得的结果报告在表3中。 

       通过单模态和双峰系统性能的比较,我们可以观察到双峰设置产生了显着的改进。具体来说,它们使用面部动作单元计算的图像嵌入组合在双模态设置中表现最佳。事实证明,音频嵌入在开发和测试集中都是预测性最低的功能。

       由于强制实施每个团队的最大提交数 (5),我们错过了测试集上三模态设置的结果。然而,开发集的结果清楚地表明,与双模模型相比,有了实质性的改进。与前一种情况类似,图像嵌入和FAU的集成是非常有益的。

        文本嵌入比图像嵌入的歧视性更小,但也比声学嵌入更重要。主要原因是视频录制不包含足够的声学特征,无法被自动音频处理正确利用。事实上,人类受试者默默地观看视频,从不在整个视频流中说话,从而限制了可以从音频中提取的信息量。此外,用于音频嵌入的 WavLM 模型已经过语音训练,因此在我们的场景中,它可能对音频信号进行编码无效。但是,为了更好地理解基于文本的功能的贡献,我们计划尝试文本模态的不同架构和数据表示。

       最后,包括图像、音频、文本嵌入和面部动作单元在内的完整配置在开发集和测试集上实现了所有其他设置中的最佳性能。这证明了基于感知器的后期融合方法对情绪预测任务的有效性。

【5.3】情绪特定表现分析

       预测结果显示情绪之间的相关变异性。这表明ViPER能够更好地估计与某些特定情绪类别(例如,娱乐,焦虑,恐惧)相关的分数,而难以对其他类别(例如,崇拜,厌恶,移情痛苦,惊讶)进行分类。

图2和图3显示了表现最佳和最差的情绪类别(即娱乐和EmpathicPain)的混淆矩阵。对于娱乐类,大多数矩阵值落在 [0.4,1] 范围内,而移情疼痛类的预测主要属于[0.1,0.4]范围。这可能是因为该模型在为娱乐类的强度提供细粒度估计方面更有效,而预测移情疼痛类则不太准确。简而言之,广泛的预测范围可能意味着更高的预测准确性,而较小的预测范围是情绪强度估计困难的有力线索。在将所有情绪类别一起考虑时,预测的平均绝对值与整体情绪类表现不相关。

【6】结论和未来工作

       在这项工作中,我们提出了ViPER,这是一种多模态方法来预测用户对视频反应的情绪状态。所提出的方法依赖于与模态无关的后期聚变网络,该网络为ViPER用户提供了一个灵活且易于适应的框架。

       ViPER 的有效性已在为 MuSe 2022 反应子挑战提出的休谟反应数据集上得到证明。实证结果表明,所有所审查的模式都对拟议方法的总体绩效做出了积极贡献。此外,领域知识的整合,即面部裁剪和领域内ViT预训练,也被证明是有益的。

     我们计划通过添加预训练步骤来扩展我们的方法作为未来的工作,在该步骤中,使用域内数据收集训练特定于模态的编码器,以便为情感识别任务提供更具辨别力的特征提取步骤。由于ViT-Face的集成已被证明在视觉特征中特别有效,因此我们还计划针对其他输入模式测试此设置。使用基于模板的框架字幕技术通过文本注释来扩充数据的好处产生了令人满意的结果。因此,我们还将探索多种方法来进一步扩展视频描述。这对于与模态无关的融合网络也很有用,该网络本质上能够集成其他注释。

       最后,我们旨在将所提出的方法与其他最先进的融合方法进行比较,并探索其他融合策略。对于后者,我们的目标是研究架构不同级别的模态融合。由于提出的后期融合策略对于特定的输入模式可能不是最佳的,我们计划利用最近提出的技术来更好地估计架构中的融合点。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值