An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos阅读笔记

本文链接：https://blog.csdn.net/zhuzyibooooo/article/details/130114152

文章提出了一种名为VAANet的深度学习模型，用于用户生成视频的情感识别。该模型结合了空间、通道和时间注意力机制，解决了传统方法中的类内变异大、结构一致性低和关键帧稀疏表达等问题。通过集成到3DCNN和2DCNN中，VAANet在VideoEmotion-8和Ekman-6数据集上的实验表明其性能优于现有方法。此外，文章还介绍了极性一致交叉熵损失，以更好地引导注意力生成并考虑情绪的极性关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

用户生成视频中的情感识别在以人为本的计算中起着重要的作用。现有的方法主要采用传统的两层浅层管道，即提取视觉和/或音频特征和训练分类器。在本文中，我们提出了一种基于卷积神经网络（CNNs）的端到端识别视频情绪的方法。具体来说，我们开发了一个深度视觉音频注意网络（VAANet），这是一种新的架构，它将空间、通道级和时间注意整合到视觉3D CNN中，并将时间注意整合到音频2D CNN中。此外，我们设计了一种特殊的分类损失，即基于极性-情感层次约束的极性一致交叉熵损失来指导注意力的产生。在具有挑战性的 VideoEmotion-8 和 Ekman-6 数据集上进行的大量实验表明，所提出的 VAANet 优于最先进的视频情感识别方法。我们的源代码发布于：https://github.com/maysonma/VAANet。
移动设备和社交网络的便利使用户能够在日常生活中生成视频并上传到互联网，以分享他们的经验和表达个人意见。结果，正在创建爆炸式增长的视频量，这导致对这些视频的分析和管理的迫切需求。除了对象和动作等客观内容识别（Zhu et al. 2018; Choutas et al. 2018），了解视频的情感影响在以人为本的计算中起着重要作用。一方面，视频可以在很大程度上反映视频制作者的心理状态。我们可以预测生成者可能出现的极端行为，如抑郁、自杀等，并采取相应的预防措施。

Introduction

移动设备和社交网络的便利使用户能够在日常生活中生成视频并上传到互联网，以分享他们的经验和表达个人意见。结果正在创建爆炸式增长的视频量，这导致对这些视频的分析和管理的迫切需求。除了对象和动作等客观内容识别（Zhu et al. 2018; Choutas et al. 2018），了解视频的情感影响在以人为本的计算中起着重要作用。一方面，视频可以在很大程度上反映视频制作者的心理状态。我们可以预测生成者可能出现的极端行为，如抑郁、自杀等，并采取相应的预防措施。另一方面，能唤起强烈情感的视频更容易引起观众的共鸣，带来身临其境的观看体验。适当的情感共鸣对智能广告和视频推荐至关重要。用户生成的视频 (UGV)中的情感识别可以帮助企业分析客户如何评价其产品并协助政府管理互联网。
尽管随着深度学习的出现，在文本情感分类（Zhang, Wang, and Liu 2018）、图像情感分析（Zhao et al. 2018a; 2018b; Yang et al. 2018a）方面取得了显着进展 ) 和视频语义理解 (Zhu et al. 2018; Choutas et al. 2018)。由于以下挑战，UGV 中的情感识别仍然是一个未解决的问题。 (1) 类内变异大。在截然不同的场景中拍摄的视频可能会唤起类似的情绪。例如逛游乐园、参加体育比赛、玩电子游戏等，都可能让观众感到“兴奋”。这导致低级特征和高级情绪之间存在明显的“情感差距”。 (2) 结构一致性低。与电影（Wang 和 Cheong 2006）和 GIF（Jou、Bhat tacharya 和 Chang 2014；Yang、Zhang 和 Luo 2019）等专业和商业视频不同，UGV 通常采用不同的结构，例如各种分辨率和图像模糊噪声。 (3) 稀疏关键帧表达。
只有有限的关键帧直接传达和决定情绪，如图 1 所示，而其余的则用于介绍背景和上下文。 UGV 中大多数现有的情感识别方法都侧重于第一个挑战，即采用高级图像表示来弥合情感差距，例如 (1) 中级属性特征（Jiang、Xu 和 Xue 2014；Tu 等人 2019）像 ObjectBank (Li et al. 2010) 和 SentiBank (Borth et al. 2013)，(2) 高级语义特征 (Chen, Wu, and Jiang 2016) 如检测到的事件 (Jiang et al. 2017; Caba Heilbron 等人 2015）、对象（Deng 等人 2009）和场景（Zhou 等人 2014），以及 (3) 深度卷积神经网络 (CNN) 特征（Xu 等人 2018；Zhang 和徐 2018）。 Zhang 和 Xu (2018) 通过离散傅里叶变换将帧级空间特征转换为另一个核化特征空间，部分解决了第二个挑战。对于第三个挑战，视频要么被平均下采样到固定数量的帧（Zhang 和 Xu 2018），要么由来自一个片段的连续帧表示（Tu 等人 2019）。
上述方法对 UGV 情感识别的发展做出了贡献，但仍存在一些问题。 (1) 他们主要采用两阶段浅流水线，即提取视觉和/或音频特征和训练分类器。 (2) 单独提取每一帧的视觉CNN特征，忽略了相邻帧的时间相关性。 (3) 忽略了情绪可能由来自几个离散片段的关键帧决定的事实。 (4) 一些方法需要辅助数据，在实际应用中并不总是可用。例如，(Chen, Wu, and Jiang 2016) 中提取的事件、对象和场景特征在 FCVID (Jiang et al. 2017) 和 ActivityNet (Caba Heilbron et al. 2015)、Ima geNet ( Deng et al. 2009) 和 Places205 (Zhou et al. 2014) 数据集。 (5) 他们没有考虑不同情绪之间的相关性，例如极性-情绪层次约束，即属于同一极性的两种不同情绪的关系比来自相反极性的情绪更接近。
在本文中，我们提出了一种端到端的视觉-音频注意网络，称为 VAANet，以解决上述问题，用于识别 UGV 中的情绪，除了预训练数据外，不需要任何辅助数据。首先，我们将每个视频分成相等数量的片段。其次，对于每个片段，我们随机选择一些连续的帧并将它们送入 3D CNN（Hara、Kataoka 和 Satoh 2018），同时具有空间和通道方面的注意力以提取视觉特征。同时，我们将相应的音频波转换为频谱图，并将其输入 2D CNN (He et al. 2016) 以提取音频特征。最后，不同片段的视觉和音频特征通过时间注意力进行加权以获得整个视频的特征表示，然后是一个全连接层以获得情绪预测。考虑到极性-情感层次约束，我们设计了一种新的分类损失，即极性一致交叉熵（PCCE）损失，以指导注意力的产生。
总之，本文的贡献有三方面：1. 我们率先以端到端的方式研究了用户生成视频中的情感识别任务。 2. 我们开发了一种新颖的网络架构，即 VAANet，它将空间、通道和时间注意力集成到视觉 3D CNN 中，并将时间注意力集成到音频 2D CNN 中，用于视频情感识别。我们提出了一种新的 PCCE 损失，它使 VAANet 能够生成保留极性的注意力图。 3. 我们对 VideoEmotion-8 (Jiang, Xu, and Xue 2014) 和 Ekman-6 (Xu et al. 2018) 数据集进行了大量实验，结果证明了所提出的 VAANet 方法的优越性，与最先进的方法。
在这里插入图片描述
图 2：拟议的视觉和音频注意网络 (VAANet) 的框架。首先，来自音轨的 MFCC 描述符和视觉信息都被分成片段并分别输入 2D ResNet-18 和 3D ResNet-101 以提取音频和视觉表示。然后，视觉流的响应特征图被馈送到堆叠的空间注意、通道注意和时间注意子网络中，音频流的响应特征图被馈送到时间注意模块中。最后，将携带视觉和音频信息的参与语义向量连接起来。同时，优化了一种新颖的极性一致交叉熵损失来指导视频情感识别的注意力生成。

Visual-Audio Attention Network

我们提出了一种新颖的 CNN 架构，具有空间、通道和时间注意机制，用于用户生成视频中的情感识别。图 2 显示了所提出的 VAANet 的总体框架。具体来说，VAANet 有两个流，分别利用视觉和音频信息。视觉流由三个注意力模块组成，音频流包含一个时间注意力模块。视觉流中的空间注意力和通道注意力子网络旨在自动关注每个特征图中携带判别信息的区域和通道。视觉和音频流中的时间注意力子网络旨在为视频的不同片段分配权重。 VAANet 的训练是通过以端到端的方式最小化新设计的极性一致交叉熵损失来进行的。
关于提取 为了从长期视频中提取视觉表示，遵循 (Wang et al. 2016)，我们模型的视觉流处理从整个视频中稀疏采样的短片段。具体来说，我们将每个视频分成 t 个持续时间相等的片段，然后从每个片段中随机抽取 k 个连续帧的短片段。我们使用 3D ResNet-101（Hara、Kataoka 和 Satoh 2018）作为视觉流的主干。它以 t 个片段（每个片段有 k 个连续帧）作为输入，并独立地将它们处理到最后一个时空卷积层 conv5 成为一个超帧。假设给定N个训练样本{(xV l , yl)}N l=1，其中xV l是视频l的视觉信息，yl是对应的情感标签。对于样本xV l ，假设3D ResNet-101中conv5的feature map为FV l ∈ Rt×h×w×n（以下为简单起见省略l），其中h和w为空间大小（特征图的高度和宽度），n 是通道数，t 是片段数。我们将 FV 重塑为
在这里插入图片描述
通过展平原始 FV 的高度和宽度，其中 f V ij ∈ Rn 且 m = h × w。这里我们可以将 f V ij 视为第 i 个超帧中第 j 个位置的视觉特征。在下文中，为简单起见，我们省略了上标 V。
视觉空间注意力估计 我们采用空间注意模块来自动探索超帧中区域的不同贡献以预测情绪。按照 (Chen et al. 2017)，我们采用了一个双层神经网络，即一个 1 × 1 卷积层，然后是一个具有 softmax 函数的全连接层，以在所有超网络上生成空间注意力分布 -框架区域。也就是说，对于每个 Fi ∈ Rm×n(i = 1, 2, ··· , t)
在这里插入图片描述
（公式太多粘贴图片。。）
视觉通道注意估计假设 CNN 中特征图的每个通道都是相应卷积层的响应激活，通道注意力可以看作是选择语义属性的过程 (Chen et al. 2017)。为了产生通道注意，我们首先将 FV 转置到 G
在这里插入图片描述
视觉时间注意力估计对于一段视频，每一帧识别情绪的辨别力明显不同。只有一些关键帧包含判别信息，而其他关键帧仅提供背景和上下文信息 (Song et al. 2017)。基于这样的观察，我们设计了一个时间注意力子网络来自动关注包含关键帧的重要片段。为了产生时间注意力，我们首先将空间平均池应用于 GC 并将其重塑为 P
在这里插入图片描述
音频表示提取
特征是视觉特征的补充，因为它们包含另一种模态的信息。在我们的问题中，我们选择使用最著名的音频表示：梅尔频率倒谱系数 (MFCC)。假设我们给定 N 个音频训练样本 {(xA l , yl)}N l=1，其中 xA l 是来自视频 Vl 的整个 306 音轨的描述符，yl 是相应的情感标签。我们将 xA l 居中裁剪到固定长度 q 以获得 xA l ，并在必要时填充自身。与我们在提取视觉表示时采用的方法类似，我们将每个描述符分成 t 个片段，并使用 2D ResNet-18（He 等人，2016 年）作为独立处理描述符片段的模型音频流的主干。对于描述符 xA l ，假设 2D ResNet-18 中 conv5 的特征图为 FA l ∈ Rt×h ×w ×n（以下为了简单起见省略 l），其中 h 和 w 是特征图的高度和宽度，n是通道数，t是段数。我们将空间平均池化应用于 FA 并获得 FA ∈ Rt×n 。
音频时间注意力估计
出于将时间注意子网络集成到视觉流中的类似动机，我们引入时间注意子网络来探索不同片段中音频信息对识别情绪的影响
在这里插入图片描述
极性一致性交叉熵损失
我们连接 EV 和 EA 以获得聚合语义向量 E = [EV , EA] ，它可以被视为视频的最终表示，并被送入一个完全连接的层以预测情感标签。传统的交叉熵损失定义为

其中 C 是情感类的数量（本文中 VideoEmotion-8 的 C = 8 和 Ekman-6 的 C = 6），1[c=yi] 是二元指标，pi,c 是预测概率那个视频我属于c类。直接优化等式中的交叉熵损失。 (12) 会导致一些视频被错误地分类到极性相反的类别中。在本文中，我们设计了一种新颖的极性一致交叉熵 (PCCE) 损失来指导注意力的生成。也就是说，增加了与 ground truth 极性相反的预测的惩罚。 PCCE 损失定义为
在这里插入图片描述
其中λ是控制惩罚程度的惩罚系数。与指示函数类似，g(.,.)表示是否加入惩罚项，定义为

其中 polarity(.) 是将情绪类别映射到其极性（正面或负面）的函数。由于可以计算关于所有参数的导数，我们可以使用现成的优化器以端到端的方式有效地训练所提出的 VAANet，以最小化方程式中的损失函数。