Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network阅读-CSDN博客

本文链接：https://blog.csdn.net/zhuzyibooooo/article/details/131891846

摘要

自动预测用户生成视频 (UGV) 的情绪最近受到越来越多的关注。然而，现有的方法主要集中在几个关键的视觉帧上，这可能会限制它们对描述预期情绪的上下文进行编码的能力。为了解决这个问题，在本文中，我们提出了一种跨模式时间擦除网络，它不仅可以定位关键帧，还可以以弱监督的方式定位上下文和音频相关信息。具体来说，我们首先利用不同片段之间的模内和模间关系来准确选择关键帧。然后，我们迭代地删除关键帧，以鼓励模型专注于包含补充信息的上下文。对三个具有挑战性的视频情感基准的广泛实验表明，我们的方法比最先进的方法表现得更好。
我们的贡献可以总结如下：1）我们引入了一个弱监督网络来利用统一CNN框架中的关键帧和必要的上下文，这鼓励模型从多个判别部分中提取特征并学习更好的视频情感分析表示。 2）我们利用模内和模间关系仅通过视频级注释提供帧级本地化信息，模型通过该信息整合情感计算的整体和局部表示。我们通过大量的实验证明了上述贡献的优点。我们的方法在三个视频情感数据集上实现了最先进的方法。

方法

在这里插入图片描述
图 2.我们的pipeline示意图。给定一个视频，它自然包含两种类型的模态（即视觉和音频）。首先，我们使用 3D ResNet-101 提取视觉流的特征，并使用 2D ResNet-50 从音频流中提取特征。其次，引入时间相关性学习模块来对两种模态的模态内和模间关系进行建模。然后，时间擦除模块擦除最主要的视觉和音频信息，以在线生成困难的训练样本。最后，将训练样本输入到模型中，以找出更多的补充信息。

Visual-Audio Representation Extraction

视觉表示提取：为了从用户生成的视频中获取视觉表示，我们按照[50, 65]提取视觉特征。首先，给定一个视频，我们将其分成 T 个等长的片段，并从每个片段中随机选择 k 个连续的帧。其次，我们采用 3D ResNet-101 [15] 来提取每个视频中的每个片段特征。然后，它将 T 片段作为输入并独立处理它们。因此，对于给定的视频 l，输出是一组分段特征，可以表示为 Fv(l) = fv1(l),fv2(l),fv3(l),…,fvT(l)。对于每个分段级特征fvi（l），fvi（l）εRH×W×C和H，W分别表示特征图的高度和宽度。此外，C是特征的维度。音频表示提取：音频流可以被认为是视觉流的辅助信息。我们按照工作[65]使用最常用的音频特征描述，即梅尔倒谱系数（MFCC）。给定一个视频，我们可以通过 MFCC 获得音频流的连续鉴别器。我们将连续的判别器分成 T 段，这与视觉上的相同

Temporal Correlation Learning

在上节中，我们分别通过预训练的3D ResNet-101和2D ResNet-50提取了视频特征Fv和音频特征Fa。然后，特征Fv和Fa T×C T×C′在空间平均池化后重塑为Fv ε R和Fa ε R。正如[51]中所讨论的，受其感受野的限制，3D CNN 无法直接对每个视频中不同片段之间的相关性进行建模。同时，我们使用 2D CNN 来提取音频块上的音频特征，但它也无法对这种相关性进行建模。为了更好地定位视频和音频序列中的重要片段，我们需要考虑不同片段的相关性。受此启发，我们建议从以下两个方面增强学习到的视频特征。首先，我们对不同细分市场之间的模态内相关性进行建模。其次，我们引入了模态间注意模块，以从多模态信息中学习更多关于不同框架的互补信息。
模态内关系建模：给定 T 段视频和音频序列，我们获得视频特征 Fv ∈ T×C T×C′ R 和音频特征 Fa ∈ R （为了方便起见，我们用 F 表示），其中 C 和 C 是提取特征的维度。受到计算机视觉中经典非局部注意力机制[5, 48]的启发，我们开发了模态内注意力模块来模拟每个模态中不同帧之间的远程依赖关系。具体来说，我们首先通过三个线性投影函数 θ、φ、g 将特征 F 嵌入到三个子空间中：
在这里插入图片描述
其中我们对每一行应用 softmax 归一化，相似度矩阵 S(Q, K) ∈ RT ×T 编码每个查询片段和所有片段之间的相关性。为了增强每个片段与其他时间片段的特征，我们通过时间相关权重 S 融合值特征，可以将其实现为矩阵:
在这里插入图片描述
其中Z和输入特征F有相同的维度，为了将模态内时间模块合并到预训练网络中并简化其优化，我们添加了一个残差连接作为输入特征和增强特征之间的短路径：

其中 Wz 是控制模内时间融合重要性的可学习参数。我们用Fa和F分别代表Fa和Fv的增强特征。总的来说，模内时间模块利用了视频和音频特征的成对相关性<fi，fj>，其中i和j是片段的索引。这种建模利用了每个片段之间的长程依赖性，补充了由预训练的 2D ResNet-50 和 3D ResNet-101 编码的短程信息。

模态间关系建模模内时间融合可以通过捕获全局时间依赖性来增强提取的特征。然而，每个模态都有与其他模态的补充信息，这也有利于学习不同框架之间的关系。受此启发，我们开发了模态间注意力来学习更强大的表示。我们将方程（2）中的Sv←a（Qv，Ka）和Sa←v（Qa，Kv）分别表示为在视频和音频特征之间提取的时间相关矩阵。在模内时间融合中，相关矩阵用于指导原始模态内的融合，即增强视频特征Fv是视觉值特征Fv的加权和。在某些情况下，不同片段之间的时间相关性不能用单一模态很好地表示。例如，在晚上，黑暗的环境无法传达有意义的视觉信息。我们需要音频特征来指导视觉时间融合，反之亦然。具体来说，在模态间注意模块中，我们使用音频模态 Fa 的特征来指导视觉时间相关性的计算。同时，音频时间相关性由视觉特征 Fv 引导。模内时间融合中的方程（3）可以表述如下：
在这里插入图片描述
其中 Uv 和 Ua 分别表示音频和视觉模态的模间增强特征。我们还为输入特征添加了残差连接以简化优化，其公式为：

从视觉和音频流中提取增强的特征后，我们将它们及其维度集中在一起。总的来说，模态间注意模块利用了成对相关性，并通过跨模态时间相关性来指导融合。模态间注意力模块可以使两种模态相互补充。通过所提出的模内和模间注意模块，我们可以学习更多有代表性的特征来识别 UGV 中的情绪。

3.3. 时间擦除模块

如上所述，我们首先介绍如何使用模态内注意力来捕获每个模态中帧之间的长程依赖关系。模态间注意模块旨在对音频和视觉模态之间的关系进行建模，这有利于指导两种模态的融合。在上述两个模块中，我们可以更好地了解每个UGV中框架之间的关系。根据现有的工作[47, 65]，我们可以知道不同的帧对视频情感识别的贡献不同。除了直接唤起情感的关键帧之外，一些包含背景或上下文的其他帧在理解 UGV 所传达的情感方面也发挥着非常重要的作用。然而，通常很难找到上下文框架，因为它们通常不太重要。受到擦除关键区域以找到互补区域的先进工作[53, 62]的启发，我们引入了一种简单而有效的方法来寻找更多互补框架来感知UGV中的高度抽象情感，即时间擦除模块。我们的时间擦除模块擦除了由注意力权重引导的主导信息作为重要指标，这鼓励模型研究补充证据和主导证据。具体来说，该模型从上述注意模块中充分了解了每个 UGV 中不同帧之间的关系。然后，我们应用[65]之后的时间注意力模块来自动找出重要的片段。视觉 ATv 和音频 ATa 流的时间注意力模块定义为：
在这里插入图片描述
其中W1、W2、W1′、W2′表示四个可学习参数矩阵，⊤表示矩阵的转置。然后，我们使用以下等式对 ATv 和 ATa 注意力图进行归一化：

通过时间注意力图 Av 和 Aa，我们可以找到关键帧并删除它们，以驱动我们的模型寻找更多补充信息。擦除掩码定义如下：
在这里插入图片描述
其中θ是可以手动设置的超参数。根据擦除掩码，我们擦除一些片段，剩下的片段形成一个新的UGV。然后，将左侧片段再次输入到网络中，以迫使网络寻找更多补充信息来进行视频情感识别。请注意，该模块独立于主干架构，并且可以通过任何基于注意力的结构应用，而无需添加额外的模型参数或复杂性。

实验

在这里插入图片描述