Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining 论文阅读

何大春

于 2024-09-11 20:58:54 发布

阅读量618

点赞数 12

分类专栏：论文阅读文章标签：论文阅读音视频人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_44609958/article/details/142144908

版权

论文阅读专栏收录该内容

102 篇文章 9 订阅

订阅专栏

Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining 论文阅读

Abstract
Introduction
Related Work
Approach
Experiments
Conclusion

文章信息：

在这里插入图片描述

发表于：AAAI2022

原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/20263
源码：https://github.com/minghangz/cnm

Abstract

视频时刻定位的目标是定位与给定的自由形式自然语言查询最相关的视频片段。弱监督设定中，训练时只提供视频级描述，因其较低的标注成本，正逐渐受到越来越多的关注。之前的弱监督方法主要使用滑动窗口生成时间提案，这些提案与视频内容无关且质量较低，并且通过训练模型来区分从不同视频中收集的匹配和不匹配的视频-查询对，但忽略了模型需要在视频内部区分未对齐的片段。在本研究中，我们通过引入对比负样本挖掘（CNM）提出了一种新颖的弱监督解决方案。具体而言，我们使用可学习的高斯掩码生成正样本，突出与查询最相关的视频帧，并将视频中的其他帧和整个视频分别视为简单和困难的负样本。然后，我们通过视频内部对比损失（Intra-Video Contrastive loss）来训练我们的网络，使得正样本和负样本的区分性更强。我们的方法有两个优势：(1) 我们使用可学习高斯掩码生成提案的过程更加高效，并使正样本质量更高；(2) 更具挑战性的视频内部负样本使得我们的模型能够区分高度相似的场景。在两个数据集上的实验验证了我们方法的有效性。

Introduction

在这里插入图片描述

图 1: (a) 现有方法侧重于区分匹配和不匹配的视频-查询对（从不同视频中收集），而忽视了一个视频内不同片段的匹配程度。 (b) 我们重视在同一视频内挖掘正负样本。我们预测一个可学习的正样本，并将正样本之外的片段视为简单负样本，而将整个视频视为困难负样本。

视频时刻定位是一项重要但具有挑战性的任务，具有视频监控（Collins 等，2000）、机器人操作（Kemp、Edsinger 和 Torres-Jara，2007）等潜在应用。其目标是从未剪辑的视频中，依据查询句子在时间上定位与之最匹配的视频片段（即起始和结束时间）。近年来，全监督视频时刻定位取得了显著进展（Zhao 等，2021；Wang 等，2021a；Zhou 等，2021）。然而，为每个查询句子标注真实的时间边界是一项耗时且费力的工作，这在实际的大规模场景中削弱了全监督方法的可行性。因此，在训练期间仅提供视频级描述的弱监督设定更加实用，并逐渐引起了学术界的广泛关注。

然而，现有的弱监督解决方案（Mithun、Paul 和 Roy-Chowdhury 2019；Gao 等，2019；Lin 等，2020；Ma 等，2020；Huang 等，2021）存在两个局限性。首先，针对特定的查询，它们主要通过计算视频与查询之间的语义一致性来区分不同的视频，却忽略了同一视频内不同片段的匹配程度。具体而言，如图 1(a) 所示，大多数基于多实例学习（MIL）的现有解决方案通过最大化配对句子和视频的匹配得分，同时抑制未配对视频的得分，在视频层面学习视觉-文本对齐。基于重构的解决方案（Lin 等，2020；Song 等，2020）则通过与重构机制的联合学习来解决这一任务，假设最匹配查询的视频片段应该最好地重构整个查询。然而，对于它们所有人来说，给定一个特定的查询，所有的负样本都来自其他视频，这并不理想，因为它忽略了同一视频中未匹配的片段（如图 1(b) 所示）在活动的时间定位任务中，由于背景和视频风格的相似性，往往更难区分。其次，现有的提案生成过程独立于视频和查询句子，这导致信息不足且效率低下。当前主流的提案生成过程主要基于滑动窗口，无法根据不同的视频动态调整。它们在提案内汇集帧特征，忽视了事件的固有时间结构（即开始、高潮和结束），这可能导致语义上不相关的视觉-文本关系，且不具备良好的泛化能力。此外，为了保持较高的召回率，长视频需要生成大量密集的提案，导致计算复杂度的增加。

为了解决上述局限性，我们提出了一种新颖的弱监督方法，用于活动的时间定位，通过动态生成有信息量的提案并挖掘同一视频中的困难负样本进行训练。我们称其为对比负样本挖掘（CNM）。首先，为了在提案生成过程与视频级监督之间实现更深层次的结合，我们提出为每个视频生成一个可学习的高斯掩模，突出与查询最相关的视频片段，作为正样本。值得注意的是，我们的高斯掩模可以表示事件的时间结构，并且可以端到端地进行学习。其次，为了在视频中挖掘负样本，我们将未被高斯掩模突出的视频片段（如图 1(b) 中标记为橙色阴影的部分）视为简单负样本。整个视频也作为一个困难负样本，因为它通常包含大量冗余信息。我们提出了一种视频内对比（IVC）损失，确保与查询的相似性从大到小排序为正样本、困难负样本和简单负样本。通过将所有这些样本整合到训练过程中，我们可以学习到对时间敏感的视觉嵌入，从而提高时间定位的性能。

概括起来，我们工作的主要贡献是：

我们提出生成一个高斯掩模作为提案，该掩模可以表示事件的时间结构，并且可以通过网络进行学习。
与从不同视频中收集负样本相比，我们提出在同一视频中挖掘困难和简单的负样本，并使用视频内对比损失进行训练。使用这种负样本挖掘方案进行训练，使我们的网络能够区分高度相似的场景。
在 ActivityNet Captions (Caba Heilbron et al. 2015) 和 Charades-STA (Gao et al. 2017) 数据集上的实验表明，我们的方法在弱监督视频时刻定位任务中的有效性。

Related Work

全监督视频时刻定位。在全监督设置下，训练期间提供了每个视频和查询对的精确起始和结束时间戳注释。Gao等人（2017）提出的方法使用全连接层将句子和视频特征结合在一起。2D时间邻接网络（2DTAN）（Zhang等人，2020a）利用邻近帧的特征。此外，边界提案网络（BPNet）（Xiao等人，2021）通过多模态融合将生成的段级特征和查询特征融合。在Rodriguez-Opazo等人（2020）的工作中，构建了时空图，找到对象和人节点之间的关系。多阶段聚合Transformer网络（MSA）（Zhang等人，2021）尝试利用不仅仅是起始和结束时间戳，还包括帧的中间部分的特征。Zhou等人（2021）提出的方法使用K均值算法进行推理。双路径交互网络（DPIN）（Wang等人，2020）和结构化多级交互网络（SMIN）（Wang等人，2021a）构建结构化多级交互模块，以优化查询和片段之间逻辑关系的使用。然而，这些全监督方法需要大量的时间和劳动力进行注释，限制了它们的可扩展性和实用性。

弱监督视频时刻定位。与监督设置相比，弱监督设置仅提供视频和查询对。首先，一些方法如弱监督语义补全网络（SCN）（Lin等人，2020）引入了重建机制，声称与查询配对的视频片段可以更好地重建句子。然而，这些基于重建的方法忽视了来自未匹配视频和查询的信息进行对比学习。进一步地，其他工作（Yang等人，2021；Huang等人，2021；Mithun, Paul, 和 Roy-Chowdhury，2019）利用多实例学习（MIL）方法，将来自其他视频的未对齐视频-查询对视为负样本，并通过专门设计的损失函数训练模型将其与对齐样本区分开。然而，对于这些基于MIL的方法，它们的负样本对于模型区分的难度不足，使得模型无法有效区分视频中的高度混淆场景，因为不同视频的内容在视觉上是不同的。在我们的方法中，我们不仅使用重建机制，还使用负样本进行对比学习，SCN方法作为我们的基线。我们在同一视频中收集正样本之外的简单负样本，并将整个视频视为困难负样本，从而在训练过程中增加难度，使我们的网络能够区分高度混淆的场景。其次，Mithun等人（2019）；Chen等人（2020）；Huang等人（2021）提到的方法都使用滑动窗口生成提案。然而，这些方法生成的提案与视频内容无关。在训练过程中，这些模型会生成大量冗余提案，并使用非极大值抑制（NMS）（Neubeck 和 Van Gool，2006）进行后处理，这涉及大量的计算成本。在我们的方法中，我们引入了可学习的高斯掩模来帮助生成正样本，节省了通过滑动窗口生成大量提案的劳动力。

Approach

在这里插入图片描述

图 2：我们的方法在弱监督视频时刻定位中的框架。在图 2(a) 中，基于掩模的生成器融合了视频和查询的信息，预测一个高斯掩模，突出显示我们的正样本。未被高斯掩模突出显示的视频片段被视为简单负样本，整个视频作为困难负样本。基于掩模的重建器使用重建结果作为查询与正负样本之间语义相关性的度量。我们通过重建损失 $\mathcal{L}_{rec}$ 优化我们的基于掩模的重建器，以实现更好的重建，并通过 Intra-Video Contrastive 损失 $\mathcal{L}_{IVC}$ 优化掩模生成器，要求正样本、困难负样本和简单负样本的重建结果从好到差。图 2(b) 中，为了保持重建器对掩模的可微分性，我们引入了基于掩模的注意力机制，它通过掩模加权注意力图，并收集掩模突出显示的帧中的上下文信息。

CNM 的整体框架如图 2(a) 所示。它包括一个掩模生成器和一个基于掩模的重建器。在掩模生成器中，我们融合视频和语言的多模态信息，以预测高斯掩模，突出显示与查询最相关的视频片段，这些片段作为正样本。高斯掩模可以视为一个基于内容的高质量时间提案，可以进行端到端的学习。为了使模型能够区分高度混淆的场景，我们在同一视频中挖掘负样本。我们将未被高斯掩模突出显示的视频片段视为简单负样本。由于整个视频包含大量冗余信息，我们还将其视为困难负样本。在基于掩模的重建器中，我们使用重建性能作为查询的语义相似性度量，假设与查询完全匹配的片段可以更好地重建整个查询。为了使我们的重建器对掩模具有可微分性，我们设计了图 2(b) 中的基于掩模的注意力机制，它收集掩模突出显示的视频片段中的上下文信息，并使用融合的多模态信息来重建查询。我们的基于掩模的注意力机制通过高斯掩模中的值加权注意力图，这样可以防止掩模外的帧特征泄漏。最后，我们通过重建损失 $\mathcal{L}_{rec}$ 优化我们的基于掩模的重建器，以实现更好的重建，并通过 Intra-Video Contrastive 损失 $\mathcal{L}_{IVC}$ 优化掩模生成器，要求正样本、困难负样本和简单负样本的重建结果从好到差。

Mask Generator

为了生成高质量的基于内容的提案，我们的掩模生成器融合了视觉和语言这两种模态的信息，并预测一个高斯掩模作为我们的正样本。与之前使用滑动窗口生成提案的方法不同，我们的高斯掩模是可学习的，并且能够表征事件的固有时间结构（开始、高潮和结束）。为了使我们的模型能够区分高度混淆的场景，我们在同一视频中挖掘负样本：高斯掩模之外的视频帧被视为简单负样本，而整个视频（包含大量无关的冗余信息）被视为困难负样本。

Feature Extraction.我们首先将视频和查询编码成特征向量。具体而言，每个查询词使用 GloVe（Pennington, Socher, and Manning 2014）进行嵌入，查询表示为 $\left\{w_1, w_2, \ldots, w_M\right\} \in \mathbb{R}^{M \times D_W}$ ，其中 $M$ 是词的数量， $D_W$ 是词特征维度。视频以固定帧率采样为图像，每个图像由预训练的视觉骨干网络独立编码。视频表示为 $\left\{v_1, v_2, \ldots, v_N\right\} \in \mathbb{R}^{N \times D_V}$ ，其中 $N$ 是视频帧的数量， $D_V$ 是视频特征维度。在训练过程中，词嵌入和视觉骨干网络是冻结的。

Mask Generation. 由于事件通常包括开始、高潮和结束，我们提议使用高斯掩码作为提案，以表征事件的固有时间结构。因为 Transformer（Vaswani et al. 2017）在序列分析中取得了巨大成功，我们利用它来处理视频序列和文本序列的多模态交互，并获得融合了语义和视觉信息的特征 $\left\{h_1, h_2, \ldots, h_N\right\}$ 。

在这里插入图片描述
其中， $E(\cdot)$ 是 Transformer 编码器， $D(\cdot)$ 是 Transformer 解码器， $D_H$ 是隐藏特征维度。由于 $h_N$ 结合了所有帧和词汇特征，我们通过 $h_N$ 预测我们的高斯中心 $c$ 和宽度 $w$ 。

在这里插入图片描述
其中， $\text{FC}(\cdot)$ 表示一个单层全连接网络。具有中心 $c$ 和宽度 $w$ 的视频片段是我们的正样本，对应的正高斯掩码 $m^p$ 被表示为：

在这里插入图片描述
其中， $m_i^p$ 是第 $i$ 帧视频在高斯掩码中的权重， $\alpha$ 是控制高斯函数方差的超参数。

Negtive Sample Mining.为了使我们的模型能够区分高度混淆的场景，我们在同一视频中挖掘负样本。这些视频内部的负样本是模型在推理过程中需要区分的对象。与其他仅仅使用未匹配视频作为负样本的方法相比，我们的负样本能够为模型提供更丰富的信息。

首先，我们将被 $m^p$ 抑制的帧视为易负样本 $m^e$ ，以掩码的形式表示如下：

在这里插入图片描述

易负样本由视频中与查询无关的帧组成，但这些帧可能具有与正样本相似的背景和语义，因此容易混淆。通过训练模型区分易负样本和正样本，可以提高模型在高度混淆场景中的表现。

其次，在大多数情况下，整个视频也可以视为一个负样本，因为它包含了许多与查询无关的冗余信息。因此，我们将整个视频视为一个难负样本 $m^h$ ，表示为：

在这里插入图片描述
难负样本由正样本以及许多无关的视频帧组成，模型更难以区分。通过训练模型区分难负样本和正样本，可以帮助模型更准确地定位，并防止模型输出包含真实标注在内的较长预测结果。

由于难负样本包含正样本以及大量无关的冗余信息，而易负样本不包含任何正确的片段，因此这三种样本与查询的语义相关性应满足以下条件：

在这里插入图片描述

其中， $R(\cdot)$ 是一个函数，用于评估查询 $W$ 与由掩码 $m$ 表示的视频片段的相关性，该函数将在后续部分讨论。

Mask Conditioned Reconstructor

受 SCN 启发，我们的掩码条件重建器在任意样本掩码的条件下重建原始查询，重建结果作为正样本/负样本与查询之间语义相似度的度量。为了保持重建器对掩码的可微性，我们引入了掩码条件注意力，它通过掩码加权注意力图，并收集掩码高亮的帧中的上下文信息。我们的重建器使用标准的 Transformer 结构，并将传统的注意力机制替换为掩码条件注意力。为了端到端优化生成的掩码，我们设计了 Intra-Video Contrastive 损失 $L_{IVC}$ ，该损失要求正样本、硬负样本和易负样本的重建结果从好到坏。为了优化我们的掩码条件重建器，我们使用重建损失 $L_{rec}$ 来最小化重建查询与原始查询之间的交叉熵损失。

Mask Conditioned Attention.我们的重建器使用标准的 Transformer 结构来执行多模态交互。为了保持重建器对掩码的可微性，我们在图 2(b) 中引入了掩码条件注意力。我们用掩码条件注意力替换了 Transformer 中的传统注意力机制 (Vaswani et al. 2017)，其他组件保持不变。我们的掩码条件重建器包括一个编码器 $E_m(\cdot)$ 和一个解码器 $D_m(\cdot)$ ，可以处理任意掩码作为输入，并将注意力限制在掩码高亮的帧上。

编码器 $E_m(\cdot)$ 以掩码 $\in \mathbb{R}^N$ 和视觉特征 $\in \mathbb{R}^{N \times D_V}$ 作为输入，交换掩码高亮的帧特征中的信息。我们首先通过一个全连接层将 $V$ 投影为注意力查询 $Q_a \in \mathbb{R}^{N \times D_H}$ 、键 $K_a \in \mathbb{R}^{N \times D_H}$ 和值 $V_a \in \mathbb{R}^{N \times D_H}$ 。然后，我们计算 $Q_a$ 和 $K_a$ 之间的相似性，并得到注意力图 $\frac{Q_a K_a^T}{\sqrt{D_H}} \in \mathbb{R}^{N \times N}$ 。为了将注意力限制在掩码 $m$ 高亮的帧上，我们在每一行的 ${A}$ 上乘以 $m$ 。经过逐行的 Softmax 操作后，注意力图与 $V_a$ 相乘以输出聚合的上下文信息：

在这里插入图片描述

其中， $\otimes$ 表示 $m$ 将乘以 $A$ 的每一行，Softmax 操作应用于每一行。解码器 $D_m(\cdot)$ 以掩码 $m$ 、查询特征 $W$ 和 $E_m(\cdot)$ 的输出作为输入，并收集在掩码高亮的帧特征中的每个词特征的上下文信息。 $D_m(\cdot)$ 的计算方式类似于 $E_m(\cdot)$ ，只不过注意力查询 $Q_a$ 是从查询 $W$ 投影而来，而键 $K_a$ 和值 $V_a$ 则是从 $E_m(\cdot)$ 的输出中投影而来。

Mask Conditioned Semantic Completion.为了衡量正样本和负样本与查询的语义相关性，我们使用我们的掩码条件重构器根据掩码高亮的帧来重构查询，假设那些与查询完全匹配的帧能够更好地重构整个查询。

沿用 SCN 的方法，我们随机将原始查询中的 1/3 的词替换为特定符号，其中名词、动词和形容词的替换概率较高。我们用 $\hat{W}$ 表示经过 GloVe 嵌入的掩码查询（Pennington, Socher, and Manning 2014）。然后，我们使用我们的掩码条件注意力来获得基于正样本掩码 $m^p$ 的跨模态语义表示 $H^p$ ：

在这里插入图片描述

然后，将一个全连接层应用于 $H^p$ ，并输出条件于正样本掩码的词汇表中下一个词的概率分布 $P^p$ ：

在这里插入图片描述

其中 FC $\cdot )$ 是一个全连接层， $N_w$ 是词汇表的大小。然后，我们使用交叉熵损失来计算 $P^p$ 和真实分布之间的差异：

在这里插入图片描述
同样地，我们可以通过将 $m^p$ 替换为 $m^e$ 和 $m^h$ 分别获得 $\mathcal{L}_{ce}^e$ 和 $\mathcal{L}_{ce}^h$ 。由于只有正样本和整个视频（硬负样本）包含与查询相关的片段，因此只有它们可以原则上重构查询。因此，只有 $\mathcal{L}_{ce}^p$ 和 $\mathcal{L}_{ce}^h$ 将参与掩码条件重构器的优化。最终重构损失 $\mathcal{L}_{rec}$ 定义为：

在这里插入图片描述
Intra-Video Contrastive. 为了优化我们的掩码生成器，我们训练我们的模型来区分正样本和负样本。如公式 (7) 所示，查询与正样本、硬负样本和易负样本之间的语义相似度应该满足一定的关系。类似于边距排名损失（Balntas 等人 2016），我们的 Intra-Video Contrastive 损失 $\mathcal{L}_{IVC}$ 可以被表述为：

在这里插入图片描述
其中 $\beta_1$ 和 $\beta_2$ 是超参数，满足 $\beta_1 < \beta_2$ 。 $\mathcal{L}_{IVC}$ 要求正样本的损失至少比硬负样本的损失小 $\beta_1$ ，并且至少比易负样本的损失小 $\beta_2$ 。

Model Training and Inference

在本节中，我们描述了用于训练网络的损失函数和推理过程。我们的网络主要包括两个部分的损失：重建损失 $\mathcal{L}_{rec}$ 用于优化掩膜条件重建器，该损失鼓励网络准确预测与给定掩膜相关的描述；而 intra-video 对比损失 $\mathcal{L}_{IVC}$ 用于优化掩膜生成器，该损失鼓励网络选择合适的高斯掩膜，使正负样本更加可区分。

Training.为了要求重建器尽力从视频片段中重建查询，无论其是正样本还是负样本，IVC损失仅用于训练掩膜生成器，而重建损失仅用于训练掩膜条件重建器。具体来说，我们首先通过 $\mathcal{L}_{rec}$ 更新重建器，同时冻结掩膜生成器；然后，我们通过 $\mathcal{L}_{IVC}$ 更新掩膜生成器，同时冻结重建器。

在这里插入图片描述

其中 $\theta_1$ 是掩膜生成器的参数，而 $\theta_2$ 是掩膜条件重建器的参数。这种设计可以避免重建器总是对预测的负样本给出低分的简单解决方案，这种情况容易在早期训练阶段积累错误。

Inference.我们的模型推理过程非常简单。通过方程（2）和（3），我们可以获得预测的高斯掩膜的中心 $c$ 和宽度 $w$ 。时间边界 $(s, e)$ 可以通过以下方法获得：

在这里插入图片描述

由于不需要使用滑动窗口生成密集的提议，我们的模型摒弃了复杂的后处理操作，如非极大值抑制（NMS）（Neubeck 和 Van Gool 2006）。

Experiments

在这里插入图片描述

Conclusion

在这项工作中，我们提出了一种新颖的弱监督视频片段定位方法，称为对比负样本挖掘（CNM）。我们的 CNM 生成了一个可学习的高斯掩码作为正样本，确保了召回率与效率之间的平衡。CNM 还提出了一种新颖的方法，用于挖掘同一视频中的困难和简单负样本，使得 CNM 能够区分高度混淆的场景。在 ActivityNet Captions 和 CharadesSTA 数据集上的广泛实验和消融研究证明了 CNM 的优势。

何大春

关注

12
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining 论文阅读

视频时刻定位的目标是定位与给定的自由形式自然语言查询最相关的视频片段。弱监督设定中，训练时只提供视频级描述，因其较低的标注成本，正逐渐受到越来越多的关注。之前的弱监督方法主要使用滑动窗口生成时间提案，这些提案与视频内容无关且质量较低，并且通过训练模型来区分从不同视频中收集的匹配和不匹配的视频-查询对，但忽略了模型需要在视频内部区分未对齐的片段。在本研究中，我们通过引入对比负样本挖掘（CNM）提出了一种新颖的弱监督解决方案。
复制链接

扫一扫

专栏目录