【视频异常检测】Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised... 论文阅读

最新推荐文章于 2024-07-22 21:23:08 发布

何大春

最新推荐文章于 2024-07-22 21:23:08 发布

阅读量1.4k

点赞数 32

分类专栏：论文阅读文章标签：音视频论文阅读计算机视觉深度学习 prompt python

本文链接：https://blog.csdn.net/weixin_44609958/article/details/137866590

版权

论文阅读专栏收录该内容

107 篇文章 12 订阅

订阅专栏

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection 论文阅读

Abstract
1. Introduction
2. Related Work
3. Method
4. Experimental Results
5. Conclusions
阅读总结

for Weakly Supervised Video Anomaly Detection 论文阅读)

文章信息：
在这里插入图片描述

原文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_Exploiting_Completeness_and_Uncertainty_of_Pseudo_Labels_for_Weakly_Supervised_CVPR_2023_paper.pdf
源码：https://github.com/ArielZc/CU-Net
发表于：CVPR 2023

Abstract

弱监督视频异常检测旨在仅利用视频级别标签来识别视频中的异常事件。最近，两阶段自训练方法通过自动生成伪标签并利用这些标签自我调整异常分数取得了显著的改进。由于伪标签起着关键作用，我们提出了一种增强框架，通过利用完整性和不确定性属性来实现有效的自训练。具体而言，我们首先设计了一个多头分类模块（每个头作为一个分类器），并采用多样性损失来最大化不同头部预测的伪标签分布差异。这鼓励生成的伪标签尽可能涵盖多个异常事件。然后，我们设计了一个迭代的不确定性伪标签优化策略，该策略不仅改进了初始伪标签，还改进了第二阶段中所需分类器获得的更新后伪标签。大量实验证明，所提出的方法在UCF-Crime、TAD和XD-Violence基准数据集上表现优于现有方法。

1. Introduction

自动检测视频中的异常事件因其在智能监控系统中的广泛应用而受到越来越多的关注。由于视频中异常事件稀疏，因此最近的研究主要在弱监督学习框架内进行[5,12,19,25,27,29,32,34,37-41]，其中仅提供视频级别的注释。然而，异常检测的目标是在测试期间预测帧级别的异常分数。这给弱监督视频异常检测带来了巨大挑战。

现有的方法主要分为两类：

基于多实例学习（MIL）的单阶段方法和两阶段自训练方法。单阶段的MIL方法[19, 27, 29, 39, 41]将每个正常和异常视频分别视为负袋和正袋，视频中的剪辑是袋中的实例。将异常检测问题形式化为回归问题，这些方法采用排名损失来鼓励正袋中的最高异常分数高于负袋中的分数。由于缺乏剪辑级别的注释，基于MIL的方法生成的异常分数通常不够准确。

为了缓解这个问题，提出了两阶段的自训练方法[5, 12]。在第一阶段，使用MIL方法为剪辑生成伪标签。在第二阶段，MIST [5] 利用这些伪标签来优化判别性表示。相反，MSL [12] 通过基于Transformer的网络来优化伪标签。尽管取得了进展，但现有方法仍存在两个限制。

首先，在伪标签生成器中使用的排名损失忽视了异常事件的完整性。原因是，如图1所示，正袋可能包含多个异常剪辑，但MIL被设计为仅检测最可能的异常剪辑。

第二个限制是在第二阶段没有考虑生成的伪标签的不确定性。由于伪标签通常是嘈杂的，直接使用它们来训练最终的分类器可能会影响其性能。

在这里插入图片描述

图1. 完整性的说明：（a）代表包含多个异常剪辑的视频（地面真实异常在橙色区域）。现有方法倾向于专注于最异常的剪辑，如（b）所示。我们建议使用多头分类模块以及多样性损失来鼓励伪标签涵盖完整的异常事件，如（c）所示。

为了解决这些问题，我们提出利用完整性和不确定性属性来增强伪标签。
具体而言，为了鼓励对异常事件的完整检测，我们提出了一个多头模块来生成伪标签（每个头充当一个分类器），并引入了多样性损失来确保多个分类头生成的伪标签的分布差异。通过这种方式，每个头倾向于发现不同的异常事件，因此伪标签生成器尽可能地涵盖多个异常事件。

然后，我们设计了一种基于不确定性的迭代训练策略，而不是直接使用所有伪标签来训练最终的分类器。我们使用蒙特卡洛（MC）Dropout [6]来衡量不确定性，并且仅使用具有较低不确定性的剪辑来训练最终的分类器。在第一次迭代中，我们利用这种不确定性来优化第一阶段得到的伪标签，在剩余的迭代中，我们将其用于优化期望的最终分类器的输出。

我们设计了一个多头分类器方案，并引入了多样性损失，以鼓励伪标签尽可能涵盖多个异常剪辑。
我们设计了一种迭代式的不确定性感知自训练策略，逐步提高伪标签的质量。
对UCF-Crime、TAD和XD-Violence数据集的实验表明，与几种最先进的方法相比，我们的方法表现优异。

2. Related Work

Semi-Supervised Methods.在半监督设置中，训练集仅需要正常视频。半监督视频异常检测方法可以分为基于单类分类器的方法[24, 33, 36]和基于重建的方法[1, 3, 4, 9, 16, 21, 22]。在基于单类分类器的方法中，模型通过学习正常视频的信息构建一个区分正常事件和异常事件的边界。Xu等人[36]采用自编码器学习外观和运动特征及其关联，并使用多个单类分类器基于这三个学习到的特征表示来预测异常分数。Sabokrou等人[24]提出采用对抗方式训练端到端的单类别分类模型。针对复杂场景中的异常检测问题，Wu等人[33]提出使用卷积神经网络共同优化表示学习和单类分类。基于重建的方法旨在最小化训练数据的重建误差，并将最小误差作为区分异常性的阈值。一些方法[4, 22]学习正常视频的字典，不能由字典表示的视频剪辑被判定为异常。其他方法[3, 9]通过自编码器学习正常视频序列的规则，产生较高重建误差的事件被判定为异常。为防止模型过度拟合正常视频，后续工作[1, 16, 21]引入了一个用于记录正常模式的记忆模块。

Weakly Supervised Methods.与半监督设置不同，弱监督方法的训练集中既包含正常视频又包含异常视频，但缺少帧级别的注释。大多数弱监督异常检测方法都是单阶段的基于MIL的方法。在[27]中，提出了第一个基于排名损失的MIL方法，并附带了一个大规模视频异常检测数据集。后来，张等人[39]提出了一种内部袋排序损失，与外部袋排序损失相辅相成。为了学习一个能够更好地检测异常的动作感知特征，朱等人[41]使用注意力模块将时间上下文引入多实例排序模型。田等人[29]通过训练一个时间特征幅度学习函数开发了一个稳健的前K个MIL方法。为了有效利用时间上下文，吕等人[19]提出了一个高阶上下文编码模型。张等人[38]旨在通过使用元学习来解决异常检测任务中存在的开放事件问题。Sapkota等人[25]以贝叶斯非参数的方式构建了一个子模块多样化的MIL损失，可以满足更多现实设置下的异常检测，包括异常值和多模态场景。

最近，提出了两阶段自训练方法，用于生成更准确和精细的异常分数，采用了两阶段流程，即首先生成伪标签，然后将其输入到分类模块中。冯等人[5]提出利用多实例伪标签生成器提供的信息来微调特征编码器，生成更具判别性的特征，特别用于视频异常检测任务。李等人[12]选择由多个实例的异常分数之和最高的序列作为排名损失的优化单元，并通过采用自训练策略逐渐减少序列长度来优化异常分数。除了上述两类方法之外，还有一些新颖的想法用于弱监督视频异常检测。钟等人[40]将弱监督异常检测问题重新构造为在嘈杂标签下的监督学习任务。吴等人[34]提出了一个音视频数据集，并设计了一个全局和局部的框架，明确建模视频片段之间的关系，学习具有判别性的特征表示。在[32]中，吴等人进一步探讨了时间关系和判别性特征对弱监督异常检测的重要性。

Self-Training.自训练是半监督学习中的主流技术之一[11, 23, 30]，最近在分类[7, 20, 35]和域自适应[14, 42]等任务中已经显示出重要的进展。对于自训练，训练数据包括少量标记数据和大量未标记数据。其核心思想是使用用标记数据训练的模型生成未标记数据的伪标签，然后将模型与标记数据和伪标签一起进行训练。训练过程重复进行直到模型收敛。在弱监督视频异常检测中，冯等人[5]提出了一个自训练框架，其中由多实例伪标签生成器生成的剪辑级别的伪标签被分配给所有异常视频的剪辑，以优化特征编码器。最类似于我们的工作的是李等人[12]提出的多序列学习方法，通过自训练逐渐减少所选序列的长度来优化异常分数。然而，这些方法使用的自训练机制没有考虑伪标签的不确定性，导致了由嘈杂的伪标签引导的逐渐偏离的自训练过程。相反，我们开发了一种考虑不确定性的自训练策略，可以减少不可靠伪标签的影响。我们还考虑了视频理解中时间上下文的重要性，以更好地优化异常分数。

3. Method

在这里插入图片描述

图2. 提出方法的流程图：（1）完整性增强伪标签生成器（第3.2节）：首先，我们使用预训练的3D CNN提取视频特征。然后将特征输入到受多样性损失约束的多头分类器中，以鼓励检测完整的异常事件。同时，使用MIL排名损失来约束异常段的异常分数大于正常段的异常分数。（2）迭代式不确定性感知伪标签优化（第3.3节）：在第一次迭代中，我们从第一阶段的多头分类器中获得初始的剪辑级别伪标签，并通过蒙特卡洛Dropout计算其不确定性。然后根据不确定性选择可靠的剪辑来训练一个新的剪辑分类器。在剩余的迭代中，使用新的剪辑分类器来更新伪标签。

基于完整性和不确定性的提出的伪标签增强框架如图2所示。我们首先使用经过多样性损失和MIL排名损失训练的多头分类器生成初始的剪辑级别伪标签。然后，我们利用一种迭代的不确定性感知的伪标签优化策略逐渐提高伪标签的质量，以训练最终的期望分类器。接下来，我们首先阐述弱监督视频异常检测任务，然后详细说明我们方法的每个组成部分。

3.1. Notations and Preliminaries

假设我们有一组 $N$ 个视频 $\mathcal{V}=\{\mathcal{V}_i\}_{i=1}^N$ 和地面真实标签 $\mathcal{Y}=\{\mathcal{Y}_i\}_{i=1}^N\in\{1,0\}$ 。如果视频中存在异常剪辑，则 $\mathcal{Y}_i=1$ ；否则， $\mathcal{Y}_i=0$ 。在训练过程中，只有视频级别的标签可用。然而，在测试阶段，该任务的目标是生成帧级别的异常分数，以指示异常事件的时间位置。遵循之前基于MIL的方法[19,27,32,39,41]，对于每个输入视频 $\mathcal{V}_i$ ，我们首先将其分成16帧不重叠的 $T_i$ 剪辑，并使用预训练的3D卷积网络提取特征，形成剪辑特征序列 $C_i=\{c_{i,1},c_{i,2},\ldots,c_{i,T_{i}}\}\in \mathbb{R}^{T_{i}\times D_{V}}$ ，其中 $T_{i}$ 是提取的视频剪辑特征的数量， $D_V$ 是特征维度。由于长时间的未剪辑视频可能包含不同数量的剪辑，这对于训练来说是不方便的。因此，与[27,29]一致，视频剪辑特征被合并为 $S$ 个时间视频段，表示为 $\mathcal{X}_{i}=\{x_{i,1},x_{i,2},\ldots,x_{i,S}\}\in\mathbb{R}^{S\times D_{V}}$ ，通过对连续多个剪辑特征进行平均。我们将异常视频 $\mathcal{V}_i^a$ 视为正样本包，将正常视频 $\mathcal{V}_i^n$ 视为负样本包，并将每个段 $x_{i,s}^a$ 或 $x_{i,s}^n$ 视为包中的一个实例。

3.2. Completeness of Pseudo Labels

受[13]启发，该论文使用多样性损失来建模动作的完整性，我们设计了一个增强完整性的伪标签生成器，由并行的多头分类器组成，以及一个多样性损失，以尽可能检测视频中的多个异常事件。每个头 $f_g(\cdot;\phi^k)$ 由三个全连接层组成，参数化为 $\phi^k$ 。以视频段特征 $\mathcal{X}_i=\{x_{i,s}\}_{s=1}^S$ 为输入，每个头输出每个段的异常分数，进一步通过softmax生成分数分布：

在这里插入图片描述
其中， $\hat{\mathcal{Y}}_i^k\in\mathbb{R}^{S\times1}$ 表示第 $i$ 个视频的来自第 $k$ 个头的分数分布。然后，通过多样性损失来强制 $K$ 个头的预测分布彼此不同，该损失最小化任意两个头之间分布的余弦相似度：

其中， $Z=\frac12K(K-1)$ 。对段分数序列的范数施加正则化项，以平衡多个头，并避免由一个头主导导致的性能下降：
在这里插入图片描述
其中， $\mathcal{A}^k = f_g\left(\mathcal{X}_i;\phi^k\right)$ 表示第 $k$ 个头生成的异常分数， $\mathcal{A}^{avg}$ 是每个头产生的异常分数的平均值： $\mathcal{A}^{avg} = \frac{1}{K} \sum_{k=1}^K \left(f_g\left(\mathcal{X}_i;\phi^k\right)\right)$ .

在多样性损失和范数正则化的作用下，多个头生成的异常分数可以达到最大的差异化，并检测不同的异常段。最后， $A^{avg}$ 后面跟着一个sigmoid函数，以获得从0到1的预测段级标签：
在这里插入图片描述
其中， $\hat{\mathcal{Y}}_i=\{\hat{y}_{i,1},\hat{y}_{i,2},\ldots,\hat{y}_{i,S}\}$ 表示第 $i$ 个视频的预测段级标签。对于异常视频 $\nu_i^a$ ，预测的标签表示为 $\hat{\mathcal{Y}}_i^a=\left\{\hat{y}_{i,1}^{a},\hat{y}_{i,2}^{a},\ldots,\hat{y}_{i,S}^{a}\right\}$ 。对于正常视频 $\mathcal{V}_i^n$ ，预测的标签表示为 $\hat{\mathcal{Y}}_i^n=\{\hat{y}_{i,1}^n,\hat{y}_{i,2}^n,\ldots,\hat{y}_{i,S}^n\}$ 。

与[27]类似，采用排名损失来约束异常视频的最高异常分数高于正常视频的分数：
在这里插入图片描述

为了最大化正负实例之间的可分离性，使用了基于铰链的排序损失:
在这里插入图片描述
最后，完整性增强的伪标签生成器使用以下损失进行训练：

其中α是平衡损失的超参数。

3.3. Uncertainty of Pseudo Labels

我们提出了一种不同于直接使用第一阶段（第3.2节）获得的剪辑级伪标签来训练最终期望的剪辑分类器 $f_c$ 的不确定性感知自我训练策略，以挖掘具有可靠伪标签的剪辑。具体来说，我们引入了利用蒙特卡洛（MC）Dropout[6]估计不确定性的方法，以便选择具有低不确定性（即可靠）伪标签的剪辑用于训练 $f_c$ 。这个过程进行了多次迭代。在这些迭代过程中，伪标签不断地被优化，最终生成高质量的细粒度伪标签用于训练最终期望的剪辑分类器 $f_c$ 。需要注意的是，伪标签最初是在第一阶段获得的，然后由 $f_c$ 更新。

Uncertainty Estimation.我们使用MC-Dropout [6]来估计剪辑级伪标签的不确定性。对于训练视频剪辑 $\mathcal{C}_i=\{c_{i,t}\}_{t=1}^{T_i}$ ，我们通过使用带有dropout的模型 $f$ 进行 $M$ 次随机前向传播。在第一次迭代中，我们使用第一阶段的多头分类器作为训练模型（即 $f=f_g$ ）。在剩余的迭代中， $f=f_c$ 。每次传播生成剪辑级伪标签如下：
在这里插入图片描述
这里， $\widetilde{W}^m$ 表示第 $m$ 个样本的掩码模型参数， $\hat{\mathcal{Y}}_i^m=\left\{\hat{y}_{i,t}^m\right\}_{t=1}^{T_i}$ 。用作训练剪辑分类器的剪辑级伪标签 $\tilde{\mathcal{Y}}_{i}=\{\tilde{y}_{i,t}\}_{t=1}^{T_{i}}$ 由预测均值给出：
在这里插入图片描述
$\hat{\mathcal{Y}_i}$ 的预测不确定性 $\mathcal{U}_i=\{u_{i,t}\}_{t=1}^{T_i}$ 由协方差矩阵 Cov $\hat{\mathcal{Y} _i} )$ 中的对角元素（即 $\hat{\mathcal{Y}}_i$ 中元素的方差）给出：

在这里插入图片描述
Iterative Reliable Clip Mining.由于目标是使用低不确定性伪标签训练可靠模型，因此我们在不确定性估计后挖掘可靠的剪辑。对于每个视频，我们将其伪标签的不确定性 $\mathcal{U}_i$ 从小到大进行排名，并保留具有最小 $R\%$ 不确定性分数的剪辑，其中 $R\%$ 表示样本比例。通过这种方式，可靠的视频剪辑和相应的剪辑级伪标签可以被挖掘出来。

由于仅参与使用剪辑级特征进行训练会忽略视频的上下文关系，我们使用长期特征记忆[31]来建模视频剪辑之间的时间关系。每个视频的剪辑特征存储在一个内存池中。在获取选定的可靠剪辑后，我们从内存池中检索当前剪辑 $c_{i,t}$ 前的窗口大小 $w$ 剪辑特征 $\mathcal{H}_{i,t}=[c_{i,t-w},\ldots,c_{i,t-1}]$ 。我们通过对 $\mathcal{H}_{i,t}$ 进行平均池化来获得 $\tilde{\mathcal{H}}_{i,t}$ ，然后将当前剪辑特征 $c_{i,t}$ 与 $\tilde{\mathcal{H}}_{i,t}$ 连接成一个新的时间剪辑特征 $\bar{c}_{i,t}$ 。因此，我们可以使用所有可靠的时间特征集合 $\Omega_R(\mathcal{C})$ 和可靠的剪辑级伪标签 $\Omega_R(\tilde{\mathcal{Y}})$ 基于二元交叉熵损失来训练剪辑分类器 $f_c$ ：

在这里插入图片描述
这里， $\tilde{y}_{i,t}\in\Omega_R(\tilde{\mathcal{Y}})$ 表示第 $i$ 个视频中第 $t$ 个剪辑的伪标签。然后，我们可以获得当前迭代中训练的剪辑分类器，并在下一次迭代中进行不确定性估计和可靠样本选择，以进一步训练期望的剪辑分类器。

在这里插入图片描述
算法 1 完整性和不确定性感知伪标签增强

输入：一组 $N$ 个视频 $\mathcal{V}=\{\mathcal{V}_i\}_{i=1}^N$ 和视频级别标签 $\mathcal{Y}=\{\mathcal{Y}_{i}\}_{i=1}^{N}.$

输出：剪辑分类器 $f_c.$

1: // 完整性增强的伪标签生成器

2: 为每个视频 $\mathcal{V} _i$ 提取 $T_i$ 个剪辑特征，表示为 ${ c_{i, t}\} _{t= 1}^{T_i}.$

3: 将 ${ c_{i, t}\} _{t= 1}^{T_{i}}$ 组合成 $S$ 个段特征 ${x_{i,s}\}_{s=1}^{S}.$

4: 使用 ${ x_{i, s}\} _{s= 1}^S$ 和 $\mathcal{Y} _i$ 通过公式 7 训练多头分类器 $f_g$ .

5: 获取经过训练的模型 $f= f_g.$

6: // 不确定性感知伪标签精化

7: while 未收敛 do

8: 对经过训练的模型 $f$ 进行平均 MC-Dropout.

9: 使用公式 9 获取伪标签， $\tilde{\mathcal{Y}}_i = E (\hat{\mathcal{Y}}_i )$ .

10: 使用公式 10 获取不确定性， $\mathcal{U}_i = diag (Cov (\hat{\mathcal{Y}} i ) ).$

11: 在剩余剪辑中建模时间关系.

12: 获取所有可靠剪辑集合 $\Omega_R(\mathcal C)=\Omega_R(\{\mathcal{C}_i\}_{i=1}^N).$

13: 获取所有可靠标签集合 $\Omega_{R}(\tilde{\mathcal{Y}})=\Omega_{R}(\left\{\tilde{\mathcal{Y}}_{i}\right\}_{i=1}^{N}).$

14: 使用公式 11 使用 $\Omega_{R}( \mathcal{C} )$ 和 $\Omega_{R}( \tilde{\mathcal{Y} } )$ 训练 $f_{c}$ .

15: 获取经过训练的模型 $f=f_c.$

16: end while

17: 返回用于推断的剪辑分类器 $f_c$ .

3.4. Model Training and Inference

Training.我们通过公式 7 增加伪标签的完整性，在第一阶段尽可能覆盖更多的异常剪辑。在第二阶段，我们通过不确定性估计挖掘可靠的视频剪辑，使用公式 11 训练剪辑分类器，并通过多次迭代逐渐完善剪辑级别的伪标签。算法 1 展示了训练过程的主要步骤。

Inference.对于给定的测试视频，我们直接利用剪辑分类器 $f_c$ 来预测异常分数。

4. Experimental Results

4.1. Datasets and Evaluation Metrics

Datasets.

UCF-Crime
TAD
XD-Violence

Evaluation Metrics.

与之前的研究[5、27、39、40]类似，我们选择帧级接收器操作特征曲线下的面积（AUC）来评估我们提出的方法在UCF-Crime和TAD数据集上的性能。对于XD-Violence，遵循[12、29、32、34]，我们使用平均精度（AP）作为评价指标。

4.2. Implementation Details

Feature Extractor.与现有方法[29]保持一致，我们使用预训练的I3D [2]模型从16个连续帧中提取剪辑特征。然后，我们将每个视频分成32个段作为多头分类器的输入，即S = 32。对于XD-violence数据集，我们按照[32,34]中的设置，利用VGGish网络[8]提取音频特征。

Training Details.多头分类器的头数K对于所有数据集都是2。每个头包含三个全连接（FC）层，分别具有512、128和1个单元。第一个和第三个全连接层之后分别跟有ReLU激活和sigmoid激活。我们在FC层之间使用了dropout函数，dropout率为0.6。分类器使用Adadelta优化器进行训练，学习率为0.1。参数α设置为10用于UCF-Crime数据集，设置为0.1用于TAD和XDViolence数据集。在生成初始伪标签和不确定性分数时，随机前向传播次数M设置为50用于所有数据集。在伪标签细化过程中，剪辑分类器由三个FC层组成，FC层之间使用80%的dropout规则。使用Adam优化器进行训练，学习率为1e−4，权重衰减为5e−4。在每次迭代结束时，将M设置为5以获取伪标签和不确定性分数。

4.3. Comparisons with Prior Work

在这里插入图片描述

4.4. Ablation Study

在这里插入图片描述

5. Conclusions

本文重点研究了如何提高伪标签的质量，并提出了一种利用完整性和不确定性属性的两阶段自我训练方法。首先，为了增强伪标签的完整性，设计了一个受多样性损失约束的多头分类模块，用于生成尽可能涵盖多个异常事件的伪标签。然后，采用了一种迭代式的不确定性感知自我训练策略，以选择可靠的样本来训练剪辑分类器。剪辑分类器的输出通过多次迭代逐步精炼，从而产生高质量的伪标签，用于训练最终所需的剪辑分类器。大量实验证明了我们方法的有效性。