Prompt-Enhanced Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

最新推荐文章于 2024-07-28 15:37:27 发布

七77.

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量676

点赞数 18

文章标签：人工智能深度学习多模态

本文链接：https://blog.csdn.net/weixin_46687145/article/details/140724157

版权

标题：基于提示增强的多实例学习用于弱监督视频异常检测

源文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_Prompt-Enhanced_Multiple_Instance_Learning_for_Weakly_Supervised_Video_Anomaly_Detection_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2024/papers/Chen_Prompt-Enhanced_Multiple_Instance_Learning_for_Weakly_Supervised_Video_Anomaly_Detection_CVPR_2024_paper.pdf

源码链接（空）：https://github.com/Junxi-Chen/PE-MILhttps://github.com/Junxi-Chen/PE-MIL

发表：CVPR-2024

摘要

弱监督视频异常检测（wVAD）旨在仅使用视频级别的标签来进行帧级异常的检测。由于粗粒度标签的限制，多实例学习（MIL）在wVAD中得到了广泛应用。然而，MIL面临着二元监督不足的问题，这限制了其对多种异常模式的建模能力。此外，异常事件与其上下文之间的耦合关系妨碍了清晰异常事件边界的学习。本文提出了一种基于提示增强的多实例学习方法，以检测各种异常事件同时确保清晰的事件边界。具体而言，我们设计了异常感知提示，通过结合异常类别的注释与可学习的提示，能够动态地将语义先验信息融入到视频特征中。检测器可以利用这些语义丰富的特征来捕捉多种异常模式。此外，我们引入了正常上下文提示来放大异常与其上下文之间的区别，有助于生成清晰的边界。通过异常感知提示和正常上下文提示之间的相互增强，模型能够构建出区分性强的表示，从而检测出不同的异常而不模糊事件边界。广泛的实验表明，我们的方法在三个公开基准数据集上达到了最先进的性能。代码可在以下链接获取：https://github.com/Junxi-Chen/PE-MIL.

1.引言

为了识别视频中的帧级异常，视频异常检测（VAD）在关键领域如监控系统 [19]、医学影像 [33] 和自动驾驶 [1] 等领域变得至关重要。为了提高在不同场景下的泛化能力，研究者转向弱监督视频异常检测（wVAD），它只利用视频级别的标签。主要地，wVAD面临两大挑战：1) 在多种情景下检测复杂的异常模式，其中异常的时间关系和视觉表现形式存在显著差异；2) 在缺乏细粒度边界注解的情况下生成清晰的异常事件边界。

为了解决wVAD问题，先前的工作 [52, 55] 生成噪声的帧级异常标签并随后减少噪声，但这种方式限制了对未知场景的泛化能力。最近，多实例学习（MIL）被大多数方法 [5, 6, 8, 23, 29, 45] 用来处理wVAD，因为它能够在粗粒度标签下建模模式。为了通过帧级异常得分（1 表示异常，0 表示正常）检测异常事件，基于MIL的方法 [5, 6, 24, 29, 42, 53] 采用排序损失来鼓励异常视频中的最高得分高于正常视频中的得分。这样，MIL能够学习异常实例中的独特模式。然而，MIL众所周知的一个问题是难以处理模糊的事件边界以及无法有效建模多样化的异常模式 [18, 24, 25]。为此，一些工作修改了目标 [6, 25, 38, 54] 或训练策略 [18, 53] 来促进清晰事件边界的学习。除此之外，一些研究 [6, 29, 45] 引入辅助信息来帮助在复杂场景下建模异常模式。

尽管有所进展，现有的方法仍面临两大难题：1) 二元标签不足以捕捉复杂的异常模式，因为它们只能指示一种普遍的异常模式。此外，二元标签忽略了异常之间的语义相关性，即不同异常事件之间相似和独特的模式。2) 异常和上下文模式的耦合阻碍了清晰边界的学习，例如，在图 1b 中，爆炸（异常）通常伴随着火焰和烟雾（上下文）。但是这样的异常上下文场景很少出现在正常视频中 [6, 29, 45]。因此，从耦合数据中学得的模型无法将异常与其上下文区分开来，导致边界模糊不清。我们注意到，在异常性和正常性的上下文中存在着强烈的语义相关性 [6, 29, 45]，这种相关性可以使正常上下文丰富模糊边界上下文以展现出区分性的模式。因此，建模这种相关性能够提高在高度耦合场景下wVAD的鲁棒性，并产生清晰的事件边界。

图1.(a)在多模态特征空间中，文本提示将异常感知语义先验信息集成到视觉特征中。NCP将正常语义融入歧义上下文特征。通过这种方式，我们的方法学习了更有区别的表示，以提供精确的异常检测。(b)我们的方法的异常检测例子。

本文提出了一种新颖的基于提示增强的MIL方法，通过引入异常感知提示和正常上下文提示来捕捉具有清晰事件边界的多样化异常，如图 1a 所示。具体来说，为了构造异常感知提示，我们获取异常类别注解的嵌入，并与可学习的提示相结合。设计了提示约束损失以确保它们的语义一致性，从而获得语义丰富的异常感知提示。接下来，我们设计了一个事件相关性推理模块来动态指导异常感知提示与视频特征之间的细粒度对齐。通过这种方式，视频特征整合了准确的语义先验信息，以帮助捕捉复杂和多样的异常模式。为了获得清晰的异常边界，我们进一步通过两阶段训练学习一个正常上下文提示，它作为正常模式的综合摘要。正常上下文提示可以丰富边界上下文特征，揭示它们的区分性特征。因此，检测器可以更好地区分上下文片段和异常片段，从而增强清晰事件边界的生成。

本文的主要贡献如下：
• 我们提出了基于提示增强的MIL用于wVAD，该方法利用异常感知提示将语义先验信息融入视频特征中，以精确建模多样化的异常模式。
• 我们引入了正常上下文提示，作为正常模式的总结，用于丰富边界上下文特征。这样做可以揭示更加区分性的特征，以分离异常和其上下文，从而产生清晰的异常事件边界。
• 广泛的实验表明，我们的方法在三个公开数据集上相较于最先进的方法表现优越 [5, 6, 8, 23, 29, 45]。

2.相关工作

2.1弱监督视频异常检测

在wVAD中，提供的标注仅限于视频级别，而需要输出的是帧级别的异常分数。大多数 wVAD 的工作都采用了基于多实例学习 (MIL) 的方法，这是因为 MIL 能够在较弱的标签下学习判别性表征。Sultani 等人 [31] 首次引入了 MIL 方法，并且结合了排序损失，同时还发布了一个大规模的 VAD 数据集。之后，Zhang 等人 [54] 探索了一种袋内损失，这与 MIL 的排序损失互补。为了更好地捕捉异常检测中的序列关系，Zhu 等人 [57] 使用注意力模块来建模异常的时间上下文。随着图卷积网络 (GCN) 的流行 [2]，Cho 等人 [6] 利用 GCN 来建模上下文和运动的相关性来进行异常检测。Lv 等人 [24] 提出了无偏 MIL，通过使用聚类的确定性和模糊性集合来训练模型，以此减轻误报问题。

2.2. 提示学习在视频理解中的应用

近期的研究成功地将提示学习扩展到了视频理解任务中。例如，Wang 等人 [41] 通过将视频片段与类别标签的文本嵌入对齐来进行动作识别任务。Ju 等人 [15] 通过类别标签构建提示模板，并探究了标签在模板内的位置对效果的影响。然而，手动设计提示是耗时的 [10]。一些工作 [20, 29, 48] 利用了知识库提供的定义来创建提示模板。Wu 等人 [46] 通过预测正确的类别标签并将视觉特征和文本特征连接起来来学习语义。然而，粗粒度的对齐会导致语义混淆，进而影响异常检测的准确性。不同于上述方法，我们进行了视觉特征与文本特征之间的细粒度对齐，因为 wVAD 对噪声非常敏感。此外，我们利用了可学习的提示以及所提出的提示约束损失来将丰富的语义特征融入到视觉特征中。

3.方法

3.1 Overview

整体框架的架构如图 2 所示。具体来说，给定一段未剪辑的视频 $X_v$ 及其对应的音频 $X_a$ ，我们使用预训练的骨干网络来提取视频特征 $F_a$ 和音频特征 $F_v$ 。为了建模时间关系，这些特征随后被传递给基于 Transformer 的时间特征融合模块，该模块利用了上下文注意力和事件注意力。接下来，采用尺度感知预测头来预测异常分数，并有助于在不同尺度上建模异常模式。为了捕捉多样化的异常模式，我们应用异常感知提示学习来将丰富的语义信息融入到中间特征 $X_e$ 中。此外，我们在冻结的模型指导下学习正常上下文提示。所提出的正常上下文提示可以在模型推断期间丰富特征，以生成清晰的事件边界。

图 2 描述了所提出方法的工作流程：(1) 时间特征融合模块（第 3.2 节）和尺度感知预测头（第 3.3 节）被用来建模时间关系并生成多尺度异常分数。 (2) 异常感知提示学习（第 3.4 节）应用于促进中间特征结合异常感知提示所带来的语义先验。 (3) 正常上下文提示（第 3.5 节）通过两阶段训练进行学习，并丰富了边界上下文特征以展示出判别性模式。

3.2. 时间特征融合模块Temporal Feature Fusion

时间特征融合模块被设计用来利用自注意力机制来建模长程上下文和短程事件的时间依赖性。为了控制计算成本，输入视频 $X_v$ 和音频 $X_a$ 被分割成不重叠的片段，每个片段包含 16 帧。使用预训练并冻结的模型来提取视频和音频特征，形成片段级别的特征序列 $F_v \in \mathbb{R}^{N \times D_v}$ 和 $F_a \in \mathbb{R}^{N \times D_a}$ ，其中 N是片段的数量， $D_v, D_a$ 分别是视频和音频特征的维度。视频和音频特征沿着特征维度进行拼接，以创建多模态特征 $F \in \mathbb{R}^{N \times (D_v+D_a)}$ 。

受注意力机制在多模态数据中的成功启发，我们采用注意力机制来建模时间关系。计算相似度矩阵，并添加动态位置编码 $\varepsilon \in \mathbb{R}^{N \times N}$ 到相似度矩阵 $M \in \mathbb{R}^{N \times N}$ 以纳入位置先验信息：

其中 $f(\cdot)$ 表示线性层， $^{\top}$ 表示转置操作。变量 $j \in [1,N]$ 和 $k \in [1,N]$ 指的是两个片段的编号，而 $\gamma$ 和 $\beta$ 分别代表可学习的权重和偏置项。接着，计算上下文注意力映射和特征 $F_g \in \mathbb{R}^{N \times D_h}$ 如下：

其中Dh表示隐藏维度。

为了聚焦连续的事件片段并解决长程噪声问题，相似度矩阵被屏蔽以捕捉短程事件依赖性：

其中 $\tilde{M} \in \mathbb{R}^{N \times N}$ 是屏蔽后的事件相似度矩阵， w 是掩码的大小。之后，根据等式 2 计算事件上下文特征 $F_e$ 。

引入一个可学习的门控权重 $\alpha$ 来融合上下文和事件特征。接下来，使用残差连接后跟层归一化来得到最终特征 $F_c \in \mathbb{R}^{N \times (D_v+D_a)}$ ：

其中 $\text{Norm}(\cdot)$ 表示幂归一化（power normalization）和 L2 归一化的组合， $f(\cdot)$ 表示线性层。

3.3. 尺度感知预测头Scale-Aware Prediction Head

为了放大不同尺度的异常事件，我们提出了一种尺度感知预测头，如图 2 所示。为了获得高层次的语义特征 $X_e^s \in \mathbb{R}^{\lfloor N/s \rfloor \times D_m}$ ，我们应用了一个多层感知机（a multilayer perceptron）：

其中 $D_m$ 是语义特征的维度，而 $\text{Conv}_s$ 指的是步长为 s 的一维卷积层。该模块后跟 GELU 激活函数和 dropout 操作。随后，从语义特征中生成异常分数，表示如下：

其中 $\text{ft}(\cdot)$ 指的是因果卷积层，而 $\sigma(\cdot)$ 是 sigmoid 激活函数。 $X_e$ 以步长 1 提取，而 $\tilde{y}_s \in \mathbb{R}^{\lfloor N/s \rfloor}$ 表示预测的帧级异常分数。

按照 [43] 的做法，我们将基于 MIL 的损失函数作为基础的目标函数。对于异常视频，选择前 k 个异常分数来强化异常特征；而对于正常视频，则采样最大分数以降低正常视频中的显著异常分数。参数 k 设置如下：

其中 $y \in \mathbb{R}$ 是视频级别的真实标签。如果是一个异常视频，y等于 1；如果是正常视频，则y 等于 0。

视频级别的预测 $\hat{y}_{s} \in \mathbb{R}$ 可以计算为前 k个异常分数的均值：

基于 MIL 的损失函数通过二元交叉熵计算如下：

3.4. 异常感知提示学习Abnormal-Aware Prompt Learning

异常感知提示学习 (APL) 被提出以促进利用语义丰富的视觉特征来建模多种异常模式。APL 包括三个步骤：事件上下文分离、异常感知提示构建以及动态跨模态对齐。

首先，我们将事件特征和上下文特征分开以实现精细的语义学习。由于视频可能同时包含事件实例和上下文实例，如果将所有片段与同一个提示对齐可能会导致模型混淆不清的语义。我们利用缩放后的异常分数作为激活来分离视频级别的事件特征和上下文特征，这一过程可以表示为：

这个公式的主要目的是根据缩放后的异常得分 $y_t^s$ 对事件和上下文特征进行加权求和，使得具有更高异常概率的片段对事件特征贡献更大，而具有较低异常概率的片段则更多地贡献于上下文特征。这样做的目的是让模型能够更好地识别和区分事件和上下文特征，从而进行更有效的语义学习。

在这个公式中， $y_t^s$ 表示第 t 个片段的异常概率估计。 $y_t^s$ 的值介于 0 到 1 之间，其中 0 表示该片段被认为是正常的，1 表示该片段被认为是异常的。因此， $y_t^s$ 越接近 1，意味着该片段越有可能属于异常事件。为了提取事件特征，我们希望选择那些异常概率较高的片段，所以使用 $exp(\mu * y_t^s)$ 来强调这些片段。另一方面，为了提取上下文特征，我们需要关注那些不太可能是异常的片段，也就是异常概率较低的片段。因此，我们使用 $exp(\mu * (1-y_t^s))$ ，因为表示该片段不是异常的概率，即正常概率。这样，当 $y_t^s$ 接近 0 时，就接近 1，这意味着该片段更可能属于上下文而非事件。

简而言之，公式中的 $exp(\mu * y_t^s)$ 用于强调异常片段，而 $exp(\mu * (1-y_t^s))$ 用于强调正常片段。通过这种方式，我们可以分别构建事件特征和上下文特征，使模型能够更好地理解和区分它们。

其中 $V_s^e \in \mathbb{R}^{D_m}$ 和 $V_s^e \in \mathbb{R}^{D_m}$ 分别表示事件特征和上下文特征，而 t表示片段的数量。预设的缩放因子 $\mu$ 与 $\exp(\cdot)$ 操作共同作用，以放大高置信度的激活。接着，事件特征 $V_e^s$ 和上下文特征 $V_c^s$ 被拼接在一起形成整体视觉特征 $V_s$ 。对于正常视频，只采样事件视觉特征，即 $V_s = V_s^e$ 。(只采样异常概率低的特征)

其次，我们构建异常感知提示作为语义线索。为了确定精确的语义关系以捕捉各种异常模式，注解被分为三个子类：正类、相关类和负类。对于异常视频，正类注解指示视频中存在的异常类别，而相关类注解指的是不存在的异常类别的集合。负类注解表示正常类别。对于正常视频，正注解和相关注解都是正常类别，负类注解对应所有的异常类别。原始的异常文本标签通过文本主干网络的分词器和嵌入层转换为嵌入张量。例如，正标签的初始嵌入 $T_p^\text{init}$ 可以这样得出：

在具体场景中，positive label应该是具体的标签名称

考虑到原始类注解过于简洁，不足以总结复杂事件且缺乏丰富的语义信息，我们向原始文本嵌入中引入可学习的提示来增加其泛化能力，并由此导出语义丰富的文本特征。我们把可学习的提示与嵌入张量拼接在一起：

其中 $T_l \in \mathbb{R}^{L \times D_m}$ 表示可学习的提示，而 L是可学习提示的长度。随后，语义丰富的标签嵌入被传递给文本编码器以获得子类的文本特征，分别记为 $T_p$ , $T_r$ 和 $T_n$ 。它们被拼接在一起形成每个标签的文本特征：

最后，通过事件相关性推理的动态跨模态对齐，我们用语义先验丰富视觉特征以学习特定类别的异常模式。视觉-文本的相关性分布 P可以这样计算：

其中C 表示异常类的数量，而 $\tau$ 是温度因子。我们提出事件相关性推理模块来动态计算语义相关性，并定义对齐目标O。这一过程可以表示为：

其中 c 是缩放因子，如果是正常视频则c = 1。上标 e, c 对应事件特征和上下文特征，下标 p, r, n 分别对应正类、相关类和负类文本特征。目标分布可以这样计算：

异常感知提示学习损失 $L_{\text{APL}}$ 可以通过 Kullback-Leibler 散度计算：

为了确保可学习提示与类注解之间的一致性，引入提示约束损失 $L_{\text{PC}}$ ：

在第一阶段的训练过程中，总体目标函数可以表示为：

其中 $\lambda$ 和 $\beta$ 是用于平衡损失的超参数。

通过优化目标函数，模型能够利用语义丰富的特征生成更具区分力的表示，从而准确检测多种异常模式。

3.5. 正常情境提示 Normal Context Prompt

正常情境提示 (NCP) 被提出以通过丰富模糊的情境特征来生成清晰的异常事件边界。NCP 的设计旨在概括训练模型所捕获的潜在正常事件分布。NCP $V_{\text{NCP}} \in \mathbb{R}^{K \times D_v}$ 可以解释为一个正常的视觉特征序列，其中 K表示 NCP 的长度。

我们采用两阶段训练策略来学习 NCP，如图 2 所示。在第一阶段，模型捕获异常和正常模式。在第二阶段，我们将模型冻结以便 NCP 能够拟合捕获到的正常分布。NCP 作为输入传递给模型，并提供标记为 0 的真实标签。我们计算均方误差 (MSE) 损失以学习正常分布。该损失可以表示为：

在推理阶段，我们将正常情境提示与多模态特征序列进行拼接。这些丰富过的特征被传递给时间特征融合模块，该模块可以通过注意力机制将多模态特征与 NCP 进行融合。这种方式通过动态地整合来自正常域的异常情境与丰富信息，增强了特征差异性，并利用了更高的特征相关性。检测器可以利用这种差异性来确定准确的事件边界。

4.实验结果

4.1 数据集

UCF-Crime [31] 包含13个不同的异常类别，来源于多样化的场景，包括街道、家庭房间和购物中心等。该数据集包含1610个训练视频和290个测试视频。
ShanghaiTech [19] 包含来自固定视角监控系统的13个校园场景。该数据集包含训练集中238个视频和测试集中199个视频。
XD-Violence [45] 是目前针对弱监督视频异常检测(wVAD)最大的数据集。它包含了从电影、游戏和车载摄像头等多种来源收集的视频。由于该数据集包含丰富的艺术表达，如视角变化和动态摄像机移动，所以具有挑战性。该数据集包含3954个带有视频级注释的训练视频、800个带有帧级标签的测试视频，并涵盖六个不同的异常类别。此外，该数据集还提供了视频和音频，有助于利用多模态线索进行异常检测。

4.2 评估指标

对于UCF-Crime和ShanghaiTech数据集，我们选择帧级接收者操作特性（ROC）曲线下的面积（AUC）作为评价指标，以评估我们的方法在这两个数据集上的性能。
对于XD-Violence数据集，我们遵循先前的工作[18]、[45]、[53]，使用平均精度（AP）作为评价指标。

4.3 实施细节

与现有方法一致[29]、[44]，我们使用预训练于Kinetics数据集[16]的RGB流I3D[3]视频编码器将视频编码为1024维的视频特征。
对于音频特征，我们使用预训练于YouTube数据集的VGGish[14]音频编码器。
每个片段由16帧组成。批量大小设置为128，学习率为5×10^-4，并采用余弦衰减策略。窗口大小w为9。
对于XD-Violence和UCF-Crime数据集，非连续片段(NCP)长度K设置为35；对于ShanghaiTech数据集，K设置为5。
参数λ和β分别设置为1和8用于模型训练。尺度s的值为2和3。
参数λ设置为0.001用于平衡多尺度损失。
为了比较，我们使用公开发布的代码重新实现其他方法。更多实施细节请参见附录。

4.4 与最先进方法的比较

XD-Violence数据集上的结果：我们将所提出的方法与以下最先进的方法进行比较，这些方法可以分为半监督方法[12]、[30]和弱监督方法[4]、[5]、[6]、[18]、[26]、[27]、[28]、[29]、[31]、[32]、[42]、[44]、[49]、[53]、[56]。表1展示了结果。我们的方法在所有之前的半监督方法和弱监督方法中都取得了最佳性能。特别是，在使用相同的I3D-RGB视频特征和VGGish音频特征时，我们的方法在平均精度(AP)方面相对于最好的先前方法[26]获得了2.54%的绝对提升。这种优越性归功于APL精确地建模了不同的异常模式，NCP也贡献了更精确的异常检测结果，通过生成清晰的事件异常边界并消除误报。
ShanghaiTech数据集上的结果：表2展示了ShanghaiTech数据集上的性能比较。我们的方法在AUC方面表现出色，相比于先前的半监督方法[11]、[21]、[47]和弱监督方法[9]、[18]、[24]、[25]、[29]、[31]、[32]、[38]、[42]、[44]、[51]、[55]。具体而言，当使用相同的I3D特征时，我们的方法超过了最先进的方法。APL有助于建模不同的异常模式，而NCP有助于生成清晰的事件异常得分。这些因素共同促进了更准确和可靠的异常检测。
UCF-Crime数据集上的结果：表3展示了UCF-Crime数据集上的性能比较。我们的方法在与其他当前方法[6]、[9]、[12]、[18]、[22]、[24]、[25]、[29]、[31]、[32]、[40]、[42]、[43]、[55]的比较中表现出良好的性能。值得注意的是，与其他数据集相比，我们的方法在这个数据集上并没有带来太多提升。我们认为这是因为UCF-Crime数据集中不同的异常事件表现出高度同质性，并且固定视角的监控视频导致异常事件与上下文之间耦合程度较低。异常的属性减弱了我们方法的效果。

4.5 消融实验

提出模块的效果。我们在 XD-Violence 数据集上进行了所提出的模块的剔除研究，如表 4 所示。为了证明捕捉多尺度异常性的必要性，我们将我们的方法与 Scale-Aware 预测头 (SA-Head) 和基线进行了比较。结果显示，在平均精度 (AP) 方面提高了 2.9%，这说明学习多尺度异常事件能更好地捕捉时间上的异常模式，从而改善检测性能。此外，为了证明异常感知提示学习 (APL) 的效果，我们将基线与/不包含 APL 进行了比较。从结果中可以看出，APL 能够带来 5.8% 的 AP 性能提升，这表明在建模多样化的异常模式时，语义先验的重要性。另外，我们也展示了 NCP 的影响，它可以带来 1.59% 的 AP 改善。这一结果证明了 NCP 能够有效地分离异常上下文和事件，减少边界扩展和误报，从而提升检测性能。为了评估捕捉多样异常的能力，我们在图 3 中比较了模型在没有 APL (绿色条形) 和包含 APL (模糊条形) 的情况下对子类别的 AP。带有 APL 的模型优于没有 APL 的模型，这证明了 APL 能够促进检测多样化的异常事件。

APL 内部模块的效果。为了展示 APL 中每个模块和损失函数的有效性，我们在 APL 中进行了消融研究，如表 5 所示。为了证明基于事件相关性的细粒度对齐的必要性，我们将使用事件相关性推理 (ERR) 的方法与使用常数因子作为目标的基线进行了比较。结果显示，ERR 能够获得 2.17% 的 AP 提升，这揭示了事件相关性在建模复杂的异常模式和多样化异常本质中的重要作用。此外，为了验证可学习提示的效果，我们对原始文本嵌入与带有可学习提示的嵌入进行了实验。值得注意的是，如果没有提示约束损失，性能会下降 0.34%。这说明了提示约束损失对于生成语义相关的异常感知提示的重要性。结合可学习提示和提示约束损失，我们的方法可以提高 0.43% 的性能，这验证了语义丰富的异常感知提示在捕捉多样化的异常模式方面的有效性。

NCP 长度的效果。为了证明 NCP 的有效性，我们进行了不同长度 K 的 NCP 的消融研究，如表 6 所示。值得注意的是，当 NCP 长度为 1 时，可以带来 0.8% 的 AP 提升；而当长度为 35 时，则可以达到最大的 1.59% 的 AP 提升，这证明了 NCP 在精确检测异常方面的作用。

4.6 定性结果

异常分数。为了直观地证明我们方法的有效性，我们在最具挑战性的 XD-Violence 数据集上可视化了由我们的方法预测的异常分数，并与其它方法 [29, 31] 进行了比较，如图 4 所示。如图 4a 所示，我们的方法能有效预测精确的异常分数，同时显著减少了模糊边界和误报的发生，与最先进的方法 [29] 相比表现更佳。图 4b 和图 4c 展示了我们的方法在预测长期异常视频中多个片段不同类型异常及异常间的微妙间隔时的精确异常分数的能力。图 4d 进一步说明了在具有挑战性的正常视频中减轻误报的有效性。检测多样化的异常模式的能力证明了语义先验在捕捉各种异常中的有效性。异常事件与上下文的分离进一步证明了 NCP 能够丰富模糊上下文特征，展现出更强的辨别能力。

图4.我们的方法在XD暴力测试视频上的定性结果。粉红色方块表示发生异常事件的部分。Y轴表示异常分数，而X轴表示视频的帧数。

特征分布。为了更好地理解 APL 模块，我们使用 t-SNE 来可视化来自中间层的特征在Xe。如图 5a 所示，在没有 APL 的情况下，正常和异常特征之间的差异很小，其中一些异常特征与正常集群混合在一起。有了 APL，异常和正常集群之间出现了明显的差异。此外，所有异常特征都只分布在正确的集群内，如图 5b 所示。这表明 APL 能够帮助增加正常和异常事件之间的差异性，从而实现准确的异常检测。

注意力图。为了展示 NCP 的效果，我们可视化了异常分数及其相应的注意力图，其中有/没有 NCP。在图 6a、图 6b 和图 6c 中，我们通过蓝色和灰色线条分别表示有/没有 NCP 的异常分数。通过引入 NCP，模型能够有效地建立清晰的异常事件边界。从图 6d、图 6e 和图 6f 中，我们可以看出没有 NCP 的注意力图是分散的。相反，通过 NCP 的增强，我们的方法能够突出异常特征并分离上下文特征，如图 6g、图 6h 和图 6i 所示。通过使用 NCP，上下文的独特性得到了增强，从而实现了精确的异常检测。

5. 结论

本文提出了提示增强的多重实例学习（MIL）方法来捕捉具有清晰异常事件边界的多种异常模式，用于弱监督下的异常检测（wVAD）。首先，给定异常类别注释的嵌入，我们引入了可学习的提示来增强这些嵌入，并设计了一个约束损失来确保其语义一致性，从而获得了异常感知提示。接下来，我们通过将视频特征与学到的提示对齐，将语义先验融入视频特征之中。这样，模型就能利用语义丰富的特征来捕捉多种异常模式。此外，我们引入了正常上下文提示作为正常模式的总结，以放大异常性和异常上下文之间的区别。模糊的上下文特征被丰富化以生成清晰的事件边界。广泛的实验表明，我们的方法在这三个公共基准数据集上达到了最先进的性能。

七77.

关注

18
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Prompt-Enhanced Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

弱监督视频异常检测（wVAD）旨在仅使用视频级别的标签来进行帧级异常的检测。由于粗粒度标签的限制，多实例学习（MIL）在wVAD中得到了广泛应用。然而，MIL面临着二元监督不足的问题，这限制了其对多种异常模式的建模能力。此外，异常事件与其上下文之间的耦合关系妨碍了清晰异常事件边界的学习。本文提出了一种基于提示增强的多实例学习方法，以检测各种异常事件同时确保清晰的事件边界。具体而言，我们设计了异常感知提示，通过结合异常类别的注释与可学习的提示，能够动态地将语义先验信息融入到视频特征中。
复制链接

扫一扫