【视频异常检测】Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts 论文阅读

ABSTRACT

当前的弱监督视频异常检测(WSVAD)任务旨在仅利用粗粒度的视频级别标注来实现帧级别的异常事件检测。现有工作通常涉及从全分辨率视频帧中提取全局特征,并训练帧级别分类器以在时间维度上检测异常。然而,大多数异常事件往往发生在局部空间区域而非整个视频帧中,这意味着基于现有帧级别特征的工作可能会被主导的背景信息误导,且缺乏对检测到的异常的解释能力。为了解决这一困境,本文提出了一种新颖的方法,称为STPrompt,该方法基于预训练的视觉语言模型(VLMs),学习用于弱监督视频异常检测和定位(WSVADL)的时空提示嵌入。我们提出的方法采用双流网络结构,其中一流专注于时间维度,另一流则主要关注空间维度。通过利用预训练VLMs中的知识,并结合原始视频中的自然运动先验,我们的模型学习了与视频时空区域(例如,单帧中的补丁)对齐的提示嵌入,以识别特定的局部异常区域,从而在减轻背景信息影响的同时实现准确的视频异常检测。我们的方法不依赖于详细的时空标注或辅助的对象检测/跟踪,在三个用于WSVADL任务的公共基准测试中达到了最先进的性能。

1 INTRODUCTION

在这里插入图片描述

图1:监控视频中异常空间大小的可视化。视频样本取自UCF-Crime [52]。

作为一个具有挑战性和长期存在的问题,视频异常检测(VAD)已经引起了计算机视觉领域的广泛关注。VAD的核心目标是检测各种现实世界的异常事件,具有巨大的实际应用潜力,特别是在监控领域。例如,配备有异常检测功能的智能视频监控系统可以迅速感知潜在危险,从而有助于及时干预以提高公共安全。早期的研究主要集中在半监督VAD [6, 11, 14, 31, 37, 47],其任务是通过仅利用正常视频来学习正常模式,将异常事件识别为偏离所学正常模式的事件。然而,这些方法存在局限性,因为它们缺乏对异常视频的了解,可能导致较高的误报率。

近年来,弱监督视频异常检测(WSVAD)已成为一个突出的研究主题,与半监督视频异常检测不同,WSVAD在训练阶段同时提供正常和异常视频。WSVAD的目标是使用弱或粗粒度标注(即视频级别标签)来实现帧级别的异常检测。现有工作通常涉及使用预训练模型(如I3D [2]、Transformer [7]和CLIP [45])从全分辨率帧中提取特征,然后基于多实例学习(MIL)机制训练分类器以在帧级别预测异常事件。虽然这些方法作为标准做法取得了令人鼓舞的结果,但它们往往忽视了一个关键方面:异常事件往往发生在局部空间区域,而不是跨越整个全分辨率帧,特别是在监控场景中。从流行的基准数据集UCF-Crime [52]中汲取灵感,我们通过图1中描绘的示例来说明这一观察结果。为了清晰起见,我们使用橙色边界框勾勒出异常区域。显然,不同类型的异常以不同的空间位置和大小表现出来;然而,与全分辨率视频帧的维度相比,异常的空间范围通常较小。然而,现有工作将整个帧压缩成单个特征,从而忽略了关键的区域级别异常细节,导致后续分类器严重依赖主导的背景信息。此外,此类操作还导致VAD模型缺乏可靠性和可解释性,因为它没有验证检测是否与异常的实际空间位置一致。因此,某些真正的正检测可能仅仅是错误检测(如无关背景或事件)与异常事件的“幸运”巧合[31]。

因此,如何明确利用时空融合[15, 21],并从何时何地的角度检测异常,是一个重要的探索方向。值得注意的是,我们的工作并不是首次尝试解决弱监督视频异常检测和定位(WSVADL)问题。之前的几项研究[28, 33, 53, 64]也努力利用时空关系能力来增强弱监督下的帧级VAD。然而,这些方法往往需要复杂且资源密集的关系建模。例如,Liu等人[33]重新标注了UCF-Crime基准数据集,随后使用完整的时空标注训练检测模型。另一方面,Wu等人[64]为弱监督时空VAD开辟了另一条道路,他们从时空动作定位[26, 42]中汲取灵感,并使用基于预训练对象检测器和层次聚类的管状检测器来检测可能的时空异常。这些方法通过复杂的时空建模过程减轻了无关背景的影响,从而在帧级异常检测方面展示了比传统WSVAD方法更好的结果。然而,这些解决方案要么很复杂,例如多尺度空间金字塔训练[28]和时空一致性建模[53],要么严重依赖于辅助模块进行对象检测和跟踪[64]以及详细的时空标注[33]。

在本文中,受大型预训练视觉语言模型(VLMs)在工业缺陷检测中成功应用的启发[4, 23, 81, 82],我们提出了一种新方法STPrompt,该方法在VLMs的基础上学习时空提示嵌入,用于WSVADL。与以前的工作[28, 33, 53, 64]不同,我们的方法在概念上直观且在实际中有效。具体来说,我们首先将视频分割成帧,然后将每帧进一步分割成块,因此,视频异常检测和定位可以概念化为帧级别和块级别的分类,从而消除了对对象检测和跟踪的依赖。同时,为了减轻时空关系建模的复杂性,我们将时空VAD明确分解为两个不同的子任务:时间异常检测和空间异常定位。在时间异常检测方面,除了标准的时间建模外,我们还引入了一种简单而有效的空间注意力聚合(SA2)机制,旨在增强背景去噪。该方法利用从视频固有属性中导出的运动先验。在空间异常定位方面,我们利用VLMs建立的图像到概念的能力,在无需全面监督的情况下,朝着无训练空间异常定位迈出了一大步。通过利用相关概念,我们识别出异常的块。我们的方法克服了先前工作的局限性,同时在三个公共基准测试集上实现了卓越的性能:UCF-Crime [52]、ShanghaiTech [38]和UBnormal [1]。

总之,本文的主要贡献有三个方面:

  • 提出了一种名为STPrompt的新模型,用于在弱视频级监督下进行时空视频异常检测。据我们所知,STPrompt是首次尝试有效地将从VLMs中预训练的视觉语言知识转移到同时解决时间异常检测和空间异常定位的任务中。

  • 为了减轻对额外辅助信息和复杂建模策略的需求,STPrompt将WSVADL任务分解为时间异常检测和空间异常定位。在STPrompt中设计了一种空间注意力聚合机制,用于在时间异常检测中过滤掉不相关的背景。此外,还引入了一种基于大型语言模型(LLMs)的、无需训练的异常定位方法,以获得用于空间异常定位的细粒度文本提示。

  • 在三个广泛使用的基准测试集上进行的大量实验表明,STPrompt优于最先进的竞争方法。在异常检测方面,它的性能明显优于或与最近的竞争方法相当,同时在所有三个数据集上的异常定位TIoU方面大大优于它们,例如,与VadCLIP [71]相比,在UCF-Crime上高出约1.9%,在ShanghaiTech上高出5.7%,在UBnormal上高出4.5%。

2 RELATEDWORK

2.1 Video Anomaly Detection

2.1.1 半监督VAD。深度学习的出现彻底改变了半监督VAD领域,主流研究集中在卷积神经网络(CNNs)[10, 22, 29, 35, 43, 61, 66, 69, 75]、循环神经网络(RNNs)[51, 74]和转换器[63, 73]上,其中许多方法采用了自监督学习原则。例如,几项研究[17, 38, 77]利用2D-CNNs、3D-CNNs和基于RNN的自编码器来重建正常事件,并根据重建误差的大小来识别异常事件。Liu等人[34]提出了一种基于CNN的视频预测网络,该网络能够根据之前的帧预测未来的视频帧,而Yang等人[73]则使用转换器来提取视频特征,并基于关键帧重建视频事件。Yu等人[75]引入了一种名为视频事件补全的新方法,以解决重建或帧预测方法中存在的缺陷。其中一些方法也解决了空间异常定位问题。例如,Li等人[31]将视野划分为重叠区域,并使用仅围绕当前帧的块来学习全局混合模型,将与周围环境最不相似的区域视为最有可能异常的。Wu等人[66]同样将视野划分为重叠区域,并训练了一个深度单类模型来区分异常区域。

2.1.2 弱监督VAD。近年来,弱监督视频异常检测(Weakly supervised Video Anomaly Detection, WSVAD)[3, 9, 33, 52, 55, 64, 76]已成为一个突出的研究焦点。Sultani等人[52]是这一领域的先驱者之一,他们引入了一个深度多实例学习(Multiple Instance Learning, MIL)模型,该模型将视频视为一个包,将其片段视为实例。通过利用包级标签的排序损失,他们的模型旨在最大化正包中最异常实例与负包之间的分离度。后续研究致力于加强WSVAD的正面设计方面。例如,Zhong等人[78]提出了一种基于图卷积网络(Graph Convolutional Network, GCN)的方法,以建模视频片段之间的特征相似性和时间一致性。Tian等人[55]设计了稳健的时间特征幅度学习,显著提高了MIL方法对来自异常视频的负实例的鲁棒性。Li等人[30]和Huang等人[19]引入了基于转换器的多序列学习框架,以捕获帧之间的时间关系。Zhou等人[79]提出了双记忆单元和不确定性学习方案,以更好地区分正常和异常的模式。Wu等人[67, 68]引入了一个新颖的多模态数据集和一个细粒度的弱监督VAD方法,该方法能够区分不同类型的异常帧。最近,预训练的视觉语言模型在VAD领域引起了广泛关注。VadCLIP[71]是第一个将CLIP[45]中的预训练语言-视觉知识有效转移到弱监督VAD中的模型,并取得了最先进的性能。Pu等人[44]试图通过学习提示增强的上下文特征来增强WSVAD。

2.2 Image Anomaly Detection with Prompts

一般来说,图像异常检测旨在定位图像中的异常,如工业缺陷图像,将图像或像素预测为正常或异常。典型的工作[5, 18, 20, 48, 54, 57, 72]主要集中在一类或自监督异常检测上,这类方法仅需要正常图像。最近,利用带有提示的视觉语言模型(Vision-Language Models, VLMs)已成为该任务,特别是零样本/少样本设置下的成功推动者。WinCLIP[23]引入了一种语言引导范式,用于零样本工业缺陷检测。AnomalyCLIP[81]将CLIP模型适应于跨不同领域的零样本工业缺陷检测,该模型学习了与对象无关的文本提示,这些提示能够捕获一般性的正常和异常状态。InCTRL[82]通过学习查询图像与少量上下文正常图像之间的残差特征,为图像异常检测构建通用模型。这些基于CLIP的工作启发了我们在视频中进行空间异常定位,但我们的方法更加简洁,并且在提示中不需要可学习参数。

3 METHOD

在这里插入图片描述

图2:我们提出的STPrompt。

3.1 Overview

在对比以往的视频异常检测任务(WSVAD)时,WSVADL任务提出了一个更具挑战性的目标。在数学上,给定一组训练样本 { V , Y b , Y c } \{ \mathcal{V}, \mathcal{Y}_b, \mathcal{Y}_c \} {V,Yb,Yc},其中 V \mathcal{V} V Y b \mathcal{Y}_b Yb Y c \mathcal{Y}_c Yc分别表示视频、视频级别的二元标签和视频级别的类别标签的集合。对于每个视频样本 v ∈ V v \in \mathcal{V} vV,它有两个对应的标签,即 y b ∈ Y b y_b \in \mathcal{Y}_b ybYb y c ∈ Y c y_c \in \mathcal{Y}_c ycYc。这里 y b ∈ { 0 , 1 } y_b \in \{0, 1\} yb{0,1} y b = 1 y_b=1 yb=1表示 v v v包含异常; y c ∈ R 1 + C y_c \in \mathbb{R}^{1+C} ycR1+C,其中 C C C是异常类别的数量。

如前所述,先前时空VAD工作[28, 33, 53, 64]的主要局限在于它们依赖于劳动密集型的时空标注、依赖于检测器的预处理以及计算成本高昂的时空建模。与这些工作相比,我们的STPrompt在概念上简单但实际上有效,这一点在图2中得到了证明。为了克服上述局限性,我们在STPrompt中进行了一系列专门设计。首先,基于将视频分割成多个帧的常规操作,我们进一步将每个帧分割成多个块。通过这样的操作,WSVADL可以被视为一个粗略的帧级和块级分类任务,而无需任何检测预处理。在这种情况下,一种自然的方法是将所有空间块直接视为实例,然后使用多实例学习(MIL)机制来预测每个块的异常置信度。然而,这种易于实现的方法计算量大且不易优化[13, 27]。因此,为了降低时空建模的复杂性和优化难度,我们将WSVADL任务分解为两个子任务,即时间异常检测和空间异常定位。在时间异常检测方面,我们在CLIP的基础上引入了一个双分支模型,同时设计了两个关键模块:一方面,空间注意力聚合有助于时间检测模型关注潜在的异常空间位置;另一方面,一个典型的时间适配器增强了时间检测模型的时间上下文捕获能力。在空间异常定位方面,为了应对监督不足带来的挑战,我们基于视觉语言模型(VLM)的“图像到概念”能力,设计了一种无需训练的异常定位策略。

3.2 Motion Prior-aware Spatio-Temporal Prompt Learning for Anomaly Detection

受开创性工作VadCLIP[71]的启发,我们也引入了一个双分支框架,即分类分支和对齐分支。具体来说,给定一个视频 v v v,我们使用CLIP的冻结图像编码器来提取帧级特征 x C L I P ∈ R T × D x_{CLIP}\in\mathcal{R}^{T\times D} xCLIPRT×D,其中 T T T是视频 v v v的长度, D D D是特征维度。然后,经过一系列信息增强后,这些特征被送入两个分支。分类分支是通过一个二元分类器直接预测异常置信度 A ∈ R T × 1 A\in\mathcal{R}^{T\times1} ART×1,而对齐分支则是通过图像到概念的对齐来计算异常类别概率 M ∈ R T × ( 1 + C ) M\in R^{T\times(1+C)} MRT×(1+C)。在获得 A A A M M M之后,我们采用典型的TopK[67]和最近的MIL-Align[71]策略分别计算视频级别的异常预测和类别预测,这些预测随后用于计算损失并为模型优化提供数据支持。在整个过程中,我们设计了两个模块来促使模型从空间和时间维度上关注异常,这将在以下部分中进行说明。

3.2.1 基于运动先验的空间注意力聚合

尽管我们明确地将WSVADL分解为两个独立的任务,即时间异常检测和空间异常检测,但在时间异常检测任务中,我们仍然需要关键的空间局部异常作为辅助信息。这是因为潜在的空间异常可以消除由不相关背景引起的噪声影响,毕竟大多数异常可能只占据很小的空间区域。对于这个问题,大多数以前的工作完全忽略了空间异常信息,而极少数尝试学习空间块和视频帧之间的相互作用。前者的工作缺乏考虑单个空间内容的使用,而后者的工作不可避免地会产生过高的计算成本。因此,我们提出了一种新颖的空间注意力聚合(SA²)方案,以低成本捕获关键的空间信息。我们知道,整个帧由场景的背景和动作的前景组成,异常事件通常与前景对象一起发生,因此,关注空间前景可以捕获潜在的异常事件。定位前景的常用方法包括目标检测算法[46]或光流[8],但这些方法需要较高的计算成本。在这里,我们提出了一种非常简单且高效的方法,命名为SA²,该方法受到基于运动先验工作[59,65]的启发。具体来说,给定帧级特征 x C L I P x_{CLIP} xCLIP及其对应的空间特征 x P A T C H ∈ R T × H × W × D x_{PATCH} \in \mathcal{R}^{T\times H\times W\times D} xPATCHRT×H×W×D,其中 H H H W W W是空间特征的高度和宽度,我们认为当大多数异常事件发生时,空间特征中对应的位置会发生显著变化[65]。因此,我们通过计算帧之间的差异来获得运动幅度。

在这里插入图片描述

其中, M o Mo Mo 的大小为 T × H × W T\times H\times W T×H×W,L2 表示在通道维度上应用的 L2 归一化, i i i 表示第 i i i 帧。然后,我们使用 TopK 机制来选择具有最高运动幅度 M o T O P ∈ R T × K × 1 Mo_{TOP}\in\mathcal{R}^{T\times K\times1} MoTOPRT×K×1 的固定数量的块级特征 x M o ∈ R T × K × D x_{Mo}\in\mathcal{R}^{T\times K\times D} xMoRT×K×D,其中 K < H × W K<H\times W K<H×W,并计算注意力以获得聚合的空间特征。
在这里插入图片描述
x C L I P x_{CLIP} xCLIP 不同,在 x C L I P x_{CLIP} xCLIP 中,每帧中的所有像素对于异常检测具有几乎相等的影响,而 x A S x_{AS} xAS 则高度关注潜在的异常位置。无论异常事件的空间区域如何变化,这两个特征,即 x C L I P x_{CLIP} xCLIP x A S x_{AS} xAS,都能从局部和全局的角度提取关键的异常信息。换句话说,它们是互补的。

3.2.2 Temporal CLIP adapter.
如前所述,我们采用 CLIP 的预训练图像编码器来提取帧级特征,这些特征包含瞬时信息,但缺乏对于视频异常检测(VAD)任务至关重要的全局时间上下文。这促使我们研究时间上下文建模。我们提出了时间适配器(temporal adapter),它类似于一个标准的多层 Transformer 编码器,由自注意力(self-attention)、层归一化(LN)和前馈网络(FFN)组成。遵循 [40],我们没有应用位置编码。时间适配器与 Transformer 编码器的主要区别在于自注意力机制,它是基于相对距离而不是特征相似性 [70]。在自注意力中,邻接矩阵(adjacency matrix)计算为 M a [ i , j ] = − ∣ i − j ∣ σ Ma[i,j]=\frac{-|i-j|}\sigma Ma[i,j]=σij,其中第 i i i 帧和第 j j j 帧之间的相似性仅由它们之间的相对时间距离决定。 σ \sigma σ 是一个超参数,用于控制距离关系的影响范围。在这项工作中,我们将 x C L I P x_{CLIP} xCLIP x A S x_{AS} xAS 相加,并将求和后的特征输入到时间适配器中,从而为 CLIP 赋予时间建模能力,可以表示如下:

在这里插入图片描述
3.2.3 双分支提示学习。在获得深度处理后的特征后,我们需要模型预测帧级的异常置信度。由于 VadCLIP 已被证明的性能,我们进一步采用其双分支检测框架。一个分支是分类分支(C-Branch),它是一个简单的线性层,神经元数量为1,以 x T A x_{TA} xTA 作为输入,并生成异常置信度 A A A。另一个分支是对齐分支(A-Branch),它以视频特征和标签的文本嵌入作为输入,并产生异常类别概率 M M M。具体来说,我们通过将原始的 CLIP 特征 x C L I P x_{CLIP} xCLIP 和时间适配器的输出 x T A x_{TA} xTA 相加来创建图像特征,从而结合了 CLIP 的预训练知识和新学习到的上下文信息。对于标签的文本嵌入,我们受到 CoOp [80] 的启发,在类别嵌入中添加了一个可学习的前缀提示嵌入,其中类别嵌入是通过将原始文本类别(如 Fighting、Shooting、Car accident)转换为 CLIP 分词器中的类别标记,然后将它们放入 CLIP 的文本编码器中来创建的。在数学上,我们将类别 i i i 的类别嵌入 t c i t_{c_i} tci 与由 l l l 个上下文标记组成的可学习嵌入 { e 1 , . . . , e l } \{e_1,...,e_l\} {e1,...,el} 连接起来,形成一个完整的句子标记。因此,文本编码器对于一类的输入表示为 { e 1 , ⋯   , e l , t c i } \{e_1,\cdots,e_l,t_{c_i}\} {e1,,el,tci}。总体标签提示嵌入 P r o m p t ∈ R ( 1 + C ) × D Prompt \in \mathcal{R}^{(1+C)\times D} PromptR(1+C)×D 是文本编码器的 CLS 标记输出。有了 P r o m p t Prompt Prompt x C L I P + x T A x_{CLIP}+x_{TA} xCLIP+xTA,我们可以生成 M M M,如下所示:

在这里插入图片描述

3.2.4 目标函数。遵循 [71] 的设置,分类分支采用了基于 TopK 的分类目标函数,可以表示如下:

在这里插入图片描述
其中,TopK 表示从视频 v v v 的帧级置信度 A A A 中选择 k k k 个最大值。 L c l a s s \mathcal{L}_{class} Lclass p b p_b pb 和视频级二进制标签 y b y_b yb 之间的二元交叉熵(binary cross-entropy)。

对于对齐分支,我们使用了基于多实例学习(MIL)对齐的目标函数,该函数基于异常类别概率 M M M。对于 M M M 的每一列,我们选择 k k k 个最大相似度并计算平均值,以衡量视频 v v v 与当前类别之间的对齐程度。然后,我们可以获得一个向量 S = { s 1 , . . . , s ( 1 + C ) } S=\left\{s_1,...,s_{(1+C)}\right\} S={s1,...,s(1+C)},它表示视频 v v v 与所有类别之间的相似度。接着,我们计算损失 L a l i g n \mathcal{L}_{align} Lalign 如下:

在这里插入图片描述

其中, p c i p_{c_i} pci是第 i 类的预测,并且𝜏是指用于缩放的温度超参数。

为了学习具有判别性的提示嵌入,我们还引入了一个对比损失,以使所有文本嵌入更加分散。具体来说,我们计算标签提示嵌入之间的余弦相似度,并计算如下对比损失 L c o n s t \mathcal{L}_{const} Lconst

在这里插入图片描述

最终的目标函数是上述三个损失函数的加权和:

在这里插入图片描述

3.3 LLM-Enabled Text Prompting for Spatial Anomaly Localization

该操作的核心在于如何定位异常区域。得益于预训练视觉语言模型(VLMs)这一新兴范式,我们在无训练的空间异常定位方面迈出了一步。受基于CLIP的工业缺陷检测工作[23,81,82]的启发,我们将空间异常定位视为给定文本查询的空间块检索过程。具体来说,我们假设一个测试视频帧由于其较高的异常分数而被视为异常帧。然后,我们通过滑动窗口方案获得其块级特征图 x P ∈ R H × W × D x_P\in{R}^{H\times W\times D} xPRH×W×D,其中块是以与 x P A T C H x_{PATCH} xPATCH 相同的方式生成的。这里的滑动窗口方案意味着我们首先通过以步长S滑动固定大小为 P × P P{\times}P P×P 的窗口来生成一组图像块,即类似于卷积的操作,然后将这些图像块输入到CLIP的图像编码器中以获得CLS令牌的相应嵌入。值得注意的是,我们没有采用自然的密集表示,即CLIP中的倒数第二个特征图,尽管其生成比基于滑动窗口的方案更简单。这是因为这些特征在CLIP中并没有直接用语言进行监督,而且,由于自注意力机制,这些块特征已经聚合了全局上下文,从而阻碍了局部区域细节的定位建模[23]。

至于文本查询,我们生成了几个正常和异常的描述。对于正常描述的生成,与工业缺陷检测任务相比,在WSVAD任务中使用文本标签来描述正常行为更具挑战性。这是因为WSVAD任务中的视频通常包含多个场景,尤其是许多难以直接用文本标签准确总结的现实世界场景。另一方面,在空间细粒度描述方面,由于空间块覆盖范围有限,正常行为和异常行为之间可能存在语义模糊。考虑到大多数异常都针对激烈的人类行为,我们认为使用描述图像背景的文本说明作为正常描述更为合适。因此,我们向大型语言模型(LLMs)查询常见的室内和室外物品,并选择了12个最常见的文本描述作为正常文本描述。例如,“天空的图片、地面的图片、道路的图片、草地的图片、建筑物的图片、墙壁的图片、树木的图片、地板瓷砖的图片、桌子的图片、橱柜的图片、椅子的图片、门的图片”。

对于异常描述,除了原始的异常类别外,我们还使用大型语言模型(LLMs)和一个模板“提供与[异常类别]相似的短语”来获得增强的描述。例如,“[异常类别]”可以设置为“人们击倒某人”用于“打架”类别,“人们躺在地上”用于“车祸”,“某人点火”用于“纵火”,“人们射击某人”用于“射击”。这些增强的提示与原始的文本类别一起,被用作空间异常定位的最终异常提示。

有了 x P x_P xP 和文本查询 q T q_T qT,我们执行了一个块级检索过程,即使用正常描述和异常描述来分别定位背景区域和潜在的异常区域。从数学上讲,这个过程可以表示为,

在这里插入图片描述
创建了一个大小为 H × W H\times W H×W 的异常事件空间热图 M M M,并将其调整为原始帧的大小,可以通过形状检测算法生成预测的边界框。值得注意的是,我们为 x P x_P xP 创建了两个不同尺度的特征图,其中 P & S P\&S P&S 分别设置为 32&32 和 80&48,并使用一个融合超参数 λ \lambda λ 来平均它们的检测结果作为最终结果。

4 EXPERIMENTS

4.1 Datasets and Evaluation Metrics

4.1.1 数据集。我们在三个流行的WSVAD基准测试上进行了广泛的实验,这些基准测试提供了测试视频的时空异常注释。UCF-Crime是WSVAD任务的一个大规模基准测试。它由1900个长且未经修剪的真实世界监控视频组成,总时长为128小时,训练视频和测试视频的数量分别为1610个和290个。ShanghaiTech是一个包含437个视频的中等规模数据集,其中包括13个场景中的130个异常视频。该数据集最初是为半监督视频异常检测而设计的,我们遵循Zhong等人的方法[78],并将数据集重新组织为238个训练视频和199个测试视频。UBnormal是一个合成数据集。总共有543个视频,包含22种异常事件类型,其中6种类型在训练集中可见,12种类型在测试集中可见。遵循WSVAD的设置,训练阶段仅提供视频级别的标签。

4.1.2 评估指标。对于时间异常检测,我们遵循以前的工作[52],并使用帧级接收器操作特性(ROC)曲线下的面积(AUC)作为评估指标。AUC值越高,表示性能越好。对于空间异常定位,我们遵循以前的工作[33],使用TIoU(时间交并比)作为评估指标,可以表示为以下方程:

在这里插入图片描述
其中,指标 I [ . ] ∈ 0 , 1 I[.] \in {0,1} I[.]0,1 表示是否根据异常分数 P j P_j Pj 将给定的异常帧预测为异常, A rea p A\textit{rea}_p Areap A rea g A\textit{rea}_g Areag 分别表示预测边界框和真实边界框的面积, N N N 表示所有异常帧的总数。我们报告了帧级检测和像素级定位的准确性。

4.2 Implementation Details

我们使用冻结的CLIP(ViT-B/16)来提取视频帧的特征。具体来说,我们在UCF-Crime数据集上每16帧处理1帧,在上海科技大学和UBnormal数据集上每4帧处理1帧,因此更高的采样频率可以略微提高性能。在训练阶段,训练视频的最大长度设置为256帧,超过此长度的视频将被采样到最大长度。对于所有数据集,我们将附加到文本标签的可学习提示的长度设置为8。对于总损失函数的超参数,我们在UBnormal上设置 α \alpha α为1,在UCF-Crime和上海科技大学上设置 α \alpha α为0.9,在所有数据集上设置 β \beta β为2。在所有数据集上, k k k被设置为 [ T / 16 ] + 1 [T/16]+1 [T/16]+1。对于 x P A T C H x_{PATCH} xPATCH,我们将图像大小调整为 224 × 224 224\times224 224×224,然后使用大小为 32 × 32 32\times32 32×32、步长为32的滑动窗口生成多个块,其中 H H H W W W都等于7。此外,在 S A 2 SA^2 SA2中, K K K被设置为12。对于模型优化,我们使用AdamW优化器,学习率为1e-4,在单个RTX3090 GPU上训练模型,批量大小设置为64。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 CONCLUSION

在这项工作中,我们提出了一种名为 STPrompt 的新方法,它利用冻结的视觉语言模型进行弱监督视频异常检测和定位。为了应对这一具有挑战性的任务,我们采用了分而治之的策略,将该任务分解为两个不同的子任务:时间异常检测和空间异常定位。对于前者,我们设计了一种空间注意力聚合策略和时序适配器,以有效捕获潜在的空间异常信息和上下文信息,然后采用双分支网络通过二元分类和跨模态对齐来检测异常。对于后者,我们基于预训练视觉语言模型(VLMs)中的概念知识,设计了一种无需训练的查询和检索方法。STPrompt 简洁高效,在时间异常检测和空间异常定位方面,在三个基准测试中均达到了最先进的性能。未来,如何进一步降低空间误报率并提高空间定位准确性是一个值得长期研究的问题。

  • 10
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值