【视频异常检测 】Overlooked Video Classification in Weakly Supervised Video Anomaly Detection 论文阅读

Attribute-based Representations for Accurate and Interpretable Video Anomaly Detection


文章信息:

在这里插入图片描述

原文链接:https://openaccess.thecvf.com/content/WACV2024W/RWS/html/Tan_Overlooked_Video_Classification_in_Weakly_Supervised_Video_Anomaly_Detection_WACVW_2024_paper.html
源码链接:https://github.com/wjtan99/BERT_Anomaly_Video_Classification

Abstract

目前,大多数基于弱监督的视频异常检测算法主要使用多实例学习(MIL)或其变体。几乎所有最近的方法都集中在如何选择正确的片段进行训练,以提高性能。它们忽视或未意识到整个视频分类在改善异常检测性能方面的潜力,特别是在负面视频上。在本文中,我们专门研究了使用BERT或LSTM进行整个视频分类监督的效果。借助这种BERT或LSTM,可以将视频的所有片段的CNN特征聚合成一个单一的特征,该特征可用于整个视频分类。这种简单而强大的整个视频分类监督,结合MIL和RTFM框架,显著提高了三个主要视频异常检测数据集上的性能。特别是在XD-Violence数据集上,将均值平均精度(mAP)从当前最先进水平的78.84%提高到新的82.10%。这些结果表明,可以将视频分类与其他异常检测算法结合使用以实现更好的性能。

1. Introduction

监控摄像头广泛用于公共场所,以确保安全。在机器学习和人工智能的支持下,监控摄像头变得更加智能,能够通过自动物体或事件检测和识别来实现。视频异常检测的目标是在视频中识别异常对象或事件的时间和空间。示例包括工业异常检测和安全异常检测等。

根据训练数据的标注和算法的不同,异常检测被分为三种类型 - 无监督、有监督和弱监督。无监督方法仅在正常视频上学习,假设未见异常视频具有较高的重构错误。这种方法的性能通常较差,因为它缺乏对异常视频中异常的了解,并且无法学习正常视频中的正常模式。有监督方法期望具有最佳性能。然而,由于逐帧标注非常耗时且容易出现人为错误,因此研究较少。在弱监督方法中,由于只需要对视频进行级别的异常标注,数据集更容易获取,并且对人为错误更具鲁棒性。这使得它在视频异常检测领域引起了最多的关注。

在弱监督异常检测中,通常使用多实例学习(MIL)或其变体[21]。从一对异常和正常视频中,对异常视频形成一个正样本实例袋,对正常视频形成一个负样本实例袋。使用预训练的CNN网络提取视频帧片段上的特征。在这两个实例袋中的所有实例上训练一个分类网络。选择具有最大分类得分的一个实例来代表该袋。多实例学习旨在最大化正样本袋和负样本袋最大分数之间的分离。

在几乎所有的后续研究中,提出了不同的方法来选择最优质的片段来训练模型。有些选择多个片段而不是从视频中选择一个[22],而另一些选择一系列连续的片段[14],[7]。其中一些使用片段分类分数来选择片段,而其他人使用包括特征幅度在内的其他指标[22]。有些使用GCN来改善所选片段的质量[30]。

然而,几乎所有这些方法都忽视或未充分认识到视频分类及其对异常检测性能的影响。在异常检测中,视频被分类为异常或正常视频。这一强大信息在RTFM [22]、[14]和[29]之外几乎被忽略。在RTFM中,对于每个视频选择具有最大特征幅度的前k个片段,并将它们的分类分数均值用作二元交叉熵(BCE)损失中的视频分类分数,尽管作者没有明确称之为如此。

在[29]中,使用GCN来近似模拟视频分类,并使用视频分类的二元交叉熵(BCE)损失。与我们的工作最相关的是[14]。虽然我们正在研究使用BERT [4],[9]进行明确的视频分类,但我们发现他们使用一个Transformer来模拟视频分类,并采用BCE损失。除了这个视频分类之外,Transformer还被用来优化CNN特征。他们提出了多序列学习(MSL),找到连续的片段以改善训练,这被认为是他们的主要贡献。然而,在我们的工作中,我们发现BERT或Transformer不一定能够同时完成视频分类和特征优化的两个任务。我们发现它对特征的优化并没有帮助,因此我们仅研究其在视频分类中的作用。通过这个简单的单一变化,没有采用多序列学习(MSL)或RTFM,我们在UCFCrime [21]和ShanghaiTech [16]数据集上实现了更优越的性能。

我们进一步将这种BERT视频分类应用于RTFM之上。我们结合了它们的二元交叉熵(BCE)损失和我们提出的基于BERT的BCE损失,在XD-Violence数据集上取得了非凡的性能。基于这些结果,我们展示了视频分类监督在异常检测中的威力。它可以单独工作,也可以与RTFM等其他技术结合,以提升异常检测的性能。

我们的贡献概述如下,

  • 我们明确研究了视频分类监督在弱监督视频异常检测中的作用。这种视频分类是通过在片段CNN特征上使用BERT来实现的。我们发现BERT只应该用于视频分类,而不是用于特征优化。我们的主要贡献在于我们发现视频分类的威力以前被忽视了,而现在在这项工作中填补了这一空白。作为割除研究,我们实现了一个更简单的基于LSTM的视频分类器。尽管其复杂性要低得多,但其性能几乎与BERT相同。
  • 该方案有两种推理模式。第二种在线模式提供了一个非常有吸引力的低复杂度选项,即使它只从视频分类监督中获得部分性能改善。
  • 我们在标准的MIL框架下,在UCF-Crime和ShanghaiTech数据集上单独研究了该算法。我们测试RGB、Flow或RGB+Flow模态。在异常检测中简单地引入视频分类,在每种模态上都带来了上级性能的改进。在RGB+流模态上,我们实现了最佳的ROC-AUC性能,超过SOTA 1.5%。
  • 我们在UCF-Crime和XD-Violence数据集上基于RTFM [22]研究了该算法。我们仅测试RGB模态。尽管我们的算法在UCF-Crime数据集上只实现了微弱的ROC-AUC性能改善,但在XDViolence数据集上实现了近3.51%的AP性能提升。这种改进表明我们提出的明确视频分类可以与许多其他不使用明确视频分类视频异常检测算法结合使用。

2. Related Work

无监督异常检测假设只有正常的训练数据可用,并通过使用手工制作的特征或深度学习特征进行单类别分类来解决这个问题。典型的方法使用预训练的CNN,在正常流形的潜在空间上施加约束以学习正常性表示,或者使用生成模型的数据重构误差。由于很难获得逐帧标注,关于有监督学习用于异常检测的研究工作非常有限。其中两个例子是[15]和[13]。有关视频异常检测的综述,请参阅[10]和[18]。

通过利用可用的视频级注释,弱监督异常检测已经显示出比自监督方法显著提高的性能。这些注释仅给出视频的异常或正常的二进制标签。Sultani等人。[21]提出了仅使用视频级标签的MIL框架,并引入了大规模异常检测数据集UCFCrime。这一工作启发了相当多的后续研究[30],[17],[26],[28],[27],[7],[22],[14]。

然而,在基于多实例学习(MIL)的方法中,异常视频标签不容易有效地使用。通常,分类分数用于确定一个片段是异常还是正常。在正样本实例袋中,这个分数是有噪音的,其中一个正常片段可能被错误地视为异常视频中的顶部异常事件。为了解决这个问题,Zhong等人 [30] 将这个问题视为带有噪声标签问题的二元分类问题,并使用图卷积神经网络(GCN)清除标签噪声。在 [7] 中,提出了一种多实例自训练框架(MIST),用于通过多实例伪标签生成器和自引导关注度增强特征编码器高效地优化任务特定的判别表示。在 [28] 中,提出了一种弱监督的时空异常检测方法,用于定位包围异常事件的时空管道。在 [28] 中,探讨了因果时间线索和特征判别。在 [17] 中,使用高阶上下文编码模型来编码时间变化以及弱监督异常检测的高级语义信息。

在RTFM [22]中,使用鲁棒的时间特征幅度(RTFM)从异常视频和正常视频中选择最可靠的异常片段。它们通过时间特征排名损失统一了表示学习和异常得分学习,从而能够更好地分离正常和异常特征表示,与以前的MIL方法相比,改善了对弱标签的探索。在[14]中,使用了多序列学习(MSL)。MSL使用多个实例的序列作为优化单元,而不是MIL中的单个实例。此外,Transformer用于细化片段特征。视频分类与Transformer分类token一起使用。

在[29]中,视频和音频信号都用于检测具有音频的视频中的异常。他们使用GCN来建模长期和局部依赖关系。与此同时,他们发布了迄今为止最大的视频异常检测数据集XD-Violence数据集。

3. Proposed Methods

我们建议使用BERT作为视频分类器,因为它具有卓越的能力,可以利用空间和时间注意力来聚合信息。训练和测试流程的示意图如图1所示。下面将提供更多详细信息。

首先,让我们定义一些可能令人困惑的术语。视频分类是指将每个视频分类为正常(负类)或异常(或非正常,正类)。片段被定义为具有固定长度(在本文中为16帧)的视频帧序列。分段被定义为一系列片段。在本文中,我们遵循以前的工作,将每个训练和验证视频划分为相等长度的32个分段。在测试视频中,可以使用片段或分段。

3.1. Introduction to BERT

Transformer模型首次出现在2017年的一篇名为《Attention Is All You Need》的论文中[24]。它是一种非常成功的自然语言处理(NLP)模型,已成为近年来的突破性创新之一。从那时起,Transformer已经扩展到几乎机器学习的所有领域,包括图像分类[5]、目标检测[1]、视频理解[8]等等。Transformer通过自注意机制关注输入数据序列的每个元素,并提取整个数据集的特征。

在Transformer模型取得成功之后,双向编码器表示来自Transformers(BERT)[4]是一个双向的自注意力模型,在许多下游自然语言处理(NLP)任务中也取得了巨大成功。双向性使得BERT能够融合两个方向的上下文信息。此外,BERT引入了具有挑战性的无监督预训练任务,为许多任务提供了有用的表示。BERT在[9]中被引入用于视频动作识别,并在两个主要的动作识别数据集UCF-101 [20]和JHMDB-51 [12]上取得了最先进的性能。我们受到了BERT的启发,特别是其在动作识别[9]上的应用。

在[9]中,BERT被用作晚期汇集函数,以替代先前广泛使用的全局平均池化(GAP)。输入到BERT的是通常在GAP和FC层之前获取的内部CNN特征映射。为了保留位置信息,还向提取的特征添加了一个学习到的位置编码。为了进行分类,与[4]一样,额外的分类标记 x c l s x_{cls} xcls被追加。分类是通过相应的分类向量 y c l s y_{cls} ycls实现的,该向量被送到FC层进行分类预测。

BERT的一般单头自注意模型被公式化为:

在这里插入图片描述
其中, x i x_i xi值是包括位置编码的输入向量; i i i表示目标输出时间位置的索引; j j j表示所有可能的组合; N ( x ) N(x) N(x)是一个归一化项。函数 g ( ) g() g()是BERT自注意力机制内的线性投影,而函数 f ( ) f() f()表示 x i x_i xi x j x_j xj之间的相似性,即 f ( x i , x j ) f(x_i, x_j) f(xi,xj) = s o f t m a x j ( θ ( x i ) T ϕ ( x j ) ) softmax_j(θ(x_i)^Tϕ(x_j)) softmaxj(θ(xi)Tϕ(xj)),其中函数 θ ( ) θ() θ() ϕ ( ) ϕ() ϕ()是线性投影。可学习的函数 g ( ) g() g() θ ( ) θ() θ() ϕ ( ) ϕ() ϕ()试图将特征嵌入向量投影到一个更好的空间,使得注意力机制更加高效。 g ( ) g() g() θ ( ) θ() θ() ϕ ( ) ϕ() ϕ()函数的输出通常称为值、查询和键 [24]。PFFN是应用于所有位置的位置逐点前馈网络(PFFN),其形式相同,并且独立地应用于所有位置, P F F N ( x ) = W 2 G E L U ( W 1 x + b 1 ) + b 2 PFFN(x) = W_2GELU(W_1x+b_1)+b_2 PFFN(x)=W2GELU(W1x+b1)+b2,其中 G E L U ( ) GELU() GELU()是高斯误差线性单元(GELU)激活函数 [24]。分类向量 y c l s y_{cls} ycls的形式与 y i y_i yi类似,
在这里插入图片描述
在我们的工作中,由于我们的重点是研究视频分类的影响,我们的主要目标是使用学习到的分类嵌入 y c l s y_{cls} ycls,将视频的时序特征聚合成一个用于视频分类的单一特征。输入向量 x i x_i xi是各个分段的特征向量。如果学习到的更好的特征表示子空间 y i y_i yi比原始特征 x i x_i xi在异常多实例学习(MIL)中表现更好,那么它们是一个优势。然而,我们有一个强烈的动机,为什么我们不必将其用于应用目的——在推断模式下,具有与原始MIL框架[21]相同低复杂度的解决方案。

3.2. Proposed Training Process

图1所示是我们提出的具有显式视频分类的异常检测的框图。我们称这种解决方案为MIL-BERT。
图1.使用BERT视频分类进行异常检测的框图,(a)训练,(b)使用视频分类进行测试,(c)不使用视频分类进行测试。
图1.使用BERT视频分类进行异常检测的框图,(a)训练,(b)使用视频分类进行测试,(c)不使用视频分类进行测试。

图1(a)是训练流程图。首先,给定一个视频,将其帧提取成16帧的片段。预训练的3D CNN骨干网络用于提取CNN特征。在图中,我们演示了一个I3D网络[3],但也可以使用其他网络,如C3D [23]、更新的X3D [6]或MoViNet [11]。这个骨干网络保持冻结状态,并且不参与我们的训练。输出的片段特征表示为 f i f_i fi,其中j = 1, 2, …, N,其中N是视频片段的数量。这些特征平均分成32个段 x i x_i xi,其中i = 1, 2, …, 32。这个函数定义为:
在这里插入图片描述
其中 s e g () seg() seg()代表片段上的分割。它的反函数表示为 s e g − 1 () seg^{−1}() seg1()

分段的特征 x i x_i xi被送入BERT作为输入时序特征。在BERT中的所有双向注意机制之后,输出的特征 y i y_i yi位于不同的子空间,并且分类特征 y c l s y_{cls} ycls在此之后输出。标准的多实例学习(MIL)异常检测框架可以将特征 x i x_i xi y i y_i yi作为输入。我们建议将从BERT中输出的视频分类 y ^ \widehat{y} y 作为MIL的输入。这个类似的思想也在[14]中使用。

我们继续使用带有平滑度和稀疏性项的MIL排名损失函数,就像[21]中一样。我们在其上添加视频分类的二元交叉熵(BCE)损失。因此,整体损失函数定义为:

在这里插入图片描述

其中下标a和n表示异常和正常视频,v是一个输入特征实例,可以是我们工作中的 x i x_i xi y i y_i yi f i f_i fi B a B_a Ba B n B_n Bn是异常和正常视频中的片段集合, s ( . ) s(.) s(.)是预测的异常评分函数,其范围在0和1之间。max函数是在一个片段集合中取所有实例的最大值。预期在正样本集合中,得分最高的实例是真正的异常片段。在负样本集合中,得分最高的实例是与正样本集合最相似的实例,但实际上是负实例。这使得负实例变得困难,因此有助于模型训练中的可区分性。在BCE损失部分,我们仅保留了标准形式的一部分,因为 y a y_a ya = 1, y n y_n yn = 0,p是视频分类器的评分函数。尽管在这个方程中没有显示,但仍然使用平滑度和稀疏度项。

在图1(a)中,我们将 y i y_i yi以虚线表示,作为MIL块的可选输入。我们将研究这个新特征在异常检测中的作用。

3.3. Proposed Testing Process

在BERT和下游的MIL块的训练中,输入特征始终被分割成32个段。这是BERT和MIL块标准实现都要求的。然而,在测试或推断模式中并不要求这样。

在图1(b)中显示了一个测试流程图,其中视频分类得分 p ( y ^ c l s ) p(\widehat{y}_{cls}) p(y cls)与MIL片段得分 s ( v i ) s(vi) s(vi)相结合。因此,最终的片段异常得分为:
在这里插入图片描述
这在[14]中被称为得分校正方法。我们在发现[14]的工作之前就构想了这个想法。然而,[14]使用了transformer之后的特征,而在我们的工作中,我们在MIL块中使用原始特征。

在图1(b)中,我们在在线模式下使用原始特征 f i f_i fi作为MIL块的输入,其中特征可以在可用时进入MIL块进行处理。我们也可以在离线模式下使用 x i x_i xi,其中所有视频特征在进入MIL块之前都被分成32个段。这种在线模式在许多先前的工作中的实现中被使用。然而,BERT块需要具有32段特征,因此图1(b)实际上只能在离线模式下工作。

在图1( c)中,我们展示了一个简化的测试模式,其中不使用视频分类得分。在这种模式下,BERT在训练过程中被使用,但在测试时根本不被使用。这使得这个模型非常有吸引力,因为它具有非常低的复杂性。

3.4. Combining with RTFM

所提出的方法可以单独工作,也可以与其他异常检测方法结合使用。我们以RTFM [22]为例。在这种情况下,MIL排名损失被替换为基于RTFM的特征幅度排名损失,我们的BCE损失与RTFM的BCE损失平衡。因此,总损失函数定义为:
在这里插入图片描述
其中,BERT BCE损失在方程(4)的最后一行定义,RTFM BCE损失和排名损失可以在[22]中找到。这个提出的解决方案被称为RTFM-BERT。

在RTFM中,BCE损失是定义在视频中具有最大特征幅度的top-k片段上的。他们将这个分类器称为片段分类器。由于这些top-k片段是每个视频选择的,并且它们的异常分数被平均以代表视频,这个分数实际上代表整个视频类。经过一些分析,我们发现这是RTFM的关键贡献之一。当我们尝试去掉这个BCE损失,或者用像[21]中的片段得分排名损失替代时,RTFM的性能变得糟糕得多。因此,RTFM的作者可能没有意识到他们在解决方案中隐含地发挥了视频分类的作用。

3.5. Discussion: Why is video classification important

从方程(5)中我们可以看出,视频分类得分 ( p ( y ^ c l s ) ) (p(\widehat{y}_{cls})) (p(y cls))有助于片段预测得分 s ( v i ) s(v_i) s(vi)。对于一个异常片段,视频分类得分没有影响,因为如果它不被使用,那么片段得分就是简单的 s ( v i ) s(v_i) s(vi)。对于一个正常片段,当视频分类得分很小(接近0)时,那么片段预测得分将被进一步压缩。这有助于减少正常片段被错误地分类为异常片段的机会。

此外,即使在方程(5)中没有使用视频分类得分,视频分类也会隐含地帮助异常检测。在方程(4)中,视频分类是在BERT输出的分类向量 y ^ c l s \widehat{y}_{cls} y cls上进行的,这是输入特征 v i v_i vi的一个函数。如果MIL在异常和正常的袋子中选择了正确的最高分实例,那么视频分类是正确的。因此,显式的视频分类有助于MIL选择正确的实例。

4. Experiments

4.1. Datasets

我们使用了三个异常检测数据集:UCF-Crime [21]、ShanghaiTech [16] 和新发布的 XD-Violence [29]。我们在 UCF-Crime 上进行了大部分的消融研究。
UCF-Crime [21] 是一个大规模异常检测数据集,包含来自现实世界街头和室内监控摄像头的 1900 个未剪辑视频,总时长达 128 小时。UCF-Crime 包含复杂且多样的背景。训练集和测试集包含相同数量的正常和异常视频。该数据集涵盖了 13 个类别的异常,包括 1610 个带有视频级标签的训练视频和 290 个带有帧级标签的测试视频。

ShanghaiTech [16] 是一个来自固定街头视频监控摄像头的中等规模数据集。它具有 13 种不同的背景场景,包括 437 个视频,其中包括 307 个正常视频和 130 个异常视频。原始数据集是异常检测任务的一个常用基准,假设有正常的训练数据可用。Zhong 等人 [30] 重新组织了数据集,通过将一部分异常测试视频选择为训练数据,以构建一个弱监督的训练集,这样训练集和测试集都覆盖了所有 13 个背景场景。

XD-Violence [29] 是一个最近提出的大规模多场景异常检测数据集,采集自真实电影、在线视频、体育赛事直播、监控摄像头和闭路电视。该数据集的总时长超过 217 小时,包含 4754 个未剪辑视频,其中训练集具有视频级标签,测试集具有帧级标签。目前是最大的公开可用视频异常检测数据集。

4.2. Evaluation Metrics

我们遵循先前的工作 [21]、[22]、[14],在 UCF-Crime 和 Shanghai Tech 数据集上使用帧级 ROC 曲线下面积(AUC)作为评估指标。根据 [29],我们在 XD-Violence 数据集上使用平均精度(AP)作为评估指标。

请注意,在测试数据集上评估 AUC 或 AP 的性能有两种方法。由于视频特征首先在片段中,然后被分成 32 段,因此还有两种测试的方法,其中片段或段特征被用作输入到 MIL 块,它们的性能不同。我们使用这两种中更好的方法来对比先前的工作和我们的工作,除非另有说明。在第一种方法中,使用片段特征,MIL 分数通过简单地重复分数 16 次映射回帧。在第二种方法中,使用段特征,我们首先执行逆分段seg−1,如方程(3)中所示,其中每个段的分数映射回原始片段,然后每个片段的分数被重复 16 次。

4.3. Implementation Details

我们在 PyTorch 中实现了 BERT 和 MIL,BERT 代码来自 [9]。默认的 BERT 使用 2 层和 8 个注意头。使用初始学习率为 1E-4,并进行 100 个 epoch 的训练。之后可能会进行一些手动微调。使用两个数据集迭代器,一个用于异常数据,另一个用于正常数据。这样,即使异常和正常样本的数量不同,异常和正常数据的配对也是随机的。我们使用 Adam 优化器。

对于视频片段特征,我们使用两种不同的 I3D 网络。在 [22] 中,使用了带有 Resnet50 [25] 的 I3D,其特征维度为 2048。在 [29] 和 [19] 中,使用了带有 Resnet18 [2] 的 I3D,其特征维度为 1024。我们使用两组在网上找到的 UCF-Crime 和 ShanghaiTech 预生成特征,一组用于 [19],另一组用于 [22]。第一组既有 RGB 又有光流(后文简称 Flow),没有多次裁剪增强,而另一组只有 RGB,带有 10 次裁剪增强。在 UCF-Crime 上,我们将第一组特征集称为 UCF-Crime,将第二组特征集称为 UCF-Crime-RTFM。对于 XD-Violence 数据集,我们使用该数据集的作者生成的带有 5 次裁剪增强的 RGB 特征。

对于评估我们的 BERT 视频分类与 RTFM 结合的性能,我们使用 RTFM 的代码库并在其中添加了 BERT。作为消融研究,我们在片段特征的输入处添加了一个 FC 层,当特征维度为 2048 时。通过这个改变,总模型参数的数量显著减少,而性能的影响微不足道。

4.4. Pre-study on Feature Sets

由于我们在 UCF-Crime 和 ShanghaiTech 上使用了两组预生成的特征集,我们首先想要确认这两组特征集的一致性。除了不同的模态和裁剪之外,第一组特征集是经过 L2 归一化的,而第二组特征集则没有。

在这个实验中,我们测试了标准 MIL、仅 RGB 和仅 1 次裁剪。特征集 [19] 已经进行了 L2 归一化,并被分成了 32 个段。对于 RTFM [22] 的特征集,我们测试了 L2-norm 和非 L2-norm 两种情况。在 RTFM 设计中,没有使用 L2 归一化,而在原始 MIL 工作中建议使用 L2 归一化 [21]。我们在测试模式下使用了 32 个段。结果如表1所示。
在这里插入图片描述
我们看到结果都非常接近。在 RTFM 特征集上,非 L2-norm 稍微表现更好。因此,在我们接下来的比较中,我们始终使用每种方法的最佳结果。从这个预研究中,我们发现这两组不同的特征集给出了大致相同的性能。

4.5. MIL-BERT on UCF-Crime and ShanghaiTech

在这项研究中,我们使用在 [19] 中预生成的 UCF-Crime 特征集。在测试模式下使用了 32 个段。这些特征没有使用多次裁剪,并且进行了 L2 归一化。

我们首先检查仅视频分类以查看其准确性。为此,关闭了所有 MIL 函数。RGB、Flow 和 RGB+Flow 的准确性结果分别为 83.45%、85.52% 和 90.00%。

之后,我们重新打开 MIL 函数,并对 MIL-BERT 进行端到端的训练。为了进行消融研究,我们进行了两步训练:首先训练视频分类器,然后冻结 BERT 并仅训练 MIL。性能与端到端训练相同。实验结果列在表2中。
在这里插入图片描述

请注意,在这个表格中,AUC 使用了方程 (5) 中定义的段分数,而 AUC-2 不使用方程 (5) 中的视频分类分数 p ( y ^ c l s ) p(\widehat{y}_{cls}) p(y cls)。AUC 和 AUC-2 分别表示图1(b)和1( c)中的测试模式。我们发现在 UCF-Crime 上,RGB 是最弱的模态,Flow 更好,而 RGB+Flow 给出了最佳性能。我们观察到,使用 RGB+Flow 模态的最佳 AUC 优于 SOTA 结果。

我们在 ShanghaiTech 上重复了这个测试。同样,我们使用在 [19] 中预生成的特征集。在测试模式下使用了 32 个段、单次裁剪和 L2 归一化的特征。实验结果列在表2中。趋势与 UCF-Crime 上非常相似。RGB+Flow 提供了最佳 AUC,为 97.54%,已经超过了 SOTA 结果。

4.6. RTFM-BERT on UCF-Crime and XD-Violence

我们选择在 UCF-Crime [21] 和 XD-Violence [29] 上测试 RTFM-BERT。我们将 BERT 视频分类添加到 RTFM [22] 中。作为一个消融研究,我们在 UCF-Crime 上在 RTFM 的输入处添加了一个 FC 层,将特征维度从 2048 减少到 1024。XD-Violence 的维度已经是 1024。

与 RTFM [22] 一样,我们在 UCF-Crime 上使用了 RGB 模态、10crop、非 L2 归一化的预生成特征集,而在 XD-Violence 上使用了 RGB 模态、5-crop、非 L2 归一化的预生成特征集。在测试模式下使用了片段特征。我们遵循 RTFM 的相同实现细节。结果列在表3中。
在这里插入图片描述
请注意,在这个表格中,AP 和 AUC 使用了方程 (5) 中定义的片段分数,而 AP-2 和 AUC-2 不使用方程 (5) 中的视频分类分数 p ( y ^ c l s ) p(\widehat{y}_{cls}) p(y cls)。AP-2 和 AUC-2 分别表示图1( c)中的测试模式。

从结果中,我们观察到 BERT 视频分类对 UCF-Crime 的性能提升不大。此外,两个 AP 非常接近。β = 0.5 比 β = 0.7 给出了更好的结果。

然而,在 XD-Violence 数据集上,BERT 视频分类带来了惊人的性能提升。这可能是由于数据集属性不同,需要进一步研究。

4.7. MIL Using BERT Features

类似于 [14],其中使用transformer进行视频分类和特征细化,我们测试了在 MIL 块中使用 BERT 细化特征。我们使用与在 UCF-Crime 上使用 RGB+Flow 模态的 MIL-BERT 相同的设置。结果列在表4中。从结果中我们注意到使用 yi 的性能要差得多。因此,这个特征没有被细化,而是变得更糟。毫无疑问,我们希望一个在线测试模式,如图1© 所示,提供一个低复杂度的解决方案。[14]的作者可能没有意识到这种效果。我们预测,如果他们将变压器实现为仅用于视频分类,他们的性能可能会更好。

4.8. LSTM Video Classifier

在先前的实验中,我们还证明了基于transformer的视频分类器与 BERT 视频分类器非常接近。作为消融研究,我们实现了一个更简单的基于 LSTM 的视频分类器,具有两个层和隐藏层维度与输入维度相同。在这个分类器中只使用特征 xi。结果放在表3的第三个面板中。
在这里插入图片描述
从结果中我们观察到,尽管其复杂性要小得多(约为 1/4)比 BERT,但其性能几乎与 BERT 分类器相同。这证明了这项工作的关键贡献,正如标题所述,视频分类被低估的力量现在得到了实现。

4.9. Comparison with SOTA

我们将在UCF-Crime、ShanghaiTech和XD-Violence上的最佳结果与文献中的SOTA结果进行比较,如表5所示。
在这里插入图片描述
我们展示了每个数据集上的最佳AUC或AP结果。请注意,我们只包括近几年发表的最佳结果。不包括那些较旧的结果,包括无监督方法的结果,它们比SOTA结果差得多。

从结果中可以看出,我们在所有三个数据集上均取得了新的SOTA结果。请注意,在UCF-Crime和ShanghaiTech上,我们使用了RGB+Flow模态,而许多先前的工作仅使用RGB模态[22],[14]。在XD-Violence上,我们使用RGB模态,并取得了82.10%的AP,相比之前提高了3.51%。

4.10. Qualitative Analysis

一些示例视频的异常分数曲线显示在图2中。我们看到BERT视频分类非常有效地降低了正常片段的分数。它可能会提高或降低异常片段的分数。通过这种视频分类,决策阈值被降低。总体影响反映在AUC值中。
在这里插入图片描述

5. Conclusion

以往在视频异常检测中,几乎所有的MIL框架都忽略了或没有充分认识到视频分类的强大功能。

在本文中,我们明确研究了视频分类的效果。我们提出了使用BERT或LSTM的视频分类。这一单一变化带来了显著的性能提升。在UCF-Crime和ShanghaiTech数据集上的RGB+Flow上,我们提出的MIL-BERT实现了超越SOTA结果的ROC AUC。在XD-Violence数据集上,我们提出的RTFM-BERT在AP方面超过SOTA结果3.51%。这些实验结果展示了视频分类的威力。它可以与其他异常检测算法结合,以获得最佳性能。

阅读总结

  • 将视频分类任务结合到视频异常检测中
  • 18
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值