文章目录
摘要
视频异常检测(VAD)在监控、医疗健康及环境监测等多个领域中具有极其重要的作用。尽管已有许多综述聚焦于传统的VAD方法,但它们往往未能深入探讨特定的方法和技术趋势。本综述专注于基于深度学习的VAD技术,并超越了传统的监督训练范式,涵盖了新兴的弱监督、自监督和无监督方法。本文的一个显著特点是探讨了VAD范式中的核心挑战,包括大规模数据集的处理、特征提取、学习方法、损失函数、正则化以及异常评分预测。此外,本文还研究了视觉-语言模型(VLMs)作为VAD的强大特征提取器的应用。通过将视觉数据与视频中的文本描述或口语信息相结合,VLMs能够提供对场景更加细致的理解,这对于异常检测至关重要。通过对这些挑战进行探讨并提出未来的研究方向,本综述旨在促进开发出更加稳健且高效的VAD系统,利用VLMs的能力来增强复杂现实世界情境下的异常检测性能。这一全面分析力求填补现有知识空白,为研究人员提供有价值的见解,并为VAD领域的未来发展作出贡献。
关键词
基于重构的技术、视频异常检测、视觉-语言模型、视频监控、弱监督
I.引言
异常检测旨在识别给定数据模态中偏离正常或预期行为的事件或模式 [1], [2]。它具有广泛的应用范围,从金融欺诈检测、网络安全中的入侵检测到制造业的质量保证、工业机械故障识别以及医疗健康监控等领域均有涉及。本文重点关注视频异常检测(VAD)[3],这是一种关键的技术,能够自动识别视频序列中的不寻常或可疑活动。
尽管传统的VAD方法已经得到了广泛的研究,但深度学习技术的迅速发展为更有效的异常检测开辟了新的途径 [4]。诸如卷积神经网络(CNNs)和视觉变换器(ViTs)等深度学习算法在从大规模数据中学习复杂模式和表示方面展现出了非凡的能力 [5], [6]。这些进步极大地提高了VAD的表现,使得视频数据中的异常能够被更加准确可靠地检测出来。通过利用深度学习技术,研究人员和实践者开发出了超越传统方法的新颖方法,并解决了与传统机器学习相关的局限性 [7], [8]。
除了基于监督学习范式的深度学习VAD系统外,近年来还见证了弱监督、自监督和无监督方法的兴起 [9]–[11]。这些替代方法为传统VAD方法所面临的挑战提供了有希望的解决方案,比如需要大量标注的数据集以及捕捉复杂的时空模式的难度。借助深度学习技术,研究者们力求培养出稳健且高效的VAD系统,以适应多样化的现实世界场景和应用 [1], [12]。同样地,一些研究挑战尚未得到充分探索或仍未被触及。例如,一个关键考虑因素是可用数据集的质量和多样性。新兴综合数据集的发展,如UCF犯罪数据集 [11]、XD-Violence数据集 [13] 和上海科技数据集 [14],在此过程中发挥了核心作用。这些数据集涵盖了多种类型的异常情况,对VAD技术的进步做出了重要贡献。
在VAD中,视频由一系列帧组成,形成了复杂的高维时空数据。在这种复杂数据中检测异常需要能够有效捕捉空间、时间、时空及文本特征的方法。为了应对这些挑战,学术界引入了许多VAD方法和深度特征提取器,这显著推动了当前技术水平的进步。同时,根据VAD范式类型选择正确的损失函数也非常重要。因此,损失函数和正则化技术也是VAD问题中的另一个挑战。此外,在解决VAD问题时,采用的多样化范式包括自监督、弱监督、全监督和无监督模型,这也构成了重要的挑战。
这些范式可以分为经典方法和深度学习方法。经典方法使用手工设计的特征,如时空梯度 [15]、方向梯度直方图(HOG)特征 [16], [17] 以及光流直方图(HOF)[18],这些特征在时空立方体中选取,因为它们在捕捉外观和运动信息方面效果良好。
相比之下,深度学习方法在丰富的特征表示和端到端学习方面更为强大,并在过去十年中由于各种学习模型的进步而变得非常流行。特别是,这些方法利用强大的特征提取器来捕捉有意义的时空特征。例子包括卷积神经网络 [19]、自动编码器 [20]、生成对抗网络(GANs)[21]、视觉变换器 [22], [23] 以及视觉-语言模型 [24], [25]。
除了上述VAD问题本身固有的挑战之外,每种范式还带来了不同的损失函数、时空正则化/约束以及异常评分预测组件。我们在本综述中也指出了这些不同的模块,并针对上述每个挑战提出了总结性的建议。图1展示了代表性基于深度学习的VAD方法在两个公开基准数据集上的性能变化,这两个数据集分别是UCF-Crime [11] 和ShanghaiTech [14]。性能以ROC曲线下面积(AUC%)报告。该图显示的性能改进趋势突显了过去十年深度学习方法学的重大进展,其中最显著的改进来自于最近提出的基于视觉-语言的模型 [26]。
动机:
尽管对视频异常检测(VAD)的兴趣日益增长,基于深度学习的方法也在不断涌现,但仍然需要一个全面的综述来探讨该领域的最新进展。现有的综述往往侧重于传统的VAD方法,并可能未能充分覆盖诸如视觉-语言模型(VLMs)[26], [33]–[36]等新兴趋势和方法学。通过深入探讨VLMs以及基于深度学习的VAD,包括监督、弱监督、自监督和无监督方法,本综述旨在提供对最先进技术及其潜在应用的全面理解。我们的主要关注点在于基于深度学习的VAD问题解决方案。特别是,我们探索了采用不同数据集、特征提取、损失函数及时空正则化的新兴VAD范式。此外,我们还提供了超过50种用于VAD的不同方法论的综合分析,特别强调了由视觉-语言模型提取的文本特征的潜力。
在本综述中,我们的主要贡献可以总结如下:
- 核心挑战识别:我们识别了当前最佳(SOTA)VAD范式的核心挑战,包括视觉-语言模型在特征提取、大规模VAD训练数据集、损失函数、时空正则化以及视频异常评分预测方面的挑战。
- 比较分析:通过对不同基准数据集上的SOTA模型进行定量和定性比较,我们揭示了现有方法的优势与不足,为领域内的研究人员和从业者提供了宝贵的见解。
- 建议提出:根据我们对当前VAD研究状况的深刻理解,我们提出了针对VAD开放挑战的建议,旨在指导未来的研究方向。
论文结构
本文的结构如下:
- 第二节 介绍了过去十年内用于选择纳入本次综述的研究方法。
- 第三节 回顾了视频异常检测领域内之前进行的调查。
- 第四节 阐述了视频异常检测问题的表述。
- 第五节 提出了系统化的方法和分类法来分析VAD问题,随后讨论了核心挑战,包括数据集V-A、特征提取V-B、监督方案V-C、损失函数V-D、正则化技术V-E以及异常评分V-F。
- 第六节 概述了所使用的数据集指南和评估协议。
- 第七节 通过量化和质性的比较分析了最先进的模型。
- 第八节 提供了文献计量网络的可视化以进行主题分析。
- 第九节 我们总结了工作,并提出了额外的未来研究方向。
这样的结构确保了读者能够获得有关VAD领域现状的清晰视图,并了解未来的研究路径。
II.综述方法
本综述论文仅考虑直接与“视频异常检测”相关的研究。我们系统地进行了此次综述,利用了来自顶级计算机视觉会议和期刊的出版物,包括CVPR(计算机视觉与模式识别会议)、ICCV(国际计算机视觉会议)、ECCV(欧洲计算机视觉会议)、IEEE TPAMI(模式分析与机器智能汇刊)、IJCV(国际计算机视觉期刊)以及CVIU(计算机视觉与图像理解)。本综述的目的在于呈现视频异常检测领域的最先进技术。因此,本研究重点在于识别那些使用各种计算机视觉和深度学习方法来解决VAD挑战的相关已发表研究成果。所回顾的研究工作涵盖了过去十年间超过50篇的文章。
III.相关工作
在异常检测领域,过去十年中已有多篇综述论文发表 [1], [4], [7], [8], [37]。以下是一些重要的综述工作的概述:
-
2018年Chalapathy等人 [8] 发表的首篇综述聚焦于视频异常检测(VAD)中的深度学习技术,特别关注无监督和半监督方法。他们将模型分类为三类:基于重构的、时空预测的和生成模型。值得注意的是,这篇综述早于多实例学习(MIL)方法的显著发展,因此未包含弱监督方法。
-
Chalapathy等人 [37] 的另一项重要研究强调了深度异常检测方法在解决各种检测挑战方面的潜力。他们的工作涵盖了物联网、入侵检测和监控视频等多个应用领域,并将异常分为集体异常、上下文异常和点异常。他们将深度学习方法分为四类:无监督、半监督、混合模型以及单类神经网络模型。
-
Ramachandra等人 [1] 主要关注单一场景内的异常检测,同时指出了与多场景异常检测的区别。一个重要区别在于,单一场景VAD可能涉及特定位置相关的异常,而多场景检测则不能。该综述还介绍了用于单一场景与多场景检测的基准数据集及其相应的评估程序。更广泛地说,该综述将视频异常检测的前期研究分为三大类:基于距离的方法、概率方法和基于重构的方法。
-
Nayak等人 [7] 将学习框架分为四类:监督、无监督、半监督和主动学习。在基于深度学习的VAD背景下,最先进方法包括轨迹基方法、全局模式基方法、网格模式基方法、表示学习模型、判别模型、预测模型、深度生成模型、深度单类神经网络和深度混合模型。此外,该研究对性能评估方法进行了全面分析,涵盖了数据集选择、计算基础设施、评估标准和性能指标等方面。
-
Pang等人 [4] 专注于异常检测中的深度学习技术,并探讨了异常检测问题中的多种挑战,如数据类别不平衡、复杂的异常检测、弱监督方法中的噪声实例等。他们讨论了深度学习方法如何提供这些多样化挑战的解决方案。为了结构化他们的分析,Pang等人提出了一个层次化的分类法来归类深度异常检测方法,包括特征提取、正常性特征表示学习和端到端异常评分学习三个主要类别,并提供了11个细粒度的子类别。
-
Mohammad Baradaran和Robert Bergevin [38] 深入研究了半监督VAD方法,特别是在标记异常数据有限的情况下。他们强调了特征提取器在这些情境下的作用,指出其能够通过捕捉关键的空间和时间细节来区分视频数据中的复杂模式。这些特征提取器对于在半监督任务中检测异常至关重要,其中模型主要从大量正常数据中学习。作者进行了实验分析,揭示了各种VAD方法的优势和不足。他们将半监督深度学习方法分为六类:重构、预测、记忆、以对象为中心、分割和基于多任务学习的方法,并对每种类别的优缺点进行了详细考察。
-
Nomica等人 [39] 最近发表的一篇综述论文深入分析了视频监控系统中的机器学习异常检测技术。它将这些方法分为监督、半监督和无监督方法,并突出它们的优势、劣势及适用性。然而,该综述没有讨论不同类型特征(如时间、空间、文本和混合特征)之间的关键差异,这些差异显著影响特征提取器的选择,进而影响检测模型的有效性。此外,它忽略了视觉-语言模型作为特征提取器的主题。相比之下,我们的工作涵盖了所有这些方面,提供了对其在异常检测模型中影响的全面理解。
-
Yang等人 [40] 在2024年发表的一篇最新综述将VAD方法分为无监督、弱监督、完全无监督和监督VAD。它突出了这些方法的优势,如改进的特征提取和详细的对象分析,同时也注意到了处理时空特征和光照变化的重要性。尽管该综述提供了不同VAD方法的广泛比较,但明显遗漏了视觉-语言模型作为特征提取器的讨论,这是该领域的一个新兴兴趣点。
以往的研究往往忽视了在深度学习模型中使用多样化的特征提取器的关键重要性。当考虑到诸如变压器和视觉-语言预训练模型在视频异常检测中的广泛应用等新兴趋势时,这种疏忽变得尤为明显。这些创新显著影响了深度学习模型的整体性能。在我们的综述论文中,我们旨在填补这些在之前综述中未被充分描述的研究空白。
此外,我们将学习和监督方法分为四类:监督、无监督、自监督和弱监督技术。这种分类方案使我们能够系统地分析和比较不同的方法,为读者提供有关视频异常检测研究中所采用的多样化方法的宝贵见解。通过这种方式组织我们的研究,我们旨在促进对该领域推动进步的基本原理和技术的更深层次理解。
A. 贡献
在本综述中,我们相较于现有综述论文的主要贡献总结如下:
- 明确的问题定义:本文特别在有帧级标签的监督学习背景下,对VAD问题进行了清晰而全面的定义。
- 视觉-语言模型的重要性:据我们所知,这是首次强调将视觉-语言模型(VLMs)作为特征提取器在VAD中的新兴重要性。我们探讨了VLMs如何通过有效结合视觉和文本数据来更好地理解和检测异常,从而显著提升模型性能。
- 详细指南:本文组织结构旨在为初次接触VAD领域的读者和研究人员提供详细的指南。我们提供了基础知识,并采用结构化的方法来应对VAD研究的复杂性,如图2所示。
- 系统讨论:本文从数据集的选择到VAD中至关重要的特征类型,包括文本特征和深度特征提取器,进行了系统的讨论。我们还探索了各种学习和监督范式,包括监督、自监督、弱监督和无监督/重构方法,并详细阐述了它们各自的优缺点。
- 分类体系:本文提出了一个系统化的视频异常检测分类体系,主要分为两个维度:学习与监督方案以及特征提取,如图3所示。
- 损失函数和正则化技术:本文提供了选择合适的损失函数和正则化技术的见解,这对于优化VAD模型的性能至关重要。
- 数据集和评估指标指南:本文为实验目的提供了选择最合适的数据集和评估指标的综合指南,确保研究人员能够有效地评估和比较他们的VAD方法。
- 最新方法的比较分析:本文对最先进(SOTA)的VAD方法进行了详细的定量和定性比较分析。这种分析有助于理解该领域的当前状况和性能基准。
- 未来研究方向:最后,本文广泛讨论了VAD领域潜在的未来研究方向。这包括探索新技术、方法论和应用领域,并指导研究人员朝着有前景的研究途径进行进一步调查。
IV. 视频异常检测问题的定义
视频数据中的异常包括显著偏离预期或常规模式的事件或行为。视频异常检测的主要目标是设计和实现能够自主识别并在实时中标记这些异常的鲁棒算法和模型。这涉及到使用强大的特征提取器将原始视频数据转换为可解释的特征表示,这些提取器擅长捕捉空间和时间特性。此外,还需要选择适当的算法或技术,并建立有效的评估指标来准确评估检测性能。
在有帧级标签的监督学习场景中,视频异常检测问题可以简洁地描述如下:
我们将每个视频表示为
V
i
V_i
Vi,它由一系列帧
{
f
i
,
1
,
f
i
,
2
,
…
,
f
i
,
n
}
\{ f_{i,1}, f_{i,2}, \ldots, f_{i,n} \}
{fi,1,fi,2,…,fi,n}组成。从每一帧中,我们可以提取关键的特征表示,记为
x
i
,
j
x_{i,j}
xi,j。定义一个模型M,该模型接收从每帧中提取的特征,并为该帧生成一个异常评分。对于每一帧
f
i
,
j
f_{i,j}
fi,j,异常评分为
S
(
f
i
,
j
)
=
M
(
x
i
,
j
)
S(f_{i,j}) = M(x_{i,j})
S(fi,j)=M(xi,j)。视频
V
i
V_i
Vi 的总异常评分是其所有帧的评分之和:
这个异常评分 ( S(V_i) ) 与预设的阈值 ( T ) 进行比较,从而可以定义视频的预测二元标签 (
其中:1 表示
V
i
V_i
Vi 是异常的,0 表示
V
i
V_i
Vi 是正常的。视频的真实标签表示为
Y
i
∈
{
0
,
1
}
Y_i \in \{0, 1\}
Yi∈{0,1}。目标是训练模型 M,使得在训练集中的所有视频上
Y
^
i
\hat{Y}_i
Y^i和
Y
i
Y_i
Yi之间的差异最小化,并且模型对未见过的视频具有良好的泛化能力。
V. 视频异常检测的系统性分析
在本节中,我们将通过相关文献的分析深入探讨VAD过程的复杂性。图2所示的图表作为后续章节中导航VAD研究的指南,我们将在其中探索与VAD问题相关的挑战。从多样化的数据集开始,我们遍历各种特征提取技术,用于提取空间、时间、时空或文本特征,并利用视觉-语言模型。
我们的探索始于多样化数据集的应用和一系列特征提取技术。这些方法被用来提取空间、时间、时空以及文本特征。此外,我们的探索还将涵盖多种学习和监督策略,包括监督方法、自监督技术、无监督技术(通常分类为基于重构的方法或单类分类方法),以及弱监督和预测方法。同时,我们还会阐明损失函数、正则化技术和异常评分计算的重要性。模型评估协议将在第六部分B节讨论。在接下来的部分中,我们将进一步探讨这些挑战,并检查它们是如何被处理的。
A. 视频异常检测的分类体系
如图3所示,视频异常检测的分类体系系统地分为两个主要维度:学习与监督方案以及特征提取。学习与监督方案维度包括监督方法、自监督方法、弱监督方法(例如多实例学习)和无监督方法。无监督方法进一步细分为单类分类、重构和未来帧预测方法。特征提取维度涉及深度特征提取器,包括卷积神经网络(CNNs)、自编码器、生成对抗网络(GANs)、序列深度学习模型(如LSTM和视觉变换器)、视觉-语言模型以及混合模型。此外,它还涵盖了不同类型的功能,如空间特征、时间特征、时空特征和文本特征。
B. 数据集构建与选择
视频异常检测领域严重依赖于公开可用的数据集,这些数据集用于测试和基准测试所提出的模型。在本节中,我们概述了VAD领域常用的公共数据集,每个数据集都经过精心策划,以促进在各种场景下对异常的研究。这些数据集涵盖了广泛的场景,为异常检测提供了多样化的挑战。我们将调查每个数据集中包含的视频数量、特定类型的场景覆盖范围以及存在的异常情况。
1.Subway dataset
- 地铁数据集 [41] 包含使用闭路电视摄像机收集的两段视频,每段视频捕捉地下火车站的不同视角。第一段视频聚焦于“入口门”区域,这里人们通常通过旋转门进入站台,背对摄像机。相比之下,第二段视频位于“出口门”,观察乘客面向摄像机上行的站台。这两个摄像头提供了车站内的独特视角,为分析和监控提供了宝贵的见解。该数据集总时长为2小时。数据集中的异常活动包括反方向行走和徘徊。值得注意的是,这个数据集是在室内环境中录制的。
2.UCSD Pedestrian数据集
- UCSD异常检测数据集 [42] 是使用固定在高处的摄像机收集的,用于监控人行道。该数据集提供了从稀疏到高度拥挤环境的各种人群密度场景。数据集中的正常视频主要显示行人,而异常事件主要来源于两个方面:人行道上非行人的存在和异常的行人运动模式。常见的异常包括骑自行车的人、滑板者、小推车、横穿指定人行道或在相邻草地上行走的人,以及使用轮椅的人。数据集包含两个不同的子集Peds1和Peds2,每个子集捕捉不同的场景。Peds1展示了朝向和远离摄像机走动的人群,经常表现出透视变形,而Peds2专注于行人平行于摄像机平面移动的场景。
该数据集进一步分为多个片段,每个片段大约包含200帧。提供帧级别的真实标签注释,指示异常的存在与否。此外,Peds1和Peds2中的一些片段附带了手动生成的像素级二值掩码,使算法能够评估其定位异常的能力。UCSD Ped1 & Ped2数据集是公开可获取的http://www.svcl.ucsd.edu/projects/anomaly/
3.Street Scene dataset数据集
- Ramachandra等人[43]提出的街景数据集是为视频异常检测设计的,包含46个训练视频序列和35个测试视频序列,分辨率为1280×720。这些序列是在白天使用USB摄像头捕捉的,该摄像头位于一条双车道街道上方,这条街道设有自行车道和人行道。由于捕捉到了多样化的活动,包括汽车驾驶、转弯、停车、行人行走、慢跑、推婴儿车以及骑自行车等,这个数据集提供了一个具有挑战性的环境。此外,视频中还包含了变化的阴影、移动的背景(如随风摆动的旗帜和树木)以及来自树木和大型车辆的遮挡。
数据集包括56,847帧用于训练,146,410帧用于测试,以每秒15帧的速度提取。它总共包含205个自然发生的异常事件。这些异常范围从非法行为如乱穿马路和非法掉头到训练集中未出现的不常见事件,比如遛宠物和交通管理员开具罚单。这种多样性使街景数据集成为推进视频异常检测研究的一个全面而有挑战性的资源。
然而,这个数据集的一个显著挑战是它是一个单一场景的数据集,仅包含街景。这阻止了仅在这个数据集上训练的模型将其异常检测能力泛化到其他场景。另一方面,对于专门设计用于处理单一场景(例如EVAL [44])的模型来说,这个数据集可能非常有用。该数据集公开可获取: - http://www.merl.com/demos/video-anomaly-detection
4.UCF-Crime 数据集
UCF-Crime 数据集 [11] 是近期研究中广泛使用的大型多场景数据集。该数据集由长且未经剪辑的监控视频组成,涵盖了13种对公共安全有重大影响的真实世界异常情况。这些异常包括虐待、逮捕、纵火、攻击、道路事故、入室盗窃、爆炸、斗殴、抢劫、枪击、偷窃、商店行窃和破坏公物。为了确保数据集的质量和完整性,进行了细致的策划过程。训练了十名标注员从YouTube和LiveLeak等平台收集视频,使用多种语言进行文本搜索查询。实施了修剪条件来排除手动编辑的视频、恶作剧视频、手持摄像机拍摄的视频以及新闻或汇编来源的视频。最终数据集包括950个未经编辑的真实世界监控视频,每个视频都包含明显的异常情况,同时还有同样数量的正常视频,总计1900个视频。
通过将相同的视频分配给多个标注员并平均他们的标注结果,仔细获得了时间注释。数据集被精心划分为一个训练集,包含800个正常视频和810个异常视频,以及一个测试集,包含150个正常视频和140个异常视频。凭借其广泛的异常事件覆盖范围,UCF-Crime 数据集成为了评估跨多样化现实场景下异常检测算法的综合性资源。该数据集公开可获取:
- http://crcv.ucf.edu/projects/real-world/
5.CUHK Avenue 数据集
CUHK Avenue 数据集 [15] 是由中国香港中文大学的研究人员精心制作的,常用于视频异常检测。该数据集主要关注城市环境和公共街道中常见的异常情况。它提供了多样化的光照条件、天气变化和人类活动,从而为VAD模型提出了严峻的挑战。
数据集内捕获了一系列异常行为,包括物理上的异常,如打架和突然奔跑,以及非物理上的异常,如异常聚集和错误的移动方向。值得注意的是,数据集引入了几个关键挑战,包括某些帧中的轻微摄像机抖动、训练集中偶尔缺少正常行为以及训练数据中的离群点。总共有30,652帧,其中15,328帧用于训练,其余15,324帧用于测试。凭借其多样的场景和现实的挑战,CUHK Avenue 数据集成为了评估和推进VAD技术的重要基准。该数据集公开可获取:
- http://www.cse.cuhk.edu.hk/leojia/projects/detectabnormal/dataset.html
6. 上海科技大学校园数据集
上海科技大学校园数据集 [14] 是异常检测领域的一项重要贡献,提供了庞大且多样的数据集合。在13个场景中,具有复杂的光照条件和不同的摄像机角度,数据集涵盖了各种挑战性场景。它拥有超过270,000帧的训练数据,以及130个异常事件,这些事件在像素级别上经过精心标注,便于精确评估和分析。
数据集共包含330个训练视频和107个测试视频,所有视频的分辨率均为856x480,确保了内容的一致性和兼容性。每个视频保持24帧每秒(24fps)的帧率,确保平滑和标准化播放。凭借丰富的数据和精细的标注,上海科技大学校园数据集成为在真实世界场景中推进异常检测方法的基础资源。该数据集公开可获取:
- https://sviplab.github.io/dataset/campus_dataset.html
7. XD-Violence 数据集
XD-Violence 数据集 [13] 是一个大规模的多场景数据集,总时长达217小时,包含4754个未经剪辑的视频。该数据集由2405个暴力视频和2349个非暴力视频组成,所有视频都包括音频信号和弱标签。数据集的重点在于弱监督暴力检测领域,其中训练集只提供视频级别的标签。这种方法相比帧级标注更为省力。因此,形成大规模的未经剪辑视频数据集和训练数据驱动的实用系统不再是难题。数据集结合了音频信号,并来源于电影和野外场景。数据集包括六种身体暴力类别:虐待、车祸、爆炸、斗殴、骚乱和枪击。数据集被分为一个包含3954个视频的训练集和一个包含800个视频的测试集。测试集中有500个暴力视频和300个非暴力视频。
- https://roc-ng.github.io/XD-Violence/
8. 西北工业大学校园数据集
西北工业大学校园数据集 [45] 是最近可用的新数据集。它代表了视频异常检测和预测领域的重要贡献。该数据集通过在校园内的43个户外地点设置摄像头来捕捉行人和车辆的活动。为了确保有足够的异常事件,超过30名志愿者参与了正常和异常活动的表演。数据集涵盖了广泛的正常事件,包括常规行走、骑自行车、驾驶以及其他遵守规则的日常行为。异常包括个人异常、交互异常、群体异常、依赖场景的异常、位置异常、外观异常和轨迹异常等多种类别。数据集由305个训练视频和242个测试视频组成,总计16小时的录像。测试视频提供了帧级标注,指示异常事件的存在与否。出于隐私考虑,志愿者和行人的脸部被模糊处理。与其他数据集相比,西北工业大学校园数据集因其更大的数据量、多样的场景和包含依赖场景的异常而脱颖而出。此外,它是第一个为视频异常预测设计的数据集。这些特点使得西北工业大学校园数据集成为推进视频异常检测和预测研究的宝贵资源。
- https://campusvad.github.io/
9.数据集讨论
现有文献提供了大量多样且广泛的数据集,覆盖了广泛的正常和异常场景。这些数据集从专注于特定情境及其异常的单一场景数据集,如UCSD Pedestrian数据集 [42],到包含多个场景及相应异常情况的更多样化数据集,如UCF-Crime [11] 和XD-Violence [13] 数据集。
此外,这些数据集在大小和总时长上表现出差异,从短短几分钟到超过两百小时不等。一些数据集包含少量长时间视频,主要从固定场景收集,如Subway数据集 [41];而另一些则包含大量短时间视频,来源广泛,如XD-Violence数据集 [13]。此外,数据集中存在的异常类型也显示出显著的多样性,从与动作相关的异常(如意外移动方向和犯罪活动)到与物体相关的异常(如可疑人员和特定类型的车辆)。
表1提供了最常用的公开数据集的综合摘要,图4展示了从这些数据集中提取的样本帧。
尽管有大量专门针对视频异常检测(VAD)问题的数据集可用,但仍存在一些关键趋势和挑战需要解决:
- 环境多样性有限:大多数公开的VAD数据集提供的环境多样性有限,并且局限于特定场景。例如,上海科技大学校园数据集 [14] 和CUHK Avenue数据集 [15] 仅限于大学校园场景和其中的异常情况。这种趋势会显著阻碍训练模型在其他类型环境中泛化的能力。
- 异常事件数量有限:多个数据集中包含的异常事件数量有限。有些数据集只包含了三种异常事件类型(如奇怪的行为、错误的方向、异常物体,见CUHK Avenue [15]),而其他数据集则涵盖了多达11种异常类型(如上海科技大学校园数据集 [14])。这种限制减少了模型学习广泛潜在异常行为的能力,从而降低了其在实际应用中的有效性。
- 类别不平衡:文献中可用的大多数数据集在正常与异常类别之间是不平衡的。特别是在像UCF-Crime [11] 这样的大型数据集中,正常类与异常类之间的不平衡使得模型难以准确检测异常而不被多数类(正常类)所压制。
为了解决上述问题,我们对监控视频中的VAD问题提出了以下未来方向,特别是在基准数据集领域:
- 多样性和广泛的异常覆盖:基准数据集应当多样化,并努力涵盖各种异常,包括细微和明显的偏离正常行为的情况。
- 追求现实性:数据集应力求真实,尽可能地模拟现实世界的监控环境。此外,可扩展性对于适应不断增长的监控视频数据规模和复杂性至关重要。
- 时间上下文的重要性:异常通常随时间发展,因此有效检测需要考虑时间上下文。基准数据集应包含长期的时间信息,以准确捕捉正常和异常行为的动态变化。
- 定位和分割异常区域:除了检测异常外,未来的基准数据集还可以专注于视频帧或序列内异常区域的定位和分割。更细粒度的信息有助于理解异常的本质和范围,促进及时响应措施。
- 多模态数据整合:结合视觉、听觉和文本信息等多种模态的数据可以提高异常检测性能。未来的基准数据集可能包括多模态数据,以反映现实世界监控系统的复杂性。
- 开放性和合作:为了推动异常检测研究的发展,开放性和合作至关重要。因此,未来的基准数据集应当公开访问,邀请全球研究人员贡献,并促进该领域的创新。
通过解决这些方面的问题,数据集可以促进更加鲁棒和有效的异常检测方法的发展,最终提高监控系统的安全性和效率。
B. 深度视频异常检测中的特征学习
在深度学习模型应用于视频异常检测的有效性中,特征学习扮演着核心角色。本节将探讨文献中使用的各种特征提取技术,并强调它们在监控视频分析中的重要性和表现。
1) 探索不同类型的特征
视频帧包含了多种对于VAD至关重要的特征类型,这些包括空间特征、时间特征、时空特征和文本特征。
- 空间特征:空间特征涉及单个视频帧内的视觉特性,如形状、纹理、颜色和对象位置等。在异常检测领域,对空间特征的分析有助于检测视频帧特定区域内的不寻常模式或物体。最初,传统的机器学习方法占主导地位,采用高斯混合模型和手动构建的特征[17]、[18]。然而,转向深度学习促进了自动化的特征提取,从而增强了从视频数据中识别复杂空间细节的能力。
- 时间特征:时间特征涵盖视频内随时间变化的情况,包括物体运动、速度变化以及帧与帧之间的环境改变。例如,刘等人[46]使用光流法来捕捉帧内的运动特征。在视频异常检测中,时间特征对于识别连续帧中的不寻常行为或事件至关重要,比如在限制区域内未经授权的奔跑[11]、[16]。
- 时空特征:单独依赖某一类型的特征可能会有局限性:时间特征可能无法准确指出异常发生的位置,而空间特征则可能忽略其发生的时机。结合时空特征提供了一个更全面的视角,不仅捕捉异常的发生,还能确定其精确位置。这种方法导致了更准确有效的异常检测[46]-[48]。
- 文本特征:在视频异常检测中,字幕和标签这样的文本特征大大增强了系统识别和理解异常的能力。通过将描述性的字幕和相关标签纳入视频帧中,这些系统可以更深入地理解视频内容、上下文和所描绘的行为。这一语义层面有助于更有效地区分正常与异常活动。高级技术如视觉语言预训练(包括图像到文本)被用来分析这些文本注释,这也可以包含时间和空间背景。文本特征与视觉数据的整合带来了更为复杂且具有情境意识的异常检测[24]、[25]、[33]、[35]。
2) 深度特征提取器
之前的研究者使用了不同的特征提取器。
-
卷积神经网络 (CNNs)
- 2D卷积神经网络 (2D CNNs): CNNs革新了空间特征处理,使得能够详细分析场景中的结构元素。在他们的工作中[49],他们讨论了Faster R-CNN的使用,这是一种特定类型的CNN架构,因其高精度及其同时执行对象分类和边界框回归的能力而受到青睐。这意味着它可以在视频帧中定位并分类对象,这对于识别和定位异常特别有用。
- 3D卷积网络 (3D CNNs): 通过引入时间分析,增强了传统CNNs,允许有效评估视频数据中的时空特性。采用C3D [50] 和I3D [51] 等模型显著提升了最先进(SOTA)系统的性能。许多研究,包括[11]、[28]、[52],都采用了这些3D CNN架构作为基础骨架,展示了它们在时空特征提取方面的出色效果。
-
自编码器 (AEs)
AEs由于其无监督学习能力而在VAD中表现出色。它们将数据编码成低维空间,然后重建,无需标记样本即可学习关键的数据特征。这对于异常检测非常重要,因为异常通常是罕见且定义不明确的,AEs能够有效识别视频数据中的不寻常模式。[16]的工作利用全卷积自编码器学习低级运动特征,提高了长时间视频中常规动态的学习能力,使其成为检测不规则性的有效模型。该方法多用途,适用于多种任务,包括时间规律性分析、帧预测以及视频中的异常事件检测。 -
生成对抗网络 (GANs)
GANs由两部分组成:一个创建逼真数据的生成器和一个区分生成数据和真实数据的判别器。通过这种对抗过程,GANs有效地学习了真实数据的分布。这种能力在异常检测中特别有价值,因为GANs可以生成与正常实例非常相似的数据,从而更容易识别偏离此学习模式的异常[21]。它们在基于重构的方法中的应用尤其值得注意;这些方法使用从正常视频中学到的高层表示来重构输入数据(如视频片段)。前提是,作为离群值的异常比正常数据更难以准确重构,因此重构误差成为异常检测的一个可行指标。[47]的工作中,GANs被用于未来帧预测,然后进行重构,展示了它们在异常检测任务中的多样性和有效性。在这个领域,GANs与AEs一起已被证明能够捕捉视频数据中的复杂模式,帮助更精确地识别异常活动。它们的联合使用使高层表示的学习和现实数据的生成成为可能,增强了准确高效检测异常的能力。 -
序列深度学习
- 长短期记忆网络 (LSTM): LSTM是一种专门设计用于捕捉时间依赖性的递归神经网络。这个特点使它们非常适合处理顺序数据,如基于NLP系统的文本内容[54]。此外,它们记住并整合长期模式的能力在视频应用中也极为宝贵。具体而言,它们有助于跟踪并在顺序视频流中识别时间异常,这是时空分析中的关键功能[12]。
- 视觉变换器 (ViT): 视觉变换器以其注意力机制而闻名,彻底改变了处理顺序数据的方式。它们可以根据输入数据的不同部分的重要性分配权重,优先考虑最相关的特征。这使得它们在提取视频中的时间和时空特征方面非常有效,这对检测复杂的异常至关重要。杨等人[55]介绍了一种新的视频异常检测方法,通过使用U形Swin变换器网络(一种特殊的ViT)从关键帧恢复事件。这种方法不同于传统方法,专注于推断缺失帧和捕捉复杂的时空关系,展示了在视频监控中改进的异常检测。
-
视觉-语言模型 (VLM)
传统技术通常仅依赖于时空特征,这在需要更深层次语义洞察的复杂现实情况下可能不够用。视觉-语言特征涉及使用视觉和文本编码器来训练模型,从而使复杂监控场景的综合分析成为可能。像CLIP [34] 和BLIP [56] 这样的对比学习视觉-语言特征提取器的显著崛起,也旨在对齐视觉和语言,有望带来监控视频处理和解释方式的变革。这些模型旨在通过丰富的语义理解增强视频内容,有效缩小基于像素的数据与更接近人类解读视频内容之间的差距[35]。另外,使用文本字幕的语言模型也被用于文本到视频的异常检索,如[57]。吴等人在[35]中提出的VadClip模型用于视频异常检测时,结合了CLIP模型的视觉-语言特征,并使用视觉和文本编码器的双分支系统。它包括一个本地-全局时间适配器(LGT-Adapter)用于建模视频时间关系,并利用视觉和文本特征进行异常检测。一个分支使用视觉特征执行二元分类,而另一个分支对齐视觉和文本数据以进行更精细的异常检测。
相比之下,[33] 使用SwinBERT [36] 从视频字幕产生文本特征,丰富了检测异常的语义背景。这种方法扩展了对视频内容的理解,超出了像素级别,增强了异常检测能力。 -
** 混合特征学习器 **
某些研究开发了混合特征提取器,这些提取器结合了多种特征提取技术来有效地捕捉视频异常检测中的空间和时间信息。 -
混合架构:例如,[58] 提出了一种结合U-Net和改进的Video Vision Transformer (ViViT) 的混合架构。U-Net以其编码器-解码器结构和跳跃连接而闻名,擅长捕捉详细的空间信息。相比之下,经过修改的ViViT最初是为视频分类任务设计的,在这里被调整以有效编码用于视频预测的空间和时间信息。这个混合模型利用了来自U-Net的CNN特征的详细高分辨率空间信息以及变压器捕捉到的全局上下文。
-
复合系统:类似地,[6]的工作使用了一个结合了CNN与变换器的复合系统。在这个配置中,CNN组件负责辨别空间特性,而变换器则负责识别扩展的时间属性。这种混合方法提供了空间和时间特征的互补融合,增强了模型在视频序列中检测异常的能力。此外,[59]提出了一种集成卷积自编码器(CAEs)和UNet的CNN架构。网络内的每个流对检测异常帧的任务都有独特的贡献。CAEs负责提取空间特征,而UNet专注于捕捉上下文信息,使模型能够通过利用局部和全局特征有效地识别视频帧中的异常。
-
I3D 3D CNNs与LSTM网络结合:[60]将I3D 3D CNNs与LSTM网络结合起来,以提高异常检测性能。I3D CNN从视频帧中提取时空特征,有效识别潜在异常。然而,由于CNN主要捕捉短期动态,因此集成了LSTM来捕捉长时间监控录像中至关重要的长距离时间依赖性。为了处理来自I3D网络的高维数据,采用了一种池化策略来优化特征向量,以便LSTM高效处理。这种混合架构有效地整合了CNN和LSTM的优势,增强了模型在不同时间尺度上检测异常的能力。
尽管每种特征表示都有其优势和劣势,如SOTA VAD方法[6]、[26]、[35]、[55]、[61]所实证调查的那样,端到端的深度特征学习范式是最近的趋势,这些方法已经提高了VAD的表现。以下是关于特征表示方面的一些未来方向,旨在改善检测准确性及效率: -
持续探索和改进专为VAD设计的深度学习架构:这可能涉及开发更高效的架构,比如时空CNNs、ViTs或RNNs,它们可以有效捕捉视频序列中的时间依赖性和空间信息。
-
混合模型:结合包括外观、运动和时空信息在内的多种类型的特征也可以提高性能。这可能涉及将基于深度学习的特征与手工制作的特征相结合,或者利用多模态方法(如VLMs)来捕捉异常的不同方面。
-
跨模态特征表示的研究:集成来自视觉、音频和文本提示等多种模态的信息。跨模态表示可以捕获互补的信息源,并提高异常检测模型对于不同类型异常和环境条件的鲁棒性。
-
自我监督学习技术的探索:无监督的方式预训练特征表示可以帮助从未标记的数据中学习丰富的表示。然后可以使用有限的标记数据对预训练模型进行微调,以适应特定的异常检测任务。
-
注意力机制的集成:将其引入深度学习架构中,以关注视频内相关的时空区域或帧。注意力机制有助于提高模型聚焦于输入数据中有信息的部分并抑制无关噪声的能力,从而产生更鲁棒的异常检测特征。
-
图基特征表示的利用:建模监控视频中不同实体(例如对象、区域)之间的复杂关系。GNNs可以捕捉实体间的依赖性和交互,使得在异常表现为异常互动或关系的情况下能更有效地检测异常。
-
对抗学习技术的研究:增强特征表示对对抗攻击的鲁棒性。对抗训练方法可以帮助提高模型对未见过的异常的泛化能力,并减轻现实世界监控系统中逃避攻击的风险。
-
增量学习方法的发展:随着时间的推移,当新数据可用时,自适应地更新特征表示,帮助模型适应动态监控环境中正常和异常行为模式的变化,而不忘记之前学到的知识。
C. 学习与监督方案
在本综述的背景下,我们将深入探讨针对VAD问题的各种学习方法。
1) 监督方法
在监督学习中,算法是使用预先标注为“正常”或“异常”的数据集开发的。这允许模型根据这些注释学习正常和异常事件之间的明确区别。然而,在VAD中使用监督方法相对少见。这主要是因为获取带有详细帧级注释的数据集非常具有挑战性和资源密集型。异常事件通常罕见且多样,难以编制一套全面的标记异常数据。此外,手动标注大量视频数据中的每一帧是劳动密集型且耗时的,进一步限制了此类数据集的可用性。因此,虽然当有精确标签时监督学习可以很强大,但其在VAD中的应用受到获取广泛准确标注训练数据的实际困难的限制。
- 示例研究:[62]的一项研究介绍了一种使用时空卷积神经网络(CNNs)检测和定位拥挤场景中异常的方法。这种方法可以同时处理视频序列中的空间和时间数据,捕捉外观和运动信息。特别针对拥挤环境进行了定制,它通过专注于移动像素来有效识别异常,从而提高了准确性和鲁棒性。
- cGAN的应用:另一项由[53]进行的工作通过使用条件生成对抗网络(cGAN)来生成补充训练数据,解决了异常检测中标记异常稀缺的问题。该方法利用标记数据来训练模型。他们提出了一个新的监督异常检测器——集成主动学习生成对抗网络(EAL-GAN)。此网络的独特之处在于一个生成器对应多个判别器的架构,利用了集成学习损失函数和主动学习算法。目标是缓解类别不平衡问题并减少实际数据标注的成本。
2) 自监督方法
自监督方法涉及使用未明确标注异常的数据来训练模型。相反,这些模型通过解决“代理任务”来学习识别异常事件,这些任务从数据本身生成监督信号。这些任务被设计成与检测异常的主要目标相关,帮助模型在不需要直接来自异常事件标记示例的监督的情况下,发展对数据中正常模式的理解。然而,这需要仔细设计和选择代理任务,以确保所学到的特征对于识别异常事件是有用的。
- 对象级自监督与多任务学习:在[9]的研究中,研究人员提出了一种基于对象级别的自监督和多任务学习的方法。自监督包括在几个不需要标记异常数据的代理任务上训练3D CNN。这些任务包括确定物体移动的方向(时间箭头)、通过比较连续帧与间隔帧中的物体来识别运动不规则性、以及根据前后的帧重建物体外观。通过从视频数据本身学习正常的物体行为是什么样子,当偏离这种学习到的行为时,模型变得擅长于检测异常。这种方法即使在没有显式标签的情况下也能实现有效的异常检测。
- 进一步改进:在[63]的工作中,作者们继续他们的研究,并引入了更先进的物体检测方法,如YOLOv5、光流法和背景减除法,这些方法提高了快速移动物体及预定义类别之外物体的检测能力。他们还引入了变压器块进入架构,探索了二维和三维卷积视觉变换器(CvT),以更好地捕捉复杂的时空依赖性。这些更新最终形成了一个更加健壮的框架,显著提升了在视频序列中识别异常事件的准确性和适应性。
3) 弱监督方法
在弱监督方法中,与监督方法不同的是,在长视频序列中获取精确的帧级异常注释可能是具有挑战性和耗时的。相反,注释者可能会标注视频中观察到异常的“片段”或短段落,作为训练模型的弱标签。
- 多实例学习(MIL):Sultani等人[11]首次通过其开创性的多实例学习(MIL)模型引入了弱监督的概念。在这种方法中,正常和异常视频分别被视为负袋和正袋,视频段落作为MIL中的实例。这些袋子通过特征提取器处理以捕获时空特征,然后再导向全连接网络以产生最终输出。输出的异常分数范围从0到1,目的是增加异常段落的模型输出异常分数同时减少正常段落的分数。但是,这种方法可能会引入噪声标签,因为弱注释并不提供关于段落内异常确切位置的精确信息。
- 改进方法:其他工作解决了这个问题。例如,[28]的作者介绍了一种新的弱监督异常检测(WSVAD)方法,将其重新构架为带有噪声标签的监督学习任务,脱离了传统的MIL框架。利用图卷积网络(GCN),该方法有效地清理了噪声标签,从而增强了完全监督的动作分类器用于异常检测的训练和可靠性。此外,[64]的作者引入了一种二值化嵌入的WSVAD(BE-WSVAD)方法,通过将二值化嵌入到基于GCN的异常检测模块中进行创新。
- 增强传统MIL:在另一项研究中,[27]通过时间卷积网络(TCN)和独特的内部袋损失(IBL)增强了传统的MIL。IBL策略性地关注每个袋子(视频)内的异常分数变化,强调在包含异常的正袋中有一个较大的分数差距,而在不含异常的负袋中有一个较小的差距。与此同时,TCN有效地捕捉了视频中的时间动态,这是标准MIL方法经常忽略的一个重要方面。
- 自推理方法:[29]、[65]的作者提出了基于时空视频特征二元聚类的自推理方法,以减轻异常视频中的标签噪声。他们的框架包括通过聚类生成伪标签,有助于清除标签中的噪声,并提高整体异常检测性能。这种方法不仅去除了噪声标签,还通过聚类距离损失改善了网络性能。
- 关系感知特征提取:在[31]的方法中,首先使用了一个关系感知的特征提取器,从视频中捕获多尺度CNN特征。他们方法的独特之处在于结合了自我注意机制与条件随机场(CRFs),利用自我注意捕捉短程特征关联,而CRFs则用于学习特征间的相互依赖性。这种方法为复杂动作和交互提供了更全面的分析,以进行异常检测。
- 鲁棒的时间特征幅度学习(RTFM):[32]提出了鲁棒的时间特征幅度学习(RTFM)。RTFM解决了在主要由正常事件主导的视频中识别罕见异常片段的挑战,特别是那些仅表现出与正常事件细微差异的微妙异常。它采用了时间特征幅度学习来提高MIL方法对异常视频负面实例的鲁棒性,并集成了膨胀卷积和自我注意机制来捕捉长短程时间依赖性。
- 多实例自训练框架(MIST):[52]介绍了“MIST: 多实例自训练框架”,一种新的WSVAD方法。MIST通过引入具有稀疏连续采样策略的伪标签生成器以获得更准确的剪辑级伪标签,以及一个自我引导注意力增强的特征编码器以专注于帧内的异常区域,从而区别于传统的MIL。
- 弱监督时间关系学习框架(WSTR):[66]提出了一种新颖的弱监督时间关系学习框架(WSTR)。该框架使用I3D进行特征提取,并结合片段级分类器和top-k视频分类来进行弱监督,是首次在此上下文中应用变换器技术的同类框架。
- CLIPTSA:在[26]中,一种名为CLIPTSA的新方法利用视觉语言(ViT)特征进行WSVAD。与C3D或I3D等传统模型不同,CLIPTSA利用CLIP[34]中Vision Transformer (ViT)编码的视觉特征来高效提取区分性表示。它结合了时间自我注意(TSA)机制来建模长短期时间依赖性,从而提升VAD中的检测性能。
- 文本提示与正常性指导(TPWNG):最近发表的[61]工作提出了一种称为文本提示与正常性指导(TPWNG)的新弱监督框架,利用CLIP模型将文本描述与视频帧对齐以生成伪标签。该方法包括使用排名和分布不一致性损失进行领域适应微调CLIP,并引入可学习的文本提示机制和正常性视觉提示以改进文本-视频对齐。该框架还包括一个基于正常性指导的伪标签生成模块,以推断可靠的帧级伪标签,以及一个时间上下文自适应学习模块,灵活捕捉视频事件中的时间依赖性。
4) 无监督和基于重构的方法
基于重构的视频异常检测方法的核心原理是,正常事件可以从学习到的表示中有效地重建,而异常或不正常的事件则显著偏离这种表示,因此更难以重建。本质上,模型学习去表示或“重构”正常数据,而异常则是根据模型对它们的重构效果差来检测的。这些方法特别适合于标记异常数据稀缺的情况。在训练阶段,只考虑正常视频;而在测试阶段,模型会在正常和异常视频上进行评估以检验其异常检测能力。尽管这些模型是可行、可扩展且成本效益高的方法,但它们的有效性高度依赖于正常训练数据的质量和全面性。如果正常数据不能代表所有可能的正常变化,那么模型在检测异常时的表现可能会受到影响。另一个问题是,模型可能会产生大量的假阳性,将正常的变化或良性的偏差标记为异常。这是因为任何偏离学习到的正常模式的行为,即使它实际上不是真正的异常,也可能被标记出来。
深度学习技术,特别是卷积神经网络(CNN)[59]或自动编码器[16][67],广泛用于这种方法。自动编码器试图学习输入数据的压缩表示,然后从该表示中重构原始数据。在训练过程中,模型学习最小化输入与输出之间的重构误差。训练后,当模型遇到新的数据时,它会尝试根据所学知识重构这些数据。重构输出与原始输入之间的差异通常以重构误差衡量。高重构误差表明输入与模型认为的“正常”有显著不同,意味着输入可能是异常。
- 使用重构模型评估视频序列中的帧规律性:在[16]的研究中,作者开发了一种方法,使用重构模型来评估视频序列中帧的规律性。他们使用了两个自动编码器:一个带有卷积层,另一个没有。模型处理两种不同的输入:人工设计的特征(如HOG和HOF,并增强了基于轨迹的特性)以及沿时间轴排列的连续10帧组合。这些帧的重构误差作为其规律性分数的指标。
5) 基于重构方法的发展
基于重构的范式是无监督学习框架的关键组成部分,通常被归类为一类分类(OCC)或无监督学习,主要是因为它强调仅使用“正常”类别的视频进行训练。在OCC范式下,模型仅在一个类别(通常是“正常”类别)的数据上训练,在测试阶段任何偏离这一学习结构的结果都会导致更高的重构误差。
另一方面,无监督学习侧重于理解数据本身的结构或分布。它学习在没有明确标签指示什么是正常或异常的情况下重构数据。
- 生成合作学习:[68]提出了一种称为生成合作学习的新方法,结合了一个生成器和一个判别器,通过负面学习范式共同训练。设计为自动编码器的生成器重构正常和异常表示。通过负面学习,判别器学会通过识别来自生成器的重构误差来估计实例为异常的概率。此方法利用了异常比正常事件少且正常事件表现出时间一致性的假设,从而实现更有效的异常检测。
- 扩散模型:[69]的工作利用一种生成模型——扩散模型,利用重构能力进行异常检测。该方法首先使用3D卷积神经网络(3D-CNN)从视频片段中提取特征。这些特征随后被送入扩散模型,该模型无需依赖标记数据即可重构特征。扩散模型逐步向输入数据添加高斯噪声并学习逆转这一过程,从而有效重构输入。
5) 未来帧预测方法
随着研究人员观察到深度神经网络并不总是对非正常事件产生显著的重构误差,基于重构的方法概念有所发展。此外,某些以前未遇到过的正常视频可能会被错误地标记为异常。为了解决这些问题,研究人员开始关注基于先前视频帧并在考虑光流约束以确保运动一致性的同时预测未来帧。这种演变的方法被称为“预测方法”,引入了生成对抗网络(GANs),在增强这种方法方面发挥了重要作用[46][47]。基于这个框架,HSTGCNN[70]模型集成了复杂的未来帧预测(FFP)机制,显著改进了异常检测过程。通过整合层次图表示,该模型不仅预测未来帧,还编码个体及其动作之间的复杂交互,从而提供一个更加健壮和上下文感知的异常检测系统。
- 结合流动重构和帧预测的混合系统:[20]介绍了一个结合流动重构和帧预测的混合系统。该系统通过记忆正常活动模式并预测未来帧来检测视频中的异常事件。它使用记忆增强的自动编码器进行精确的流动重构,并使用条件变分自动编码器进行帧预测。流动重构和后续帧预测中的较大误差突出显示了异常。
不同VAD范式各有优缺点。最近的趋势是集成语言模型/语言监督的ViT基础方法以提高VAD性能。在VAD的不同方法领域中,几个有前途的方向正在出现: - 开发针对VAD问题的视觉-语言模型将比纯视觉模型更为主导。这些模型不仅能捕捉视频的语义表示,还能考虑异常的自然语言描述。
- 探索使用自然语言描述定位和描述视频中异常的方法是当前趋势。语言引导的异常定位技术使模型能够识别出对应于异常的空间和时间区域,并生成人类可解读的描述,增强态势感知并促进响应努力。
- 探索基于GAN的方法用于VAD,其中生成器学习生成正常视频帧,而判别器区分真实和生成的帧。GAN可以捕捉正常行为的复杂分布,并检测出指示异常的偏差。
- 发展基于图的模型,将监控视频中实体间的空间和时间依赖关系表示为图结构。时空图模型能够捕捉对象、活动和环境之间的复杂关系,从而在复杂场景中实现更准确的异常检测。
- 研究迁移学习技术,将知识从已标记的源域转移到未标记或稀疏标记的目标域,可以帮助缓解目标域中标记数据稀缺的问题,并通过利用相关监控场景中学到的知识来提高异常检测性能。
- 采用多分辨率分析技术,以不同的空间和时间分辨率分析视频。多分辨率方法能够检测发生在不同尺度上的异常,从小规模事件到大规模空间或时间模式,提高了模型对不同类型异常的敏感度。
- 采用动态集成学习策略,动态地结合多个异常检测模型的预测。动态集成方法可以根据当前监控情境自适应调整集成组成,提高检测的稳健性和对不断演变的异常的抵抗力。
D. 损失函数
损失函数在量化模型预测结果与实际结果之间的差异中扮演着关键角色。它们作为优化过程的指导,有助于在训练过程中调整和改进模型参数。选择适当的损失函数至关重要,因为它直接影响模型识别数据潜在模式的能力及其对未见数据的表现。不同的任务需要特定的损失函数来有效地捕捉问题领域内的特性或复杂性。
1) 多实例学习(MIL)损失
在弱监督学习类别中,特别是多实例学习(MIL)[11],目标函数被设计用于高效地区分视频片段中的正常情况和异常情况。
处理标记视频的数据集V时,其中V代表一个视频片段。视频被分类为正包B+和负包B-。总体目标函数可以表示为:
该函数旨在确保正标记视频数据集的异常分数S(V; θ)大于任何负标记集合中的片段。这是通过使用由θ参数化的铰链损失函数实现的。
2) 交叉熵损失
除了MIL损失外,一些研究人员[28][71]在其损失函数中使用了二元交叉熵来区分WSVAD任务中的正常和异常视频片段。
目的是精炼模型以识别视频中具有最高异常分数的片段,并将其标记为正常(反之亦然)。对于每个视频实例,MIL构造了一个对,包括模型对最高异常分数片段的预测以及视频异常的真实标签(例如,
max
{
f
(
V
i
)
}
i
=
1
n
,
y
i
\max\{f(V_i)\}_{i=1}^n, y_i
max{f(Vi)}i=1n,yi,其中
y
i
=
0
y_i = 0
yi=0表示正常,
y
i
=
1
y_i = 1
yi=1表示异常实例。随后,MIL从所有视频中整合这些对,形成一组高置信度标记的片段C。
模型f通过优化以下二元交叉熵(BCE)损失进行精炼:
其中最大分数
y
^
i
=
max
{
f
(
V
i
)
}
i
=
1
n
\hat{y}_i = \max\{f(V_i)\}_{i=1}^n
y^i=max{f(Vi)}i=1n。在此范式下,模型f必须为正常视频中的所有片段分配最低的异常概率,从而最小化
max
{
f
(
V
i
)
}
i
=
1
n
\max\{f(V_i)\}_{i=1}^n
max{f(Vi)}i=1n;而在异常视频中分配最高的异常概率,因此最大化
max
{
f
(
V
i
)
}
i
=
1
n
\max\{f(V_i)\}_{i=1}^n
max{f(Vi)}i=1n。
策略是即使视频大部分是正常的,也要关注最强异常性的片段,以生成一组高置信度标记为异常的片段。
3) 重构误差损失
对于无监督方法,如方程4所示,模型的目标函数是最小化原始输入帧像素值与其通过带有权重θ的模型重构后的帧之间的重构误差(平方欧几里得距离
∥
⋅
∥
2
2
\| \cdot \|_2^2
∥⋅∥22,这由[16]提出。输入帧记作Vi通过编码器获得压缩表示,然后使用解码器重构回帧F(Vi; θ),N是小批量的大小。
arg
min
θ
1
2
N
∑
i
∥
V
i
−
F
(
V
i
;
θ
)
∥
2
2
\arg\min_{\theta} \frac{1}{2N} \sum_{i} \|V_i - F(V_i; \theta)\|_2^2
argminθ2N1∑i∥Vi−F(Vi;θ)∥22
未来方向
针对视频异常检测中的损失函数,未来的方向涉及探索和发展新的损失函数,以解决异常检测任务中的具体挑战和目标。这个领域的有前景的方向包括:
- 设计异常感知损失:明确考虑异常特性的损失函数可以根据异常的严重程度或稀有程度不同地惩罚模型错误,帮助模型更专注于检测关键异常,同时减少对常见或良性事件的误报。
- 时间一致性约束:将时间一致性约束纳入损失函数中,鼓励随时间平滑过渡和一致预测,可能对连续帧间模型预测中的突然变化或不一致性进行惩罚,促进更稳定和连贯的异常检测结果。
- 对抗损失:在训练过程中整合对抗损失,以提高异常检测模型对对抗攻击的鲁棒性,鼓励模型生成能够抵抗对抗扰动或操纵的预测,增强现实场景中异常检测系统的可靠性和有效性。
- 不确定性感知损失:整合不确定性感知损失以量化并减轻异常检测预测中的不确定性,使模型能够估计与其预测相关的置信度或不确定性,促进异常检测系统中更可靠的决策制定和不确定性量化。
E. 正则化
在深度学习中,尤其是对于视频异常检测而言,正则化技术对于防止过拟合和提高模型的泛化能力至关重要。
1) 权重衰减正则化
权重衰减是一种常用的神经网络训练中的正则化方法,用于防止过拟合。术语“权重衰减”特指一种修改学习过程的技术,在训练过程中缩小神经网络的权重。权重衰减的基本原理是在神经网络的损失函数中添加与权重大小相关的惩罚项[72]。其主要目标是保持权重较小,这有助于减少模型的复杂性及其对训练数据的过拟合倾向。通过惩罚较大的权重,权重衰减确保模型不会过分依赖任何一个特征或特征组合,从而导致更好的泛化性能。
a: L1 正则化
L1 正则化是一种向模型的损失函数中添加相当于模型权重绝对值大小的惩罚项的方法。包含 L1 正则化的损失函数的一般公式可以表示为:
其中
L
(
θ
)
L(\theta)
L(θ) 是加入 L1 正则化项后的总损失函数,
L
0
(
θ
)
L_0(\theta)
L0(θ) 是没有正则化的原始损失函数,
λ
\lambda
λ是控制正则化效果强度的正则化参数。较高的
λ
\lambda
λ值会导致更强的正则化,可能会使更多的特征通过将其系数减少到零而被有效地忽略。L1 正则化的一个关键特点是它能够创建稀疏模型。这里的稀疏性指的是某些系数会精确地变为零,实际上从模型中排除了一些特征。这一点在特征选择中特别有用,可以帮助识别模型中最重要的特征。
b: L2 正则化
L2 正则化,也称为岭回归(Ridge)正则化,是一种通过添加相当于模型权重平方大小的惩罚项来修改模型损失函数的技术。包含 L2 正则化的损失函数的一般公式如下所示:
这里,
L
(
θ
)
L(\theta)
L(θ) 代表包括 L2 正则化项在内的总损失函数。
L
0
(
θ
)
L_0(\theta)
L0(θ) 是没有正则化的原始损失函数,
λ
\lambda
λ是决定正则化效果强度的正则化参数。增加
λ
\lambda
λ 的值会增强正则化效果,更显著地惩罚较大的权重。L2 正则化的主要特点是通过保持权重较小来防止过拟合,从而产生一个更加泛化的模型。与促进模型稀疏性(一些系数变为精确的零)的 L1 正则化不同,L2 正则化倾向于将所有系数都向零收缩,但不会让它们完全变为零。这一特性使得 L2 正则化在许多特征对预测贡献较小的情况下特别有用。通过对权重的平方进行惩罚,L2 正则化确保没有任何单一特征主导模型,这对于所有特征都有一定重要性的模型来说是非常重要的。
这两种正则化方法都是为了帮助模型更好地适应训练数据,并且在面对新的未见数据时也能表现良好。在视频异常检测的应用中,由于可能面临的数据集相对有限且标记困难,使用适当的正则化技术尤为重要,以保证模型能够准确地识别出真正的异常情况。
2) 时间和空间约束
在视频异常检测(VAD)中,时间和空间约束是另一种常见的正则化项。这些约束项添加到损失函数中,确保模型在区分视频中的正常事件与异常事件时具有重要的时空学习特性[73]。时间约束用于保证事件随时间的连续性和进展,而空间约束则用于增强模型对视频帧中物体位置及其物理位置的理解,以及它们与异常存在的关系。通过将这两种类型的约束都纳入VAD模型的损失函数中,模型更倾向于实现更加稳健的异常检测。
a: 时间平滑约束
时间平滑约束是VAD中损失函数的重要组成部分,用于保持相邻帧之间预测的异常分数的稳定性。该约束旨在减少相邻帧之间异常分数的突然波动,符合预期的是连续帧通常表现出相似的异常特征。时间平滑约束如下公式(7)所示,惩罚了序列帧之间异常分数的突然变化:
其中, λ 1 \lambda_1 λ1是平滑系数, S ( V i ; θ ) S(V_i; \theta) S(Vi;θ) 是第 i i i帧的异常分数, S ( V i + 1 ; θ ) S(V_{i+1}; \theta) S(Vi+1;θ)是第 (i+1) 帧的异常分数。
b: 稀疏性约束
稀疏性约束是一种常用的正则化项,在VAD中强制异常帧成为视频帧中的少数。在VAD中,通常假设异常帧相对于正常帧来说是少数。稀疏性约束如下公式(8)所示,惩罚视频中异常帧的总数:
其中, λ 2 \lambda_2 λ2是稀疏系数, S ( V i ; θ ) S(V_i; \theta) S(Vi;θ)是第 i 帧的异常分数。
虽然时空约束非常适合处理视频序列中的突发异常,但最近的趋势是引入特定于VAD的约束以提高整体性能。这个领域未来的发展方向包括:
- 对抗正则化技术:通过在训练过程中引入对抗扰动,帮助模型学习更具韧性的特征,从而增强其在存在对抗操作的情况下检测异常的能力。
- 时间正则化技术:实施时间一致性约束,鼓励异常检测预测在时间上的连贯性和一致性,促进连续帧之间的平稳过渡和一致预测。
- 基于图的正则化技术:通过对学习表示施加结构约束,鼓励模型捕捉对象、场景或事件之间的有意义交互和上下文信息,从而实现更准确的异常检测。
- 稀疏正则化技术:鼓励学习表示的稀疏性,使模型关注视频中的显著特征或区域,同时抑制无关噪声,促进信息特征的选择。
- 持续学习正则化技术:解决灾难性遗忘和模型随时间退化的问题,使模型能够适应并从新数据中学习,同时保留先前学到的知识,便于在监控环境中进行适应。
F. 异常分数
异常分数表示视频中某段或某帧为异常的可能性,基于它偏离正常模式的程度计算。高异常分数表明异常的概率很高。
对于重构方法[16][67],在训练模型后,通过输入测试数据来衡量其有效性,看是否能以最少的误报率准确识别不寻常活动。然后,通过使用帧的重构误差
e
(
V
i
)
e(V_i)
e(Vi) 将每帧
V
i
V_i
Vi的异常分数
S
(
V
i
)
S(V_i)
S(Vi)缩放到0到1之间进行计算:
因此,我们可以定义规则性分数为:
然而,对于未来帧预测方法,[74] 表明峰值信噪比(PSNR)是评估图像质量的一种优越方法[46][47],如下所示:
假设我们能够对正常事件做出准确的预测。因此,我们可以通过测量预测帧 Y ^ \hat{Y} Y^ 和其对应的真值 Y之间的差异来检测异常。其中 max Y \max_Y maxY是图像强度的最大可能值除以均方误差(MSE)。在图像重构任务中,较高的PSNR表示较低的误差,因此对原始图像有更高的保真度,这是期望的结果。
在测试视频的每个帧
V
i
V_i
Vi 上计算预测
Y
^
\hat{Y}
Y^
与其对应真值
Y
Y
Y之间的PSNR,并归一化这些值后,可以使用以下公式确定每个帧的规则性分数
!
[
S
r
(
V
i
)
![S_r(V_i)
![Sr(Vi)![:
这个分数指示了帧为正常或异常的可能性,并且可以设置一个阈值点来区分两者。
VI. 模型评估
A. 数据集指南
正如在第五部分A节中所讨论的,文献中使用了多个数据集来训练和评估视频异常检测(VAD)模型。这些数据集适合不同类型的学习监督方案。大多数数据集,包括UCF-crime [11]、ShanghaiTech [14]、XD-Violence [13] 和CUHK Avenue [15],为训练集提供了视频级别的标签,可以用于如Joo等人[26]和Cho等人[73]的工作中的弱监督VAD训练。这些数据集也可以通过不使用视频级别标签的训练集来用于无监督VAD,例如Shi等人的工作[75]和Zaheer等人的工作[68],以及自监督学习,如Zhou等人[62]的工作。
B. 评估指标
大多数先前的工作主要使用诸如帧级ROC曲线下面积(AUC)、等错误率(EER)和帧级平均精度(AP)等指标,在不同的数据集上比较它们的结果。这些指标的主要目的是评估模型区分正常与异常视频的能力。
- 接收者操作特征曲线下的面积(AUC):AUC是一个重要的度量标准,用于评估模型性能。它表示接收者操作特征(ROC)曲线下的面积,该曲线是在不同阈值设置下真正例率(TPR)对假正例率(FPR)的绘制。TPR定义为:
FPR则由以下公式给出:
较高的AUC值表明更好的模型性能,其中AUC为1表示完美模型,而AUC为0.5意味着对正负类没有区分能力。对于评估VAD模型常用的两种AUC类型是Micro-AUC和Macro-AUC。Micro-AUC将所有类别的样本一起考虑以计算单一AUC,因此对最频繁的类别敏感。另一方面,Macro-AUC独立计算每个类别的AUC并取平均值,提供了一个跨所有类别的平衡表现视图。虽然Micro-AUC反映了整体检测能力,但Macro-AUC确保模型在不同类型的异常或正常事件上都有良好的表现,提供了对某些类别潜在偏见的洞察。
-
平均精度(AP):AP度量计算不同召回值时的平均精度。它将精确度-召回曲线汇总成一个值,代表所有阈值水平上的平均表现。
-
等错误率(EER):EER表示FPR等于假负率(FNR)的点。较低的EER值表示系统具有更高的准确性[62]。
在这篇综述中,我们使用AUC作为第七部分A节中SOTA模型定量比较中的性能度量。
VII. SOTA模型的对比分析
A. 定量比较
文献中有许多工作提出了针对VAD问题的不同深度学习模型架构。表2突出显示了最近在公开可用数据集上的异常检测工作的基准测试。表格详细展示了异常检测技术的发展和当前状态,主要集中在包括UCF-Crime、ShanghaiTech、XD-Violence和Avenue在内的公开数据集。数据跨度从2013年到2023年,提供了过去十年该领域进展的全面视角。从表中可以观察到的一个重要趋势是从有监督的VAD方法向弱监督VAD学习方法的研究兴趣转变。这一变化特别明显地发生在2018年之后,并且很大程度上受到了Sultani等人[11]的影响,他们引入了“UCF-Crime”数据集和多实例学习(MIL)学习流程。这表明业界越来越倾向于需要较少完全标记数据的技术,因为与依赖于视频级别标签的弱监督方法相比,完全标记的数据往往成本高昂或难以获得。这种转变反映了异常检测应用中的实际挑战和不断演变的需求,尤其是在拥有数百小时未标记或弱标记视频片段的应用场景中。
值得注意的是这些研究中使用的特征提取器种类繁多,从简单的3D立方体梯度结合主成分分析(PCA)到更复杂的深度学习架构,如卷积自动编码器(CAE)、3D卷积网络(C3D)、时间段网络(TSN)、膨胀3D ConvNet(I3D)以及CLIP。方法的多样性强调了VAD任务的复杂性,突出了根据不同场景定制方法论的必要性。
分析的另一个关键方面是性能指标,特别是不同数据集上的AUC分数,表明随着时间推移模型性能有了显著提升。这一趋势不仅标志着方法学效率的进步,也强调了异常检测系统的准确性和可靠性不断提高。领先的模型,尤其是像2023年发布的“CLIP-TSA”[26]这样的近期模型,表现出极高的AUC分数,说明了近年来特别是在集成来自自然语言处理(NLP)领域的先进技术(如CLIP、BLIP和GPT)后取得的快速进步。一种利用视觉-语言模型的新方法[61]发表于2024年,在两个数据集上超过了CLIP-TSA的表现,如表2所示。根据SOTA比较,很明显基于视觉-语言的方法目前处于VAD研究的前沿。
然而,分析揭示了一些数据缺失的情况。这些跨越各种方法论和数据集的空白凸显了进行更全面基准测试的必要性。解决这些缺口对于促进更深入的理解和促进不同异常检测方法之间有意义的比较至关重要,最终推动该领域的发展。
B. 定性比较
为了更详细地观察当前最先进模型在各种正常和异常监控视频中的表现,本节提供了这些模型性能的定性分析。图5展示了使用四种VAD模型(即Sultani等人[11]、GCN[68]、CLAV[73]和VAD-CLIP[35])对正确分类和错误分类的视频帧进行的定性评估。如图的第一行所示,这四种VAD模型能够正确地将来自不同场景和环境的正常与异常视频帧进行分类。然而,这些模型也会将同一视频中其他类似的帧误分类,要么是在正常视频中检测到异常,要么是未能检测到异常视频段。
例如,由[11]提出的模型将“Burglary032”视频中的第10000帧误分类为“正常”,而实际上这是一个“异常”情况,该帧显示一个人通过窗户进入办公室。这归因于场景的极度黑暗,使得识别这种模糊的异常变得困难。另一个误分类的例子是[68]的GCN模型,它将“Stealing058”视频中的第4400帧误分类为“异常”,而实际上是“正常”的情况,该帧显示一辆车离开停车位。这种情况可能是由于汽车突然移动且开着灯导致的。同样地,由[73]提出的名为CLAV的模型误分类了街道上车辆停车并再次加速的初始帧。这种异常分数的增加可能是因为车辆的突然停止,在许多情况下这可以被视为一种异常。最后,由[35]提出的VAD-CLIP模型将“Shooting008”视频中的第360帧误分类为“异常”,而实际上是“正常”的情况,该帧显示一个人在地上爬行。这种误分类可能是因为这个人以不寻常的方式移动,与通常发生在街道和购物中心场景中的情况不符。可以得出结论,当视频的整体上下文无法直接从单个帧推断出来时,某些正常和异常帧可能会被误分类,尤其是在帧给出不同上下文的错误印象的情况下。
VIII. 主题分析的文献计量网络可视化
在文献计量学中,可视化是一种强有力的工具,用于分析多种网络,包括基于引用、合著者或关键词共现的网络。密度可视化提供了文献计量网络中关键组成部分的快速概览。运用自然语言处理(NLP)技术,可以构建英文文本数据的术语共现网络。采用互联网络背后的逻辑是为了展示领域的时间演变及其相关性驱动的发展。
我们使用了VOSviewer [81],这是一种采用基于距离的方法来生成文献计量网络可视化的工具。在这种背景下,像由引用关系形成的有向网络被当作无向网络处理。VOSviewer自动将网络节点组织成集群,其中具有相似属性的节点被分组在一起。网络中的每个节点都被清晰地分配到其中一个集群中。此外,VOSviewer使用颜色来表示节点在一个文献计量网络可视化中的集群成员身份。
如图6所示,出现了五个不同的集群,每个集群代表一个不同的研究主题。绿色集群围绕扩散的主题,探索基于扩散模型的异常检测方法,代表性工作如“利用扩散模型进行卫星视频中的异常检测”[82]。黄色集群侧重于效率,研究努力集中在开发能够在毫秒级延迟下准确检测异常的算法,如论文“EfficientAD: 毫秒级延迟下的精确视觉异常检测”[83]所展示。紫色集群专注于交错一类和弱监督模型,并结合自适应阈值来进行无监督视频异常检测,例如论文“交错一类和弱监督模型并结合自适应阈值进行无监督视频异常检测”[84]。红色集群深入探讨了视觉语言模型(VLM),特别是CLIP,用于视频异常识别,如论文“深入CLIP潜在空间进行视频异常识别”[85]所示。最后,蓝色集群致力于研究涉及生成对抗网络(GANs)的VAD任务,代表性工作为“使用GAN进行视频异常检测”[86]。所有集群进一步在表3中进行了说明。
IX. 讨论与未来研究方向
在这篇综述文章中,我们提供了一个全面的回顾,作为解决与视频异常检测(VAD)相关挑战的指南。在过去十年中,VAD领域经历了显著的发展,从监督学习方法向弱监督学习方法以及基于重构的技术转变。这种转变反映了对能够在较少依赖于完全标注数据的情况下有效运作的方法日益增长的偏好,因为获取完全标注的数据既昂贵又具有挑战性。值得注意的是,大多数基准数据集都是弱监督的,具备视频级别的注释,而基于重构的方法在训练过程中仅使用正常数据进行无监督学习。
现有的文献展示了多样化的VAD数据集,从像UCSD行人这样的特定单一场景数据集到更综合、多场景集合如UCF-Crime和XD-Violence。这些数据集在大小、持续时间以及所包含的异常类型上存在显著差异。
然而,尽管取得了进展,VAD领域内仍存在一些挑战。例如,环境多样性有限、异常事件类型的范围狭窄以及类别不平衡等问题继续影响着模型在不同设置下的泛化能力和检测准确性。这个持续存在的差距突显了对更多样化数据集的迫切需求,并强调了扩展可用资源的重要性,以促进VAD模型的全面和多样化测试。
此外,各种混合深度学习技术被用于特征提取,包括卷积神经网络(CNNs)、自动编码器(AEs)、生成对抗网络(GANs)、序列深度学习以及视觉-语言模型作为特征提取器,这凸显了VAD任务的复杂性。这些技术强调了诸如时空和文本特征等关键特征类型的提取,指出了针对特定场景定制专门方法的必要性,并反映了该领域的动态特性。
另外,适当损失函数的选择在各种任务的有效性中起到了核心作用,作为模型优化的基本组成部分,直接影响模型的学习能力及其做出准确预测的能力。此外,在损失函数中引入正则化项,特别是稀疏性和平滑约束,对于增强模型区分正常和异常事件的能力至关重要。
在测试阶段,使用曲线下面积(AUC)、平均精度(AP)和平等错误率(EER)等指标评估异常分数对于理解误报的质量和偏差是至关重要的,从而提供了关于模型局限性的见解。跨多个数据集评估模型对于确保其鲁棒性和泛化能力是必要的。
A. 未来的研究方向
探索最先进的视觉-语言模型,特别是整合文本特征,与传统的VAD方法相结合,为未来的研究提供了一个有前景的方向。这种跨学科的方法有望通过赋予系统对复杂视频内容的深刻理解来增强异常检测系统,其中语义意义通过文本注释得到丰富。
虽然在VAD领域已经取得了重大进展,但仍然迫切需要更加多样和广泛的数据集。具体来说,涵盖更广泛场景、包括多个场景和异常的数据集是必不可少的。这样的数据集不仅有助于现有模型的基准测试,还能通过呈现更具挑战性的现实情况来激发创新。
此外,随着视觉-语言模型(VLMs)的出现,未来研究的一个重要方向是将包含上下文细节的文本描述(如帧级标题)整合进异常检测模型中。这种整合有可能通过提供丰富的描述性信息来显著提高模型性能,这些信息有助于解释和分析视觉内容。
因此,这一趋势将要求开发出更强有力的损失函数,能够更有效地处理文本信息。总之,这篇综述论文突出显示了VAD领域一个令人兴奋的增长和转型阶段,其特点在于方法学的进步、新技术的整合以及向更高效学习方法的转变。然而,所识别的差距和挑战表明,研究界需要持续努力开发全面的数据集并探索新的方法,最终推进异常检测技术的发展。