【视频异常检测】Region-based Appearance and Flow Characteristics for Anomaly Detection in Infrared...

中文标题:基于区域外观和流特征的红外监控图像异常检测

文章信息:
在这里插入图片描述
发表于:CVPR2023
原文链接:https://openaccess.thecvf.com/content/CVPR2023W/VAND/html/Gaus_Region-Based_Appearance_and_Flow_Characteristics_for_Anomaly_Detection_in_Infrared_CVPRW_2023_paper.html
源代码:无

Abstract

我们提出了一种利用视觉外观和光流的局部运动特征进行异常检测的方法,在自动视觉监控中,异常检测是一个经典问题,即在操作数据可用性极不平衡的情况下(正常类别的样本量不足,并且对另一类别(异常)的分布覆盖不足),确定正常和异常。通过利用来自区域提议网络的已建立的对象定位技术,从每个对象区域提取光流,并将其与远红外(热)波段中的外观结合起来,为每个对象提供一个3通道时空张量表示(1×热-空间外观;2×光流大小作为x和y分量-时间运动)。这种表述被用作基于区域的当代半监督异常检测方法的训练基础,以便在场景中检测到异常对象的外观和/或运动的组合。我们使用LongTerm红外(热)成像(LTD)基准数据集进行评估,成功地使用一系列半监督异常检测方法展示了对异常对象外观和运动特征的检测。

1. Introduction

自动视频监控在社会中变得越来越普遍,用于保护各种公共设施、交通系统和国家基础设施的安全。这种监控的一个重要操作方面是检测异常或不寻常事件,而在这个领域,算法解决方案目前落后于越来越普遍的使用对象检测和跟踪进行自动视频监控。

在这种情况下,异常指的是行为或外观与该地区正常或预期模式偏离的情况。在许多部署场景中,使用传统的对象检测或跟踪解决方案会导致系统对那个位置的正常活动模式(Pattern-of-Life,PoL)中的良性事件产生大量的警报。

通常情况下,异常检测问题涉及计算机视觉中的开放集问题的一个方面 - 虽然从外观和行为的角度来看,场景中对象的正常性可以被界定,但可能发生异常事件的可能集合是不受限制的。因此,与正常活动相比,异常事件很少发生,这导致了异常检测常见的数据集挑战 - 虽然正常数据样本可能很丰富,但异常样本的可用性在数量和种类上都受到限制。一个常见的方法是从丰富的正常样本训练数据中学习正常(非异常)数据分布的模型,然后以半监督的方式检测异常作为异常值。然而,在视觉监控的背景下,这需要理解复杂的视觉模式,有些模式只有在模型中学习了长期时间关系和因果推理时才能检测到,比如交通事故、犯罪或非法活动。

虽然在视觉监控的背景下,异常检测方面存在大量先前的工作,但它们主要考虑了在具有非常有限时间范围的数据集上发生的相当基本的异常对象事件,比如UCSD Ped1/2、Avenue或ShanghaiTech等。尽管像UCF-Crime这样的更大数据集提供了更多的空间,但它们的非均匀(基于互联网)管理使得它们在固定摄像头监控部署的异常检测评估中的使用具有挑战性。此外,所有数据集主要侧重于可见光带(彩色)图像,仅有极少数包含可见光和红外(热)图像,尽管操作监控背景中红外(热)图像的使用越来越普遍。

另一个挑战是不断变化的环境条件,这影响了可见光带和红外带的异常检测。这个问题在图1中有所体现,其中四个正常的港口场景随着时间的推移呈现出对比度、照明、前景水波纹和其他环境因素的变化,这些变化可能与场景的先验(非异常)数据分布显著不同。
在这里插入图片描述
为了克服这些问题,在本文中,我们研究了利用短时长、时空签名作为一种场景内对象级别异常检测的手段,并将其应用于在不同环境条件下捕获的红外(热)图像中。

为此,我们提出了在区域基础上同时利用视觉外观和光流的局部运动特征,以促进此背景下的对象级别异常检测。通过利用区域提议网络的建立的对象定位技术,从每个对象区域提取光流,并与远红外(热)波段中的外观相结合,为每个对象提供一个3通道的时空张量表示(1×热 - 空间外观;2×光流大小作为x和y分量 - 时间运动)。这种表述被用作训练当代半监督异常检测方法的基础,以对象为基础,从而可以在场景中检测到异常对象的外观和/或运动的组合。

本工作的主要贡献如下:

  • 对基于区域的异常检测[1]中的先前工作的扩展,以联合考虑使用场景内对象的视觉外观和局部运动特性。
  • 在这种背景下对五种半监督异常检测方法进行评估,这些方法在形式上有所不同 - 即基于分类的(DFKDE)、基于重建的(FastFlow、GANomaly)和学生-教师对(RD、STFPM)。
  • 在自动视觉监控的背景下,利用远红外(热)波段图像进行基于区域(每个对象)的异常检测的示例,针对Long-Term红外(热)成像(LTD)基准数据集中不同环境条件下的每个对象报告定量和定性性能。

2. Literature Review

由于自动视频监控在自主监控系统中的潜在应用价值,异常检测通过自动视频监控已经得到了深入研究。在这个背景下,大多数研究都假设操作数据的可用性高度偏向于一类(正常),这是由于样本量不足和对另一类(异常)的分布覆盖不足所致。该过程通常包括以下步骤。在训练阶段,提取正常训练样本的特征。然后在这些特征上拟合一个参考模型。在测试阶段,如果输入数据的特征不能很好地适应参考模型,则将其视为异常。

最近,随着深度学习的巨大成功,当代方法使用来自训练的深度神经网络的特征[11] [47] [34] [43]。或者,一些深度学习方法依赖于数据重建方法。这依赖于使用生成模型通过最小化重建误差来学习视频剪辑中正常样本的表示[18] [28] [31] [32] [35] [42]。在推断期间,假设看不见的异常视频剪辑通常不能被很好地重建,并且具有高重建误差的样本被认为是异常。

虽然以前的方法主要分析视频剪辑的逐帧的基础上,另一种方法是通过建模对象轨迹来分类正常或异常。例如,Li等人。[22]通过稀疏重建分析对正常事件的轨迹进行建模,然后将任何异常轨迹检测为离群值。在[39]中,深度自动编码器被训练为对正常轨迹进行建模,而后续工作[40]结合了GAN,其中训练了GAN以区分由深度自动编码器给出的正常和异常轨迹重建误差[39]。虽然对象轨迹设法捕获长期的对象级模式,但这可能在拥挤或混乱的场景中失败。

另一种方法是利用从局部区域提取的低级特征来建模视觉外观。Hinami等人提出了通过多任务Fast RCNN对异常事件进行联合检测和统计。虽然[15]使用测地对象提议和移动对象提议从局部区域提取特征,但Adey等人将相同的方法纳入了最先进的Faster-RCNN,以提取潜在的局部区域,用于Kernel Density Estimation (KDE)进行分类。在另一种方法中,更现代的对象检测器,如Single Stage Detector (SSD)和CenterNet,在[18]和[41]中分别用于检测局部区域。在[18]中,局部区域然后被馈入SVM分类器进行异常分类,而在[41]中,局部区域则以对抗方式进行异常分类训练。

另一种方法是将运动特征作为异常指标[28] [37] [32] [49]。Liu等人。[28]在训练时间期间添加光流损失作为运动约束,而[37] [32]中的工作试图通过预测当前帧的光流来学习运动。另一方面,[49]中的工作通过指导帧预测来利用光流信息,其中它们预测具有高质量的正常帧和具有低质量的异常帧。

虽然这些努力在异常检测任务中表现出良好的检测精度,但上述大多数方法都集中在可见波段(彩色)图像[55] [24] [29] [30] [44]和灰度图像[15] [1] [18] [41]上的异常检测。另一方面,所有上述工作[28] [37] [32] [49]都集中在如何通过光流直接预测未来帧。使用基于区域的方法(如[1] [15])的现有工作特别忽略了运动特征。同时,[18]结合了昂贵的运动信息,如运动卷积自动编码器,而[41]仅依赖于过去的空间梯度作为异常检测的运动信息。

相比之下,我们提出了利用基于区域的外观和流特征的双重使用,以促进红外监控图像中的对象级异常检测。受基于区域提议网络的区域定位和计算成本较低的光流方法的启发,我们将红外(热)外观与光流结合起来,为每个区域生成了3通道的时空张量表示。这将作为训练当代半监督异常检测方法的基础,以对象为基础,从而可以在场景中检测到异常对象的外观和/或运动的组合。

3. Methodology

图2说明了所提出的方法的整体架构,它包括一个两阶段的方法,分离的对象和异常检测任务。
在这里插入图片描述

3.1. Object Detection and Optical Flow

一个物体检测器被训练来预测一组边界框,这些边界框围绕着属于一组类别 C C C的物体,给定第 i i i个红外图像 I i ∈ [ 0 , 1 ] H × W I_i ∈ [0, 1]^{H×W} Ii[0,1]H×W,其中 H H H W W W是图像的尺寸,来自一系列 N N N个图像 I = { I i } i = 1 N \mathcal{I} = \{I_i\}^N_{i=1} I={Ii}i=1N。一个预测由一个表示为 b = ( x c , y c , w ′ , h ′ , c ) b = (x_c, y_c, w^′, h^′, c) b=(xc,yc,w,h,c)的框组成,其中 x c x_c xc, y c y_c yc是框的中心, w ′ w^′ w, h ′ h^′ h是宽度和高度, c ∈ C c ∈ C cC是类别。同时,估计了 I i I_i Ii的光流,得到了描述x和y方向上像素位移的流 ϕ i ∈ R H × W × 2 ϕ_i ∈ R^{H×W×2} ϕiRH×W×2(编码在 ϕ i ϕ_i ϕi的最后2个通道中)。第 i i i个光流是使用预先训练的PWC-Net [45]从图像 I i I_i Ii I i − 1 I_{i−1} Ii1中估计的,由于它的紧凑模型尺寸。随后,给定预测 b b b,从红外图像 I i I_i Ii中提取了一个关联类别 c c c的补丁 p t ∈ [ 0 , 1 ] h ′ × w ′ p_t ∈ [0, 1]^{h^′×w^′} pt[0,1]h×w,并且与在相同由 b b b定义的空间位置的 ϕ i ϕ_i ϕi中的光流补丁 p ϕ ∈ R h ′ × w ′ × 2 p_ϕ ∈ R^{h′×w′×2} pϕRh×w×2聚合。最终的物体表示 p ∈ R h ′ × w ′ × 3 p ∈ R^{h′×w′×3} pRh×w×3最终通过连接 p t p_t pt p ϕ p_ϕ pϕ获得。

3.2. Anomaly Detection

我们提出了一种半监督异常检测方法,其中我们仅基于场景中包含对象区域的正常数据样本进行训练(来自第一阶段的对象检测)。考虑到在红外(热)视频监控背景下全面收集异常数据的挑战,我们利用现有的异常检测方法,通过筛选出五种不需要异常训练示例的第二阶段异常检测方法。

DFKDE [2]: 深度特征核密度估计(DFKDE)是一种快速的单类异常分类算法,它由基于深度神经网络的特征提取阶段和包含主成分分析(PCA)和高斯核密度估计(KDE)的异常分类阶段组成。在异常分类的第一阶段,通过主成分分析(PCA),将特征降维到前16个主成分。在异常分类的第二阶段,将高斯核密度估计(KDE)应用于主成分特征。KDE的思想是训练数据集遵循某种任意分布,并且可以通过采用核密度估计来建模分布。在推断阶段,如果观察到低于阈值的概率密度,该阈值由训练数据集确定,这表明存在异常与从训练数据示例中学习到的数据分布相对。

FastFlow [51]: 通过2D归一化流(FastFlow)进行无监督异常检测和定位,包括使用全卷积神经网络架构进行异常检测的2D归一化流。首先通过深度特征提取器提取视觉特征,然后将其输入到归一化流组件中以估计概率密度。在训练阶段,FastFlow通过归一化流方法学习将特征的原始分布转换为可处理的二维分布。在推理阶段,当正常图像和异常图像同时出现时,正常图像的特征将投影到分布的中心,而异常图像的特征将远离分布的中心,表明它们的异常性。简单地说,2D特征流形上每个位置的概率值直接被用作异常得分。
RD [10]: 通过从单类嵌入进行逆向蒸馏的异常检测(RD)基于一个预训练的教师网络和一个可训练的学生网络,由三个子网络组成。第一个是预训练的特征提取器(E)。接下来的两个是单类瓶颈嵌入(OCBE)和学生解码器网络(D)。在特征提取阶段,由于学生网络是在正常图像数据集上训练的,因此其对图像异常的特征表示预计会与教师网络不同。在训练过程中,它通过使用余弦距离作为特征之间的损失度量,强制输出与相应的特征提取器层相似。通过这种方式,它能够提高正常图像上的学生-教师(S-T)表示的相似性,同时能够区分异常图像示例。最后,在推理阶段,当正常图像和异常图像同时出现时,结果特征图之间的余弦距离可以用来指示异常的存在。
GANomaly [3]: 通过对抗训练进行半监督异常检测(GANomaly)基于传统生成对抗网络(GAN)架构添加了额外的编码器结构,计算基于潜在特征表示(z)和重建的潜在特征表示(z’)的重建误差。在训练过程中,模型旨在通过最小化两个潜在特征表示之间的差异来学习正常(非异常)数据集的分布。随后,在推理阶段,通过两个潜在特征表示之间的L2距离得到异常分数。

STFPM [48]: 用于无监督异常检测的学生-教师特征金字塔匹配(STFPM)包括一个预训练的教师网络和一个具有相同神经网络架构的学生网络。学生网络通过使特征图与教师网络中的特征图相似来进行学习。由于训练仅在正常图像上进行,因此学生网络只能输出正常区域的特征。为了检测异常,STFPM使用学生和教师网络中三个不同尺度上特征图之间的差异。随后,在推理阶段,通过将三个图与异常聚合相乘来计算最终的异常分数,不同尺度上的异常聚合有助于准确检测各种大小的异常。

每个异常检测方法都是在一组正常样本 { p ∣ p ∈ R h ′ × w ′ × 3 } \{p| p ∈ R^{h′×w′×3}\} {ppRh×w×3}构造为时空对象表示,如3.1节所述。

4. Evaluation

本节介绍用于评估的数据集、实施细节和最终实验结果。

4.1. Evaluation Dataset

LTD数据集[33]包含了在2020年5月14日至2021年4月30日期间跨越188天的红外(热)监控图像,共有1689个两分钟的剪辑,以1fps的采样率进行采样,并附有4类{人类、自行车、摩托车、车辆}的边界框注释。这些图像是通过Hikvision DS2TD2235D-25/50红外(热)摄像机(长波红外(LWIR):8−14 µm)在8个月的时间里以288×384的分辨率捕获的。该数据集跨越一天中的所有时间,并在丹麦奥尔堡海港前方涵盖了各种天气条件,描绘了在静态安全监控环境中由于季节条件引起的物体和场景外观的显著变化。通过从红外(热)图像中进行对象检测来提取正常的训练样本。由于LTD数据集没有提供哪些对象是异常的信息,我们通过从视频监控场景数据集[27]中手动裁剪异常对象来构建我们自己的异常热数据集,用于验证目的。总共,我们利用了17,109个正常对象作为异常检测步骤的训练数据。

4.2. Implementation Details

我们遵循[33]中的数据集协议,选择月份中最冷的一天(二月)作为训练集,有三个变体:2月13日、对应的2月13日至20日的整个星期,以及整个2月份。在这个实验中,我们使用了每个月最冷的一天,即2月13日的红外(热)视频图像作为训练数据集。然后,我们通过将光流与红外(热)图像的外观结合起来,将其用于训练,结果是每个对象的3通道时空张量表示(即用于空间外观的1个热通道;用于水平和垂直运动大小的2个光流通道)。

由于我们的异常检测是基于对象级图像区域的,我们首先通过使用在MSCOCO [26]上预训练的Faster R-CNN [38],在我们的正常对象集上进行训练,从中仅保留边界框定位信息并丢弃分类标签,来提取大量的对象区域。我们采用SGD优化器,将学习率设置为 252 × 1 0 − 3 252×10^{-3} 252×103,动量设置为0.9,权重衰减设置为 1 × 1 0 − 4 1×10^{-4} 1×104。最后,我们以批量大小为16进行100个epochs的训练。

我们使用之前的Faster R-CNN方法获得的裁剪的对象级图像区域(即边界框)构建我们的训练数据集,并将每个图像区域的光流与其相应的光流结合起来,形成我们提出的使用[2]异常检测模型训练的输入集。

所有的实现和可视化都是在PyTorch [36]中使用单个NVIDIA 1080Ti GPU进行的。实验中使用的所有CNN都使用ImageNet进行了预训练。为了公平比较和一致性,我们对所有实验使用相同的参数;参数遵循[2]或原始工作中使用的默认值。

4.3. Quantitative Evaluation

模型性能通过对象级别的ROC曲线下面积(AUROC)、准确率、F1分数、精确率和召回率进行定量评估。我们比较了基于分类的异常检测(DFKDE [2])、基于重建的异常检测(FastFlow [51],GANomaly [3])以及学生-教师配对的异常检测方法(RD [10],STFPM [48])的使用情况。

当模型输出超过给定阈值时,将检测到异常,即 A ( x ) > ϕ A(x) > ϕ A(x)>ϕ。在执行异常检测时,得分低于计算得到的阈值的图像区域被视为正常,而得分高于阈值的区域被视为异常[2]。

表格1比较了基于红外(热)图像中对象外观的异常检测性能(仅限)和当与短期对象运动特征(通过光流,第3.2节)结合时的性能。在第一次实验中,使用红外(热)图像(IR)中的异常检测性能来提供基准性能。红外外观和基于流的运动特征(IR+Flow)的组合产生了比仅红外外观(IR)更优秀的异常检测结果。统计上,我们观察到由学生-教师配对方法提供的性能显著增加,RD方法(0.468 ⇒ 0.912)和STFPM方法(0.467 ⇒ 1.000)分别在AUROC方面。而对于准确率和F1分数,重建方法GANomaly(分别为0.853 ⇒ 0.999和0.914 ⇒ 0.999)提供了最高的性能提升。同时,在精确率和召回率方面,RD(0.889 ⇒ 0.972)和GANomaly(0.873 ⇒ 0.998)分别观察到了性能的显著提高。
在这里插入图片描述

表2显示了红外外观(IR)和结合外观和运动特征(IR+Flow)在阈值 ϕ = 0.5 ϕ=0.5 ϕ=0.5时的平均异常分数的比较。可以观察到对于FastFlow、GANomaly和RD,均出现了增加,而对于DFKDE则观察到了一个可比较的均值,表明使用运动特征(IR+Flow)可能更显著地区分异常和非异常样本。然而,尽管在AUROC(0.468 ⇒ 0.912,表1)中性能提高,但RD的性能下降(0.859 ⇒ 0.709)。
在这里插入图片描述

4.4. Qualitative Evaluation

为所有五种选定的异常检测方法提供定性结果,其中正常对象出现以绿色显示,异常对象(例如,基于我们的训练方案的大型车辆)以红色显示,并具有相关的异常分数(蓝色,归一化为范围0→1)。

检测到的异常对象,不存在于训练集中,通常对应于场景中的非行人对象(例如大型车辆)或不寻常的对象运动的外观。例如,不寻常的行人运动可能是人们随意行走、行走速度的突然变化或场景内不寻常的运动方向。

在图3中,我们可以观察到以下情况:1)正常对象出现,例如行人(图3 - 第一行);以及2)异常对象出现,例如大型车辆(图3 - 第一、第二和第三行);都被很好地检测到。大型交付车辆(图3 - 第二行)和大型建筑车辆(图3 - 第三行)被检测为异常实例,因为这些是异常检测模型观察到的新对象。此外,观察到异常检测在包含其范围内的正常像素的异常对象上表现良好。例如,大型交付车辆与正常行人之间的重叠(图3 - 第二行)有助于表1中所有模型的F1分数的性能提升。
在这里插入图片描述
图4显示了红外(热像)图像LTD数据集[33]中一个测试视频序列的连续帧。在图中(图4,上部),我们观察到通过DFKDE和RD进行的异常检测将大型车辆对象检测为异常,而行人对象保持标记为正常对象(分别用绿色和红色边界框标注)。然而,在接下来的连续帧中(图4,下部),当车辆部分被帧内的遮挡物遮挡(离开场景时),只有DFKDE方法将大型车辆对象检测为异常,而RD将相同的对象检测为正常。这些因素导致了RD的较低AUROC性能,如表1所示。
在这里插入图片描述
使用LTD数据集[33]中红外(热像)图像和光流信息的组合展示了定性评估结果,如图5所示。图5还额外展示了红外(热像)图像(IR)的视觉外观及其相应的光流特征可视化(IR+FLOW)。总体而言,图5中的定性结果表明,红外(热像)图像和光流幅度分量的结合作为短期对象运动特征的衡量方式,降低了异常检测的误报率(也反映在表1中)。在第一个例子中(图5,A和D),仅当通过光流包含运动信息时,卡车和施工设备车辆才被检测为异常。在这个例子中,大型车辆(IR+FLOW)上的流模式表明车辆正在朝着摄像机移动。在第二个例子中(图5,B),仅通过外观,行人行走被检测为正常。然而,通过运动信息(IR+FLOW),它成功地检测到了行人行走的异常场景方向。在同一个例子中,图像(IR+FLOW)上绘制了异常的流模式,表明行人正在以高速行走。在第三个例子中(图5,C),卡车在红外(热像)图像(IR)中进入帧时被检测为正常。然而,通过添加运动信息(+Flow),它被正确地检测为异常。在第四个例子中,它展示了模型在拥挤的场景中仍然可以良好运行,其中包括行人和具有与背景相似强度的异常对象(图5,E)。在第五个例子中,我们可以看到模型也会产生误报,将正常的行人行走检测为异常(图5,F)。
在这里插入图片描述

通过更仔细地观察这些误报情况,我们可以发现,即使是正常的行人行走也可能产生高速运动,这是由于他们肢体的周期性运动,尽管这种运动局限于身体的小区域。因此,可以确定在这种情况下,一些平均行走动作可能被检测为异常,从而产生这种误报结果。总体而言,大多数真正的异常对象似乎会在整个对象表面产生相关的异常流模式,如图5中所有异常对象所示。总的来说,这些例子(图3/5)说明了在红外(热像)监视图像背景下区域异常检测的性能,并且从同时使用对象外观和(短期)运动特征中获得性能优势。

5. Conclusion

在这项工作中,我们提出了在自动化视觉监控环境中的基于区域的异常检测方法,通过提出在红外(热像)图像上同时利用外观和短期运动特征。我们评估了五种半监督异常检测方法的性能,涵盖了基于分类的方法(DFKDE)、基于重建的方法(FastFlow、GANomaly)和学生-教师对模型(RD、STFPM)范式。在这项研究中,我们观察到红外(热像)对象外观和光流恢复的短期运动特征的结合,与仅使用红外外观相比,显著提高了异常对象检测性能。我们还通过定性方法展示了基于每个对象的时间一致性的异常检测。未来的工作包括利用时间场景分析来扩展这种自动异常检测方法,以实现红外(热像)监视图像中异常行为的检测。

阅读总结

  • 先用目标检测网络检测出目标,然后提取光流,将目标检测的结果与光流叠加作为输入
  • 在5个不同的视频一场检测方法中进行了实验
  • 21
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值