CVPR |2021 Anomaly Detection in Video Sequences: A Benchmark and Computational Model阅读笔记

论文地址:https://arxiv.org/abs/2106.08570
代码地址:https://github.com/wanboyang/anomaly_detection_LAD2000

1.研究背景

现存的异常检测数据集主要有两个问题:
(1)规模有限
(2)训练集只包含指示整个视频中存在异常事件的视频级别的标签,但是缺少精确的持续时间的注释。

异常检测能够自动预测给出视频序列中的异常事件,其目标是高效的预测出异常和正常时间并判断出视频中异常事件的种类,一个很少发生的或者发生概率很低的事件被认为是异常事件,由于未知事件的类型和缺乏明确的定义,导致很难建立起有效的异常检测模型,传统的异常检测主要有两种方法:
(1)采用重建的方法,他们关注点在于对视频序列中的正常模式建模,其目标是学习一个对于正常模式的特征表示模型,在开始时,他们利用正常事件和异常例子的差别去确定最终异常分数和测试数据,如重建损失和特定的阈值,这种方法的关键是他们严重依赖于训练数据。
(2)将异常检测看作一个分类问题,视频序列的异常分数取决于通过训练的分类器提取的特征如光流直方图(HOF) ,或者动态纹理(DT),这种方法高度依赖于训练数据,并且提取出有效的区分度高的特征也是很重要的。

目前的异常检测是基于将学习到的与正常模式不同的模式都看作是异常事件的假设,可能会出现不同场景中的同一活动可能被看作是正常的也可能被看作是不正常的。异常检测最主要的挑战就是缺乏大规模的带有精细的标注异常检测数据集。目前存在的数据集在数据规模或标注的丰富性上存在一定的缺陷,并且一般不超过100个视频序列,这对于深度学习的模型来说,并不能满足其对于训练数据的要求,并且这些数据集只存在视频级的标注,对于异常的定义也不清楚,并且一些模型的应用具有一定的局限性,只能用于特定领域,如朝光谱检测、暴力检测、异常检测等等。

2.研究内容

  1. 提出了一个新的大规模的异常检测数据集(LAD)作为视频序列异常检测的基准,它具有如下特点:
    (1)它包含2000个视频序列,包含像撞车、火灾、暴力等14种正常的异常的视频片段。并且场景种类繁多。
    (2)它提供了标注数据,包括视频级的标签和帧级的标签。

  2. 提出了一个异常检测的多任务的深度神经网络,采用多任务联合学习的方案学习局部和全局的时空特征。采用I3D提取局部的时空语义特征,并将提取到的特征输入到CRNN提取全局的语义特征。

3.相关工作

(1)目前的异常检测数据集如图所示:
在这里插入图片描述UCSD:汽车或自行车异常出现在街道上被看作是异常事件
Avenue:人们奔跑,闲逛,投掷等动作被看作是异常事件。
LV:包含真实的视频序列,人与人之间的争斗,人与人之间的冲突,以及故意破坏被看作异常事件。
ShanghaiTech:来自于真实的视频序列,通过监控视频捕获的,跑步,或自行车,滑冰被看作异常时间
UCF-Crime:包含13个真实的异常种类,包括虐待、逮捕、纵火、袭击、事故、入室盗窃、爆炸、打架、抢劫、枪击、盗窃、商店盗窃等异常行为。
LAD :包含143个异常种类,包括碰撞、拥挤、破坏、坠落、坠落、战斗、火灾、跌入水中、受伤、游荡、恐慌、偷窃、践踏和暴力。
(2)异常检测的方法
1.通过提取目标轨迹的检测视频中的异常活动,当目标的轨迹预测与学习到的正常目标轨迹不一致时,就被认为是异常的
Cosaret al.:通过对目标的轨迹(速度,方向,身体移动)分析和像素级分析(表现)提出了异常检测的无监督的结构
Piciarelliet al.:对视频序列的移动目标中提取的正常轨迹进行聚类,并利用单分类的SVM 来学习正常的目标轨迹,最后将预测对象的轨迹与具有阈值的聚类模型进行比较,从而判断是否为异常行为。
Wuet al.利用拉格朗日粒子轨迹的混沌不变量来表示密集场景中的异常活动。
Patinoet al.通过检测移动目标轨迹的方向和速度的变化,来预测异常事件。
Jianget al.提出了一种上下文感知的异常检测方法。通过跟踪视频序列中的所有运动目标,考虑不同级别的时空上下文来检测异常事件。
Morriset al.研究监控对象的正常重复运动模式特征,以检测异常
Yiet al.提出了一种基于静止人群的行人行为异常检测模型
2.使用全局特征表示异常检测的复杂场景,然后使用单分类的SVM 来学习正常的模式,模型预测出来的具有异常值分数的事件被认为是异常事件。
Liet al.提出了一种联合异常检测模型,该模型将时空异常与混合动态纹理(MDT)相结合,用于正常人群活动建模。
Mehranet al.引入了社会力量模型,以刺激人群的正常行为。使用词袋的方法将视频帧分为正常或异常。
Cuiet al.定义了交互能量的概念,以表示周围区域和目标之间的当前交互,当物体的能量和速度急剧变化时,被认为是异常。
Adamet al.在视频序列中使用基于多个本地监视器的低级信息进行异常检测。
Saligramaet al.利用时空特征和k近邻方法设计异常检测模型
Benezethet al.使用正常事件训练时空协同矩阵,并使用该矩阵和马尔可夫随机场检测异常事件。
Kimet al.混合使用概率PCA模型来表示局部光流模式,并使用该表示和马尔可夫随机场来定义正常模式。
Anticet al.通过统计推断定位异常,引入了一种概率模型
3.深度学习方法
级联深度神经网络(DNN)、GAN、 Convolutional LSTMs Auto-Encoder (ConvLSTM-AE) 、TSC\MIL

4.研究方法

(1)数据集

异常的种类:碰撞、拥挤、破坏、跌倒、坠落、战斗、火灾、跌入水中、受伤、游荡、恐慌、盗窃、践踏和暴力。

标注:异常检测需要帧级别的标签确定异常事件发生的时间段,视频级别的标签识别异常的种类,因此在数据集中提供了帧级的和视频级的标注。

对于一些视频序列的异常率较高是因为有的异常事件持续时间较长,如火灾,但是一些的事件的的帧的占比较低,是因为这些事件的持续时间较短,如摔倒可以立刻站起来。

对于目前的数据集存在一个视频序列中只标注一个事件的问题,如将爆炸视为异常时间,将该视频序列标记为爆炸,但是对于爆炸之后产生的火灾却视为是正常的。
在这里插入图片描述(2)异常检测的方法
在这里插入图片描述

该网络由两部分组成,首先通过I3D网络提取局部特征,再通过ConvLSTM提取全局特征。给出一个具有M 帧的视频序列,划分为N个片段,每个片段包含m帧,先将这些片段送入到I3D提取局部特征,然后再将提取的K个连续帧的局部特征送入到全局上下文感知流提取全局特征,这里采用的是ConvLSTM,此处使用的是三维数据,并使用卷积操作。
ConvLSTM的计算如下,
在这里插入图片描述
Xt,Ht表示ConvLSTM在时间t的输入和输出,it,ft,ot,Ct分别表示输出门,输入门,遗忘门,记忆门
损失函数:

  1. 对于异常检测和分类之间的内部关系,用于识别异常的种类,我们使用交叉熵损失函数:
    在这里插入图片描述

  2. 将异常分数预测建模为回归问题,我们使用smooth损失函数,
    在这里插入图片描述

  3. 最终的损失函数如下所示(λ12被视为超参数),

在这里插入图片描述

5.结论

本文创建了一个大规模的异常检测数据集,并且该数据集包含了视频级和帧级的标注,可以用于全监督学习,同时提出了一种用于异常检测的多任务模型,能够高效的学习视频序列的局部(I3D)和全局(ConvLSTM)上下文特征。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值