Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection

标题:跨模态融合和注意机制的弱监督视频异常检测

源文链接:Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection (thecvf.com)icon-default.png?t=O83Ahttps://openaccess.thecvf.com/content/CVPR2024W/MULA/papers/Ghadiya_Cross-Modal_Fusion_and_Attention_Mechanism_for_Weakly_Supervised_Video_Anomaly_CVPRW_2024_paper.pdf

发表:CVPR-2024

4.实验和结果 

4.1实施细节

提出的模型在用于暴力检测任务的基准XD-Violence数据集[36]和用于裸体检测任务的NPDI色情数据集[2, 3]上进行了训练/测试。以下为这些数据集的详细信息:

XD-Violence暴力检测:XD-Violence数据集[36]是一个从现实世界来源(包括电影、网络视频、体育广播、安全摄像头和CCTV)收集的真实原始视频的多样化集合,总共包含4754个视频(相当于217小时)。它涵盖了六种类型的暴力事件,如虐待、汽车碰撞和枪击,并附有视频级别的标注。测试集由300个正常视频和500个暴力视频组成,而训练集则包括2049个正常视频和1905个暴力视频,所有视频均在视频级别进行标注。

NPDI裸体检测:NPDI色情基准数据集[2, 3]大约包含来自400部电影的80小时视频内容。这些内容被分类为色情或非色情,每个类别中视频数量相等。在非色情部分中,有200个视频被标记为“简单”或“困难”。"简单"视频是随机选择的,而"困难"视频则是通过诸如“海滩”、“摔跤”和“游泳”之类的文本搜索查询获得。尽管"困难"视频可能包含身体皮肤,但它们不包含明确的裸体或色情内容。

训练/评估细节
提出的模型使用上述数据集和基于多实例学习的损失函数(即公式13)进行训练,批量大小设置为128。在训练过程中,我们采用了Adam优化器,学习率初始设定为5×10⁻⁴,并使用余弦退火调度器调整,训练总周期为50个epoch。为了与现有最先进(SOTA)方法公平比较,所提出框架同样利用预训练的I3D模型[11]来提取视觉特征(FV),而VGGish网络[7]则用于提取音频特征(FA)。在提议的框架中,我们使用了LeakyReLU激活函数,其负斜率为-2。在CFA模块的Prefix-Tuner中,我们经验性地选择了前缀维度为64。瓶颈适配器的大小设为256,并采用GELU激活函数,同时设置了0.1的dropout率。表示负曲率的常数(η)在训练期间被设定为-1。

暴力检测任务比较:我们选择了无监督方法(例如,SVM基线和Hasan等人[6]的方法)、基于视频模态的弱监督方法[13, 28, 28-30, 34, 36, 38, 40]以及基于视听模态的弱监督方法[1, 19, 36-38, 40]进行对比。帧级平均精度(AP)指标被用作比较这些方法的标准,更高的AP值意味着更佳的性能

裸体检测任务比较:我们将提议的方法与现有方法[8, 16, 21, 26, 27, 31]进行比较。然而,这些方法在其网络中使用了单模态方法。此外,我们还重新在NPDI数据集上训练了最近的多模态SOTA方法HyperVD[21]。对于比较,我们使用了标准的评价指标,即AP、准确率、精确度和召回率,其中这些评价指标的更高值表明性能更优越。

所有实验均使用PyTorch实现,网络在配备40GB NVIDIA A100 GPU的设备上进行训练,批量大小为128。

4.2暴力检测任务的结果分析

表1展示了在XD-Violence测试数据集上,我们的提议方法与最先进方法在AP指标上的对比。值得注意的是,我们的方法不仅超越了基于视频模态和基于视听模态的方法,而且取得了86.34%的AP得分,比之前表现最佳的HyperVD[21]高出0.67%。与仅基于视频模态的方法相比,我们的方法显示出了4.24%的提升。

图3展示了我们的方法与现有方法,即HyperVD[21]和Wu等人[36]在视觉预测分析上的对比。对比基于从XD-Violence测试数据集中几个视频获得的异常分数。从图中可以看出,提议的方法不仅能够识别出暴力事件区域,而且还产生了比其他方法更优且更精确的异常分数。

另外,图4提供了我们提议的方法与HyperVD[21]在XD-Violence数据集测试视频中对正常和暴力特征分布的t-SNE可视化[32]的对比。可以看到,提议的方法有效地聚类了暴力和非暴力特征,并且在训练过程后扩大了无关特征之间的距离,这比HyperVD[21]方法表现得更为显著。

4.3裸体检测任务的结果分析

本节提供了NPDI测试数据集[2, 3]上裸体检测任务的分析,与现有方法[8, 16, 21, 26, 27, 31]进行对比。表2展示了在AP、准确率、精确度和召回率方面的对比。可以注意到,在所有评价指标上,提议的模型都以显著的差距超越了其他方法。具体来说,我们的模型达到了99.45%的AP、94.12%的准确率、95%的精确度和93.75%的召回率。值得一提的是,与其它方法相比,它在AP上提高了至少1.95%,在准确率上提高了0.42%,在精确度上提高了2.2%,在召回率上提高了3%。

此外,图5展示了提议方法与HyperVD[21]在NPDI数据集上的异常分数可视化。该可视化表明,提议的方法能为正常片段中的常规段落生成最小的预测,同时有效处理裸体内容内的极端情况。这一分析也证明了提议的方法不仅能够准确识别特定区域,而且提供的异常分数比HyperVD方法[21]的异常预测更加精确。

图6提供了基于t-SNE[32]的提议方法与HyperVD[21]的视觉对比。在这里,我们比较了提议方法和重新训练的HyperVD[21]与从NPDI数据集测试视频中得到的对应正常和暴力特征分布。很明显,提议的方法在聚类裸体和正常特征方面比HyperVD[21]方法表现得更好。

4.4.消融分析

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值