【视频异常检测】-Supervised Masked Convolutional Transformer Block for Anomaly Detection 论文阅读

何大春

已于 2024-03-11 23:59:40 修改

阅读量1.3k

点赞数 22

分类专栏：论文阅读文章标签： transformer 论文阅读深度学习神经网络人工智能

于 2023-12-11 16:12:03 首次发布

本文链接：https://blog.csdn.net/weixin_44609958/article/details/134893243

版权

论文阅读专栏收录该内容

144 篇文章

订阅专栏

文章信息
在这里插入图片描述
发表于：IEEE Transactions on Pattern Analysis and Machine Intelligence January 2024
CCF A
原文链接：https://ieeexplore.ieee.org/document/10273635
代码链接：https://github.com/ristea/ssmctb/

Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection

摘要
I. INTRODUCTION
III. METHOD
- A. Motivation and Overview
- B. Architecture
IV. EXPERIMENTS AND RESULTS
V. CONCLUSION
阅读总结：

摘要

基于重构的方法：

该文提到了一类成功的异常检测方法，它们基于学习对被屏蔽的正常输入（例如，补丁、未来帧等）进行重构，并将重构误差的幅度作为异常程度的指示器。

创新性方法：

文中提出了一种新颖的自监督掩蔽卷积变换块（SSMCTB），在核心架构层面包含了基于重构的功能。该自监督块非常灵活，可以在神经网络的任何层级进行信息掩蔽，并与各种神经架构兼容。

方法扩展：

文章将之前的自监督预测卷积注意块（SSPCAB）扩展为具有3D掩蔽卷积层、通道注意的Transformer以及基于Huber损失的新型自监督目标。

任务拓展：

提到作者将该块应用于更广泛的任务，包括医学图像和热视频中的异常检测，而之前的研究主要集中在RGB图像和监控视频上。

集成到多种模型：

文章展示了SSMCTB被集成到多个最先进的神经模型中，以进行异常检测，并在五个基准测试集上取得了显著的性能改进。

总体而言，这项研究展示了SSMCTB的通用性和灵活性，以及其在多个任务和模型中的性能提升。
在这里插入图片描述

I. INTRODUCTION

本文的贡献：

我们引入了遮罩卷积操作，并将其集成到一个新颖的自监督遮罩卷积变换块中，展现了其天然的异常检测能力。
我们将这个块封装到多个先进的异常检测方法中[42]，[44]，[55]，[56]，[57]，[58]，[59]，[60]，[61]，[62]，显示了在多个模型、基准和领域中显著的性能提升。
我们将2D遮罩卷积扩展到考虑3D上下文的3D遮罩卷积，并将新的3D自监督遮罩卷积变换块集成到两个用于异常检测的3D网络中[55]，[56]。
我们用执行通道注意力的transformer模块替换了SSPCAB中的Squeeze-and-Excitation模块[65]。
我们用Huber损失替换了SSPCAB中的MSE损失，在自监督学习过程中改善了对异常值的敏感性。
我们进行了更全面的实验，包括先前缺失的领域（医学图像、热红外视频）的新方法和基准。
我们进行了广泛的消融实验，包括对提出的自监督块的不同变体。
我们用异常标签注释了Seasons in Drift [64]数据集的一个子集（一周的视频），获得了一个新的用于热红外视频异常检测的基准。

III. METHOD

A. Motivation and Overview

我们提出了一种自监督的掩码卷积transformer块（SSMCTB），旨在基于上下文信息学习重构被掩码信息。为了准确解决其掩码输入的重构问题，所提出的块需要使用上下文并学习局部模式的全局结构。因此，它固有地学会应对Sabour等人[101]提出的CNN缺乏对局部特征的全局排列的适当理解的问题。为了将这种学习能力嵌入到我们的块中，我们将SSMCTB构建为具有扩张的掩码卷积核的卷积层，后跟执行通道注意力的transformer模块。我们在我们的块上附加了一个自监督损失函数，以最小化掩码输入与预测输出之间的重构误差。

B. Architecture

2D Masked Convolution：

如图2所示：在这里插入图片描述
具体可参考上一篇论文阅读：
Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection 论文阅读

3D Masked Convolution：

在这里插入图片描述
和2d卷积类似，用空间上四个角落的的卷积值代表中间的maskd。
Channel-wise transformer block：
就是将之前SE注意力换成了transformer，本质上还是通道注意力，换成transformer变成通道间自注意力了。
结构如下图所示：
在这里插入图片描述
之前的结构也可以参考上一篇论文：
Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection 论文阅读

IV. EXPERIMENTS AND RESULTS

这里放上一张视频异常检测的结果
在这里插入图片描述

V. CONCLUSION

在这篇论文中，我们通过引入SSMCTB，即一个由掩膜卷积层和通道注意力变换模块组成的新型神经块，对我们之前的工作[54]进行了扩展。这个神经块通过对其自身的重建损失进行自监督训练，它能够预测卷积感受野中心的掩膜区域。为了展示在异常检测中使用SSMCTB的优势，我们将该块集成到一系列图像和视频异常检测方法[42]，[44]，[55]，[56]，[57]，[58]，[59]，[60]，[61]，[62]中。
此外，我们还包括两个新的基准数据集，涉及我们先前工作[54]中未考虑的领域，即医学图像和热成像视频。
此外，我们将二维掩膜卷积扩展为三维掩膜卷积，从而将这种自监督块的适用性扩展到三维神经架构。为了展示新的3D SSMCTB的实用性，我们将该块集成到两个用于图像和视频异常检测的三维网络（3DDRAEM和SSMTL++v2）中。我们在多个基准数据集和底层模型上的实证结果表明，在绝大多数情况下，SSMCTB都能带来性能改进。此外，借助SSMCTB的帮助，我们能够在广泛使用的Avenue和ShanghaiTech数据集上获得新的最先进水平。我们认为这是一项重大成就，没有SSMCTB是无法实现的。
在未来的工作中，我们的目标是将我们的新型自监督块应用于除了异常检测之外的其他任务。例如，由于自监督损失是相对于掩膜区域计算的，我们的块可以集成到各种神经架构中，以在将相应模型应用于下游任务之前执行自监督预训练。有趣的是，可以在模型的多个架构层次上执行预训练，即在将块添加到模型的任何位置。

阅读总结：

创新点：

通道注意力换成了自注意力。
2D Masked Convolution拓展成了3D
引入到了医学和热成像的异常检测领域，并提出了一个用于热成像异常检测的数据集（下载链接）

我也使用了这个模块，使用作者在文章多次提到的的工作：
在这里插入图片描述
参考文献44的代码也是开源的，感兴趣的可以看看，用44的代码在ped2上跑了一百多个epoch结果，都选了最好的结果，如下：
这是原始的网络结构最好的结果：

这是加了ssmctb后最好的结果：

没提升，作者本省也没对ped2进行测试，可能不适合这个数据集吧。