【论文笔记】CVPR2023：Revisiting Reverse Distillation for Anomaly Detection

最新推荐文章于 2024-06-22 10:51:25 发布

yjttjyyy

最新推荐文章于 2024-06-22 10:51:25 发布

阅读量1.9k

点赞数 9

文章标签：论文阅读深度学习机器学习视觉检测人工智能

本文链接：https://blog.csdn.net/yjttjyyy/article/details/132524335

版权

CVPR2023：Revisiting Reverse Distillation for Anomaly Detection

背景

最近效果好的方法（例如patchcore）基于存储器（memory bank）框架，导致显著延迟并使它们在实际情况下难以应用。

RD：仅依赖蒸馏任务和OCBE（one class bottleneck embedding）模块无法为学生提供紧凑的表示。此外，我们没有观察到使用OCBE块丢弃异常模式的明确机制，正如作者所声称的那样。

本篇文章基于可逆知识蒸馏（RD）

关键点

高精度、低延迟

将多任务学习与RD相结合；

特征紧凑任务

异常信号抑制任务

RD

RD由三个部分组成：预训练固定教师网络（作为编码器）、可训练的单类嵌入模块（OCBE）、学生网络（作为解码器）
在这里插入图片描述

OCBE

通过Resnet的最后一个块用于特征提取，通过将特征压缩到低维空间并消除异常信号来增强异常的差异。

采用余弦相似性损失作为蒸馏损失：

$\mathcal{L}_\mathrm{KD}=1-\sum_{k=1}^K\{\frac{(f_E^k(h,w))^\top\cdot(f_D^k(h,w))}{\left\|f_E^k(h,w)\right\|\left\|f_D^k(h,w)\right\|}\}$

其中 $K$ 表示用于训练的特征层数量，h和w表示第 $k$ 个特征图的高度和宽度

方法

在这里插入图片描述

网络结构如上图，相比RD主要改进在于伪异常机制的引入、以及中间映射层的引入。

伪异常机制

RD假设学生网络被限制接受异常信息。然而RD没有设计损失函数防止异常信息传递给学生。所以在异常判断时异常模式会大量流向学生。

这篇文章在教师网络的各个块之后集成映射层，映射层负责限制异常信息流到OCBE模块。

使用simplex noise方法模拟伪异常（比较发现这个方法比高斯噪声更加自然）

多尺度映射层

异常信号抑制

映射层在接收各自老师块的特征作为输入后，将它们映射到紧凑的特征表示中，然后再输入到OCBE模块中。

映射层由Convolution, InstanceNorm, LeakyReLU 组成

损失函数

$\mathcal{L}=\mathcal{L}_{\text{KD}} + \alpha \mathcal{L}_{\text{ssor}} + \beta \mathcal{L}_{\text{Recon}} + \gamma \mathcal{L}_{\text{Con}}$

蒸馏损失

继承自RD，指导学生学习

自监督最优传输损失

确保从正常样本投影的特征表示彼此接近。

最小化特征嵌入之间的距离等价于最小化它们的概率测度[24]。

论文采用去偏Sinkhorn散度（最优传输距离的一种变体）。以自监督方式训练投影层，通过最小化概率度量之间的去偏Sinkhorn散度，确保等大小正常图像的小批次内的成对特征空间接近。

“π be the transportation plan, and C denotes some ground cost to transport a unit of mass between probability distributions α and β”

$\begin{aligned} \mathcal{S}_{\varepsilon,\rho}(\alpha,\beta)=& \mathrm{OT}_{\varepsilon,\rho}(\alpha,\beta)-\frac{1}{2}\mathrm{OT}_{\varepsilon,\rho}(\alpha,\alpha) \\ &-\frac12\text{OT}_{\varepsilon,\rho}(\beta,\beta)+\frac\varepsilon2\|\langle\alpha,1\rangle-\langle\beta,1\rangle\|^2 \end{aligned}$

其中1. $\mathrm{OT}_{\varepsilon,\rho}(\alpha,\beta)$ ：这是一个优化可题中的呆种形式的最优输运（Optimal Transport）操作，它衡量了从分布α转移到分布 $\text{B}$ 的代价

2. $\frac12\mathrm{OT}_{\varepsilon,\rho}(\alpha,\alpha)$ 和 $\frac12\mathrm{OT}_{\varepsilon,\rho}(\beta,\beta)$ 是两个分布 $\alpha$ 和 $\beta$ 自身的最优输运的一种度量，被减去以减少重复计算

3. $\frac\varepsilon2\|\langle\alpha,1\rangle-\langle\beta,1\rangle\|^2$ ：这部分考虑了分布 $\alpha$ 和 $\beta$ 的总质量之间的差异，其中 $\langle\alpha,1\rangle $ 表示分布 $\alpha$ 的总质量，$\left\langle\boldsymbol{\beta},1\right\rangle $表示分布 $\beta$ 的总质量。这部分有助于保持两个分布的总质量在一定程度上保持一致

$\mathcal{L}_\text{SSOT}=\frac1m\frac1k\sum_{i,j=1}^m\sum_{k=1}^KS_{\varepsilon,\rho}(\sigma(\Phi_k(f_{i,k})),\sigma(\Phi_k(f_{j,k})))$

重建损失

$\mathcal{L}_\text{Recon}=\frac1k\sum_{k=1}^K(1-\cos(\Phi_k(f_{i,k}),\Phi_k(\tilde{f}_{i,k})))$

训练过程中，通过伪异常输入图像向特征空间注入异常信号，以促进投影层学习如何从伪异常区域重建正常特征。加快了投影层在推断过程中抑制异常信息的能力。

也就是说使得映射层可以从异常特征重建出正常特征，使得异常特征不要流入OCBE模块

对比损失

$\mathcal{L}_\text{Con}=\frac1k\sum_{k=1}^K\max(0,\cos(\Phi_k(f_{i,k}),\tilde{f}_{i,k})-f)$

增强映射层对正常图像的紧凑学习（compact learning），最大化伪异常和正常之间的距离，其中 $f$ 是margin

经过投影层之后的正常特征要尽可能的远离未经过投影层的异常特征

其中最优传输损失使得正常特征更加紧凑；重建损失和对比损失针对伪异常进行训练，分别使得投影层：1.可以从异常信息重构正常空间2.得到的特征与处理前的异常特征距离远

实验

backbone采用WideResNet50；未使用数据增强

MVTecAD结果：AUROC：99.44

pixel AUROC：98.25；PRO：94.99（最高可达95.20）

分析

在这里插入图片描述

通过计算样本特征之间的成对MSE，评估投影空间的紧凑程度，可以看到哦RD++的特征更为紧密

计算每个异常样本与每个正常样本之间的均方误差。 RD ++的类间均方误差分布也比RD更为紧凑。

总结

通过提出伪异常机制、多个投影层的集成、紧凑正常特征和异常特征缓解的多任务学习，提升了RD的性能。

Limitation

随机噪声可能是次优的

yjttjyyy

关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
【论文笔记】CVPR2023：Revisiting Reverse Distillation for Anomaly Detection

RD++通过提出伪异常机制、多个投影层的集成、紧凑正常特征和异常特征缓解的多任务学习，提升了RD的性能。
复制链接

扫一扫