【Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey】

总结

1.常用的专业术语分类

–AL也称为异常分割,无监督方法(原文第一节没说为什么);
–AD异常分类,无法解释合理性;
AL:“无监督”或“半监督”,AL 的目标是仅使用无缺陷的训练样本来查找异常区域;
另一方面,AL也称为异常分割,用于产生像素级的异常定位结果。异常热图中的颜色越深,该位置越有可能出现异常。
AD:异常值检测或一类分类;它是指在图像级别将有缺陷的图像与大多数无缺陷图像区分开来的任务。

2. 背景

2.1 存在的问题和挑战

这个意思是:训练数据集中,要包含所有正常的样本,不然可能会检错。训练样本中也要有一些常见的工业场景中的噪声(比如亮度、污渍等等)

翻译

摘要

目前,在监督学习方法的帮助下,基于深度学习的视觉检测已经取得了巨大成功。然而,在实际工业场景中,缺陷样本的稀缺、注释的成本以及缺乏缺陷先验知识可能会使基于监督的方法失效。近年来,无监督异常定位算法在工业检测任务中得到了越来越广泛的应用。本文旨在通过全面调查利用深度学习在工业图像无监督异常定位方面取得的最新成就来帮助该领域的研究人员。该调查回顾了 120 多篇涵盖异常定位不同方面的重要出版物,主要涵盖各种概念、挑战、分类法、基准数据集以及所审查方法的定量性能比较。在回顾迄今为止的成果的同时,本文对未来的几个研究方向进行了详细的预测和分析。该综述为对工业异常定位感兴趣并希望将其应用于其他领域异常定位的研究人员提供了详细的技术信息。

1.介绍

基于深度学习技术的自动化视觉检测因其高效和卓越的准确性而被广泛应用于工业缺陷检测应用,包括电力设备的无人机巡检[1]、工业表面的弱划痕检测[2]、铜线缺陷的识别深孔零件[3]、玻璃芯片导电颗粒检测[4]等。现有的检查系统主要基于监督学习方法,该方法很大程度上依赖于标记数据。图像类别标签、边界框标签和细粒度像素级标签是三种经典的标签,可用的标签类型。不幸的是,上述完全监督的方法存在一些不可避免的局限性:(i)大量的注释是劳动密集型的且成本高昂。 (ii) 随着多条精密生产线工艺的改进,缺陷样品变得稀缺,给标签带来挑战。 (iii) 在完全监督学习下,需要提前知道所有可能的缺陷类型。 (iv) 标记数据时可能会无意中引入注释噪声。因此,学术界和工业界都广泛关注开发视觉检测系统的无监督技术。

1. 介绍总结

AD 任务不足以确保该方法能够识别现实工业场景中的实际缺陷位置。由于 AD 仅对图像执行二元分类,因此结果无法解释。尽管图像被归类为缺陷目录,但网络的焦点区域可能并不异常。如图 2 所示,异常检测方法倾向于将较高的值放在木材应变上,而不是真正的异常钻孔上。查找工业场景图像中的异常现象是本次调查的出发点。【也就是说,AD人为是异常图的,无法解释原理,因为网络的重点可能不在异常区域,而是其他区域】

A AD和AL

人类视觉系统具有感知异常的固有能力——人类不仅可以区分有缺陷和无缺陷的图像,即使他们以前从未见过任何有缺陷的样本,而且还可以指出异常的位置。出于同样的目的,异常定位(AL)被引入学术界,即教会机器以无人监督的方式“找到”异常区域。在深度学习方法中,“无监督”意味着训练阶段仅包含正常图像,没有任何缺陷样本。无监督范式下的AL方法首先避免了监督方法无法避免的收集异常或缺陷样本的困难;因为工业中无缺陷的正常图像远远多于异常样本,设想。其次,有监督方法中训练样本的标记成本可以在无监督方法中消除。最后但并非最不重要的一点是,无监督方法还避免了监督方法中常见的标记偏差的影响。由于训练数据只有正常类别,因此可以称为“半监督”。然而,为了与当前大多数方法统一,我们在以下内容中删除了术语“无监督”或“半监督”,仅将其称为AL。 AD 和 AL 之间的区别如图 1 所示。异常值检测或一类分类是 AD 的其他术语。它是指在图像级别将有缺陷的图像与大多数无缺陷图像区分开来的任务。另一方面,**AL也称为异常分割,用于产生像素级的异常定位结果。**异常热图中的颜色越深(如图 1 所示),该位置越有可能出现异常。
AD 任务不足以确保该方法能够识别现实工业场景中的实际缺陷位置。由于 AD 仅对图像执行二元分类,因此结果无法解释。尽管图像被归类为缺陷目录,但网络的焦点区域可能并不异常。如图 2 所示,异常检测方法倾向于将较高的值放在木材应变上,而不是真正的异常钻孔上。查找工业场景图像中的异常现象是本次调查的出发点。
在这里插入图片描述
在这里插入图片描述

2.背景

2.1 存在的问题和挑战

AL 的目标是仅使用无缺陷的训练样本来查找异常区域。异常被定义为明显偏离某些正常概念的观察结果。一般来说,工业场景中的异常分为两种类型。 (i) 具有很少语义信息的文本异常,以及 (ii) 具有大量语义信息的功能异常。为了更好地说明这种区别,我们使用 MVTec AD [20] 中的图像。纹理异常在工业缺陷检测中占很大比例,例如瓶子的裂纹、榛子上的痕迹以及木材表面的划痕。这些可以被视为整体纹理上局部像素的变体,如图 5 的第一行所示。功能异常与纹理异常不同,后者通常没有纹理变化,但包含语义信息。在图 5 的第二行中,一个细微的异常与针是否插入孔中有关。这种异常需要高级语义信息,使其比纹理异常更难检测。
在这里插入图片描述

在文献中,使用了多个更接近的术语,例如图像分割、图像显着性检测、表面缺陷检测和新颖性检测。我们在这里解释 AL 与其他术语之间的区别。图像分割是一个广泛的概念。在某种程度上,AL相当于无监督图像分割。但图像分割大多侧重于获取具有语义信息的特定对象,这可能并不异常。图像显着性检测可以定义为寻找显着性区域的任务,这些区域通常对应于图像中的重要对象。然而,有些异常可能在整个图像中并不明显,例如图5中的功能异常。表面缺陷检测和异常定位是工业场景中非常接近的概念。我们可以简单地将工业图像的异常定位视为等同于无监督的像素级缺陷检测。新颖性检测是指图像级别的分类设置,其中内点和离群点分布差异很大,这与 AD 非常相似。此外,AL在实际工业场景中还面临着以下重大挑战:

1. 训练样本分布问题
用于无监督 AL 的所有训练样本都是无缺陷的。无缺陷样本分布的平衡程度影响异常位置的判断;例如,如果训练数据中缺少特定的正常样本或区域,则训练后的模型可以将该正常样本或区域识别为异常。换句话说,目标是使机器的视角尽可能与人类的经验兼容。此外,在复杂的工业场景下,正常数据存在污染或数据噪声的可能性。成像条件(例如照明、透视、比例、阴影、模糊等)的变化可能会导致训练样本出现显着差异,不应将其视为异常。
2. 多尺度异常问题
在真实的工业场景中,一些异常现象(例如裂纹)通常很微妙,并且占据的区域很小。这些小区域甚至可能只占据整个高分辨率图像中的几个像素。因此,在异常图像中,微小的像素很容易被正常条件所淹没,而不是比异常。此外,大跨度异常在现实场景中也很常见。因此,通过考虑微小的、微妙的缺陷和完整跨度的大缺陷来定位异常是一个挑战。

3. 精细边界问题:模型的决策边界应等于理想的分布边界。然而,由于像素级监督标签的稀缺,精确异常轮廓的全面分割是异常定位的另一个挑战。目前,大多数异常定位方法的定位精度不够,与地面真实情况相差很大。

2.2 异常定位路线图

工业图像的 AL 有着简短的历史,可以追溯到 [14-16] 的研究。大多数非基于深度学习的 AL 模型依赖于稀疏编码 [14, 15] 和字典学习 [16]。自 2017 年以来,由于深度学习技术在计算机视觉领域取得的巨大成功,越来越多的深度 AL 方法 [19] 出现。 GAN 模型 [17, 22] 和 AE 重建网络 [18] 首次用于深度 AL 模型。为了一致地比较 AL 的效果,MTVec 公司提出了完整的工业 AL 数据集[20]。后来,基于特征嵌入的模型更加有效和高效,成为流行的 AL 架构。知识蒸馏[21, 26]和预训练特征比较[23,25,30]是代表性模型的例子。随后,几种基于自监督学习的方法被应用于 AL 任务 [24, 29]。基于流的模型[28]和变压器模型[27]作为更好的方法也被嵌入到AL网络中。 AL的简要年表如图6所示。尽管AL研究历史较短,但已产生数百篇论文,我们综合筛选了在著名期刊和会议上发表的有影响力的论文;这项调查重点关注过去五年中的重大进展。
在这里插入图片描述

3.分类

基于图像重建的方法
本节根据高级范式总结了无监督 AL 方法。具体来说,我们回顾了图 3 中给出的各种类型的 AL 模型,并针对每个类别都有专门的小节。在每一小节中,我们对其代表作品进行进一步细分。然而,有些工作属于多个类别。因此,在表10中,我们根据图4的维恩图来划分工作,重叠区域包括方法的交叉部分。

A. Image Reconstruction-based Approach

第一组是“基于图像重建的方法”,这是最基本的AL方法。它基于这样的想法:模型被训练为仅重建正常图像;然后当输入异常图像时,模型仍然将异常区域重建为正常,即模型无法正确重建异常图像。因此,输入图像和重建图像之间的差异代表了定位结果。如图 7 所示,输入图像在低维瓶颈层(潜在空间)上进行压缩。该模型假设数据具有高度的相关性/结构。因此,编码器将数据压缩为中间表示,然后解码器使用该中间表示来重建输入图像。


基础的AE架构

最早的普通 AE 用于脑 MR 图像的无监督异常分割 [31]。 AL 中基于工业图像重建的方法遵循了 AE 系列的这一思想。尤卡臣等人。 [32]使用卷积自动编码器(CAE)进行工业图像重建。通过锐化重建图像和输入图像之间的差异,他们生成了热轧带钢表面缺陷的最终分割结果。康等人。 [33]利用重建重叠斑块代替绝缘子图像来检测绝缘子表面缺陷,因为整个图像的直接重建很困难,而且缺陷区域通常是很小的部分。周等人。 [34] 提出了深度学习在结构混凝土缺陷实施 AL 中的应用,以促进民用基础设施的目视检查。它还裁剪输入图像,然后将补丁提供给 vanilla AE 进行重建。然而,由于复杂的工业场景,这些普通的 AE 方法可能会遇到挑战。在这里,我们总结了基于 AE 的 AL 图像重建框架的新颖设计。

1)网络结构的改进:与vanilla AE不同,提出了两个简单的结构改进,以更好地增强重建能力。第一个是跳层。 Skip-GANomaly [35]采用具有跳跃连接的编码器-解码器卷积神经网络来彻底捕获高维图像空间中正态数据分布的多尺度分布。基于对来自不同领域和复杂性的多个数据集的评估,跳跃连接提供了比普通 AE 更稳定的训练并取得了数值上更优异的结果。科林等人。 [36]提出了一种具有跳跃连接的自动编码器架构,用于工业视觉中的AD,以提高重建的清晰度。此外,一些作品扩展了AE和特征金字塔的设计结合多尺度异常感知。梅等人。 [37]使用AE重建了不同高斯金字塔级别的图像块,并合成了这些不同分辨率通道的重建结果。杨等人。 [38]提出了一种基于多尺度特征聚类的全卷积自动编码器(MS-FCAE)方法,该方法利用不同尺度级别的多个特征AE子网络来重建多个纹理背景图像。米什拉等人。 [39]专注于图像AD,使用具有多个金字塔级别的深度神经网络来融合不同尺度的图像特征。
在这里插入图片描述
然而,上述改进结构在复杂的纹理或对象数据集上效果不佳。由于一些研究表明,由于AE采用瓶颈层来重建输入图像,因此很难管理其泛化能力。当AE的泛化能力强大时,异常特征会与正常特征混淆,导致网络的输出准确地再现输入。如图 8 所示,这些模型倾向于直接复制暂存区域(用红色矩形标记)作为输出,从而导致丢失异常。由于上述原因,许多当代方法试图限制潜在空间表示。

2)约束潜在空间的表示:根据如何处理特征,我们进一步将这些方法分为记忆库、聚类和特征建模。

1.记忆库
记忆库采用字典学习的形式来取代潜在空间的原始表达。龚等人。 [40]是第一个使用内存库来检测异常的人。该模型中的记忆库模块是一个矩阵,每个元素类似于字典学习中的单词,能够编码无缺陷的样本特征。特别是,在训练阶段仅使用有限数量的单词进行重建,从而促使每个矩阵元素代表每一行。因此,正常样本被索引到最可比较的元素以进行良好的重建,而异常样本和重建之间的差异被放大为异常分数。后来很多人追随作品[41,42,43,44]采用了这种设计。与之前的内存库方法不同,SAP2 [45] 根据用于 AD 和本地化的预训练特征构建了内存库。 Liao [46] 通过在批量操作中选择和加权来学习潜在表示,提出了一种新的 AL 框架。该模型本质上是存储体的简化版本。

2.聚类
潜在空间特征的聚类是增强模型辨别力的另一种方法。杨等人。 [38]在MS-FCAE中提出了特征聚类模块,以增强潜在空间中编码特征的可辨别性,从而提高了纹理背景图像的重建精度。 [48]提出了一种基于异常特征编辑的用于纹理缺陷视觉检测的对抗网络,其中AE模块的潜在空间也利用了特征聚类。此外,已经提出了一些针对潜在空间的经典聚类操作,包括标准 K 均值聚类[50]。
3. 特征建模
c)对潜在空间的特征进行建模也是限制表示的有效方法。在[47]中,使用名为 PixelSail 的深度自回归模型来估计离散潜在空间概率模型。它确定在检测阶段偏离正态分布的潜在输入空间区域。具体地,然后从正态分布对偏差代码进行重采样并解码以提供最接近异常输入的恢复图像。通过比较恢复图像和异常图像来识别异常区域。此外,还提出了一些对潜在空间特征进行建模的方法,包括高斯描述符[51]甚至图网络模型[52]。

由于基于图像重建的方法通常采用像素级比较度量,因此 AE 网络选择具有 L1 距离和 L2 距离的训练损失。这导致输入和输出的比较仅在像素级别并且缺乏语义信息。因此,一些基于损失函数的改进被提出。对于这种方法,关键问题是考虑图像重建效果中的语义信息。我们在下面讨论这个问题。

3)新的损失函数:Bergmann 等人。 [18]是第一个在图像重建中使用结构相似性(SSIM)度量的人。与逐像素比较相比,SSIM 损失考虑区域的亮度、对比度和结构信息。与 L2 损失相比,SSIM 损失显着提高了 AL 在纹理数据集中的性能。在[53]中,提出了一种新的多尺度梯度幅度相似度(MSGMS)损失,它更加关注重建中的结构差异。 MSGMS损失是通过计算原始图像的梯度来构建的和重建图像。使用 MSGMS 时,MVTec AD 的整体 AUROC 提高了 6.5%。中西等人。 [54]设计了一种新的损失函数,称为加权频域(WFD)损失,它将重建损失计算从图像域转换到频域。它提供了更清晰的重建图像,提高了异常定位的准确性。

简要总结:表2概述了这三种基于图像重建的方法,并分析了它们的优缺点。虽然基于图像重建的方法通常非常直观和可解释,但其性能受到限制,因为AE没有引入任何先验知识,其效果仅取决于潜在层对无缺陷特征的表达能力。

B. 基于生成模型的方法

为了克服基于AE的方法重建性能差的缺点,生成模型被引入工业AL领域。生成模型背后的基本思想是根据训练数据对真实数据分布进行建模,然后利用学习到的模型和分布来生成或建模新数据。该框架中 AL 的关键是显式或隐式地获取无缺陷数据的特征分布。由于生成模型仅生成正常样本,因此生成或重建样本与输入之间的差异就是异常区域。与仅考虑最终重建的 AE 不同,生成模型可以反映潜在或特征空间中的这种差异。根据模型的不同,我们进一步将这些方法分为VAE(变分自动编码器)、GAN(生成对抗网络)和NF(标准化流)。

有三种生成模型的方法

在这里插入图片描述
1)变分自动编码器(VAE):如图9所示,VAE为潜在空间中的正态样本引入了先验分布,通常是多维标准正态分布。这表明编码器输出不再是简单的潜在空间,而是估计分布,因此该方法是基于 AE 的方法中潜在空间特征建模的子集。因此,vanilla VAE 和 AE 之间的差异是用于评估估计分布和先验分布之间差异的额外损失,例如 Kullback-Leibler (KL) 散度损失。松原等人。 [55]首先引入了工业 AL 的 VAE,并在玩具数据集和现实世界制造数据集上进行了评估。科扎默尼克等人。 [56]提出了一种基于 VAE 的 KTL 涂层视觉质量控制模型。通过计算解码器返回的分布的负对数似然,成功检测到包含表面缺陷的异常。尽管普通 VAE 成功定位了异常,但 [55, 56] 中异常区域的定位精度相对较差。一些研究人员尝试在 VAE 中添加其他机制以实现更细粒度的 AL。
a) 基于注意力的方法:Liu 等人。 [57]首先提出了一种使用基于梯度的注意力计算来生成 VAE 视觉注意力的技术。注意图的生成方法与grad-CAM[58]类似。具体地,基于计算潜在空间变量相对于编码器的最后一层特征图的梯度来获得相应的权重系数。然后通过对编码器最后一层的特征图进行加权来生成最终的注意力图。获取的注意力图中的明显区域是检测异常图像时的异常区域。文卡塔拉马南等人。 [59]提出了一种带有引导注意力的卷积对抗性VAE(CAVGA),它用潜在的卷积变量来定位异常以保留空间信息。它按照[57]的主要思想生成注意力图,期望训练网络生成的注意力图能够覆盖整个图像。
b) 基于梯度的方法:根据 Zimmerer 等人的说法。 [60],相对于输入图像的损失梯度给出了朝向正常数据样本的方向,其大小可以指示样本的异常程度。受益于这种传导,Dehaene 等人。 [61]提出了基于梯度下降的VAE。从[61]中的重建图像可以看出,基于梯度下降的方法比普通 VAE 提供了更好的重建质量。在[123]中,Chu等人。提出训练过程中损失值的变化也可以作为识别异常数据的特征。该算法在两个数据集 MVTec AD [115] 和 NanoTWICE [16] 上与其他基线进行了彻底的评估和比较,这两个数据集涵盖了多种不同的对象和纹理。
2)生成对抗网络(GAN):基于GAN的模型根据其网络结构分为三种类型,如下所示。
a) Vanilla GAN:Schlegl 等人。 [17] 是第一个应用 GAN 来定位异常的人。该方法中的生成网络G接收来自潜在空间的随机采样样本作为输入,其输出必须尽可能接近训练集中的真实样本。判别网络 D 从真实样本或生成网络的输出中获取输入,其目标是尽可能区分生成网络的输出与真实样本。整个损失包括两部分:G的重建损失和D的特征差异损失。生成网络G的输出与输入图像之间的差异决定了异常区域。后来,后续的几项工作[62, 63]采用了这种模型来解决工业表面缺陷。
b) GAN 与 AE 相结合:由于普通 GAN 采用​​了在推理阶段,以单张图像作为输入,网络必须频繁重复以找到最佳的潜在空间向量,以达到所需的生成结果。针对普通 GAN 需要不断更新参数的缺点,一些联合 AE 结构的 GAN 方法被提出。
i) 改进生成器 G 的输入是训练基于 GAN 的 AL 网络最直接的方法,其中输入更改为真实的无缺陷图像,而不是从潜在空间中随机采样的样本,因此生成网络 G相应地改为完整的编解码结构,如图10(A1)所示。这种改进相当于在图像重建方法上采用了判别器D来区分图像是真实输入的无缺陷样本还是重建样本。 Balzategui 等人使用了这种基于 GAN 的 AL 方法。 [64]实施单晶太阳能电池的质量检验和Hou等人。 [43]形成AL的分而组装的框架。此外,一些方法使用有缺陷的合成样本作为生成器G的输入,如图10(A2)所示。这表明在这种情况下发电机正在实施修理或修补。赵等人。 [65]通过修复样本中的缺陷区域建立网络,然后将输入样本与恢复样本进行比较以指示准确的异常区域。特别是,Komoto 等人提出了一种去噪自动编码器生成对抗网络。 [66],通过恢复有缺陷的产品图像来检测缺陷区域,该图像将人工缺陷添加到无缺陷的产品图像中。
ii)改进生成器 G 是另一种常见方法,旨在对重建潜在空间特征施加约束。阿克凯等人。 [67]提出了GANomaly网络,它是自动编码器之后的附加编码器,形成“编码-解码-编码”结构,如图10(B1)所示。第二个编码器的输出和第一个编码器的输出之间的差异用于评估输入是否异常。烟盒异常定位[68]、工业表面检测[69]和纹理表面检测[70]也遵循这种类似的结构。此外,施莱格尔等人。提出了另一种方案,即 f-AnoGAN [22],它将训练好的解码器固定在生成器 G 中,并将其重新用作潜在空间重建网络的生成器。值得注意的是,采用了在潜在空间中构建特征向量的重建训练的策略,如图10(B2)所示。
iii)改进判别器D一般是通过采用多个判别器来增强GAN网络的判别能力。如图10(C1)所示,Zhang等人。 [71]提出DefGan通过潜在空间坑操作和权重共享设计重建图像的附加分支,与原始输入图像一起形成新的判别损失。李等人。 [72]通过随机采样构造一个新的潜在空间特征,设计了一个额外的潜在空间鉴别器,将其与原始生成器的潜在空间特征一起输入到设计的鉴别器中进行鉴别,如图10(C2)所示)。表 3 总结了过去的代表性工作,包括导入的基于 GAN 的 AL 模型的结构、年份和描述。
c) CycleGAN:得益于发达的 GAN 技术,利用 muti-GAN 在不同特征域之间建立映射变得更容易实现。 CycleGAN 框架由四个 CNN 组成,即两个生成器和两个判别器。当生成器尝试学习各个域之间的映射时,鉴别器尝试区分一个图像域内的真实图像和合成图像。一般来说,基于 CycleGAN 的方法有两个不同的领域。于等人。 [73]提出了一种应用于道路裂缝无监督 AL 的对抗性图像频率变换(AIFT)网络。无缺陷图像域与合成缺陷图像域之间的另一种转换是一种经典方法,这也是缺陷检测中生成缺陷样本的主要方式[74]。一些工作,例如[75]和[76],将CycleGAN应用于轨道缺陷检测和纤维异常检查。然而,基于 CycleGAN 的方法在特定数据集上进行了验证,并且在常用的公开可用数据集(例如 MVTec AD [115])上缺乏严格的结果。因此,其有效性还需要进一步验证。此外,值得注意的是,数据样本的缺乏给工业场景中同时训练两个 GAN 网络带来了挑战。
3)归一化流(NF):与之前引入的无法估计准确数据可能性的生成模型不同,归一化流(NF)[77]是学习数据分布和明确定义的密度之间的转换的神经网络[78]。前向传递将数据投影到潜在空间中,以计算给定预定义潜在分布的数据的准确可能性。相反,从预定义分布中采样的数据可以映射回原始空间以生成数据。对于 AL 任务,异常区域是通过测量测试图像的特征与无缺陷图像的估计分布之间的距离来获得的。基于 NF 的方法不是直接在基于 VAE 或 GAN 的方法中处理图像,而是对特征执行 AL。目前大多数基于 NF 的方法首先利用预先训练的网络来提取正常图像特征,然后使用 NF 模型来准确估计相应的分布。第一个是 DifferNet,由 Rudolph 等人提出。 [78]。该模型利用基于归一化流的多尺度图像特征密度估计。特别是,AL 结果是通过将负对数似然损失反向传播到输入图像来生成的,类似于 grad-CAM。然而,该框架侧重于图像级异常分类,并未针对图像上的缺陷定位进行优化。 MVTec AD 中的异常定位区域与地面实况范围不准确。 2021 年,三种基于 NF 的 AL 方法通过三种不同的方式进行了改进,并在多个数据集上取得了令人惊讶的结果。古多夫斯基等人。 [79]设计了基于条件归一化流的CFLOW-AD模型AL 框架。特别地,提出了使用传统位置编码(PE)的2D形式的条件向量,然后将解码器耦合层内的中间向量与条件向量连接起来。 CFLOW-AD 为著名的 MVTec AD 实现了新的最先进水平,本地化率为 98.62%AUROC 和 94.60%AUPRO。为了增强结合全球和局部图像上下文的细粒度表示,Rudolph 等人。 [80]提出了一种全卷积跨尺度归一化流(CS-Flow),联合处理不同尺度的多个特征图。 CS-Flow 模块中的卷积在两个级别上执行,第二级别的尺度之间存在交叉连接。然而,许多非异常背景仍然出现在最终的定位结果中。最近,Yu 等人。 [28]提出了一种名为Fastflow的新型AL网络,其检测原理与之前的工作类似,只不过它设计了基于“3×3”和“1×1”卷积的2D流。它首先利用视觉变换器作为正常样本的特征提取器,然后将特征输入到后阶段流模型中以估计概率分布。该模型在 MVTec AD 中取得了 98.5% 像素 AUROC 的优异结果。总之,四种典型的基于流的 AL 方法的比较如表 4 所示。
简要总结:表 5 简要概述了这三种基于生成模型的方法,并简要讨论了它们的优缺点。 VAE或GAN对图像中正常区域的生成效果较差,容易导致误检。目前,最好的定位结果是通过 NF 实现的,它结合了下一小节中讨论的基于深度特征嵌入的方法。
C. 基于深度特征嵌入的方法
虽然图像重建或生成模型在多个工业场景中取得了成功,但一些工作观察到,由于缺乏特征级别的辨别信息,该方法通常会产生不正确的重建结果。如图 11 所示,重建部分忽略图像的细节(用绿色矩形框标记)。榛子基部的无缺陷区域没有得到很好的重建,从而导致过度检测问题。
在这里插入图片描述
为了克服图像重建或生成模型的限制,另一条研究提出采用基于深度特征嵌入的方法,该方法通常分为两部分:特征提取和异常估计。因此,通过比较目标图像和正常图像的深度嵌入特征来生成最终的像素级异常图。特征提取部分通常选择在ImageNet等大规模数据库上进行预训练,或者是自监督学习。特别地,上面提到的NF也可以看作是基于深度特征嵌入的方法与生成模型相结合。根据异常估计的范式,我们进一步将这些方法分为“基于知识蒸馏”和“基于深度特征建模”。 1)基于知识蒸馏的方法:为了更好地嵌入深层特征信息,这里利用了学生-教师框架。教师模型充当预训练的特征提取器,学生模型用于估计 AL 的评分函数。伯格曼等人。 [21]提出了uninformed Students,首次采用知识蒸馏模型进行异常定位。其特点是聘请一名教师和多名学生。然后对学生网络进行训练,以回归描述性教师网络的输出,该网络是在自然图像的大型补丁数据集上进行预训练的。特别是,当学生网络的输出与教师网络的输出不同以及不同学生网络的输出存在差异时,异常就会被局部化。然而,该模型仅采用网络最后一层的输出作为知识蒸馏的特征,并采用多补丁方法来更好地定位异常,这给计算时间带来了负担。为了解决上述限制,Salehi 等人。 [26]提出了一种多分辨率知识蒸馏方法,其中考虑蒸馏过程中多个中间层的特征,与仅利用最后一层的输出相比,可以更好地利用专家的知识和更显着的差异。特别是,它的 AL 图是通过将损失反向传播到输入来生成的,这也导致其定位效果受到限制。王等人。 [81]通过引入学生-教师特征金字塔匹配(STPM)模型进一步扩展了多尺度AL方法的技术。他们的AL图是通过直接计算教师网络和学生网络的多特征层之间的差异来生成的。该模型能够实现准确的定位结果,并避免输入图像的路径大小设置。在 MVTec AD 上,它获得了 98.5% AUROC 和 92.1% PRO 分数。此外,一些工作还将知识蒸馏框架扩展到AE或VAE以获得更好的重建结果。钟等人。 [82]评估了异常值暴露式蒸馏网络(OE-SDN) 模仿由 AE 引起的轻微扭曲,称为风格翻译。该方法利用 OE-SDN 和 AE 输出之间的差异作为替代异常分数。德哈内等人。 [83]提出了一种特征增强VAE(FAVAE)架构,由具有VAE架构的特征提取模块组成,其中提取模块的输出与VAE中解码器的多层输出相关。可以看作是知识的蒸馏操作。
2)基于深度特征建模的方法:在此流程中,首先需要为输入图像构建特征空间,然后通过特征建模实现特征的测量或比较。这些技巧可以是聚类,或者一些概率分布拟合,或者一些学习模型。与知识蒸馏方法相比,它通常采用一个端到端网络,不区分教师和学生网络。科恩等人。 [25]提出了一种基于对齐的方法来检测和分割图像内的异常。它构建了一个特征金字塔使用预先训练的 Wide-ResNet50 模型并利用这些特征图来查找 K 个最近的无异常图像。德法尔等人。 [23] 设计了一个补丁分布建模 (PaDiM) 框架,该框架首先使用预训练的 CNN 生成特征,然后通过对每个位置应用多元高斯分布来建模正态性。在测试阶段,通过测量每个位置的特征与“标准特征模板”的马哈拉诺比斯距离来生成最终的异常图。由于这种方法是 NF 出现之前最好的报告结果,因此后续的一些工作 [85,87,88,89] 采用了这种设计。由于该方法对特征图的固定位置进行建模,因此它仅适用于对齐的数据集。在[84]中,Yang等人。提出了基于AE的特征重建来替代之前的高斯分布建模策略。然而,AL 的结果并没有优于 PaDiM。它在 MVTec AD 的典型数据集 Tile 和 Wood 上表现不佳。米什拉等人。 [85]提出了VT-ADL,它结合了传统的具有 Vision Transformer (ViT) 优势的基于重建的方法。使用 ViT 对输入图像进行编码,然后将其生成的特征输入解码器以重建原始图像。此外,高斯混合密度网络对变压器编码特征的分布进行建模,以估计该潜在空间中正常数据的分布。其结构复杂,但表明 MVTec AD 上异常图的可视化效果较差。在[86]中,多层特征稀疏编码(MLF-SC)被用于AD。 AL结果仍然依赖于图像像素级的重建效果。金等人。 [87]遵循PaDiM的思想,设计了一种扩展到半正交嵌入(SOE)的随机特征选择方法,以避免多维协方差张量的计算复杂性。 MVTec AD、KolektorSDD [117] 和 KolektorSDD2 [118] 取得了良好的结果。罗斯等人。 [30]遵循SPADE的思想,提出了AL的PatchCore。它采用从 ImageNet 预训练网络中提取的标称补丁级特征表示,并通过核心集子采样实现最小运行时间,以实现较低的计算成本。在MVTec AD上,该方法实现了99%以上的图像AD AUROC,但定位结果不准确。李等人。 [88]也遵循PaDiM的思想,并使用自组织映射(SOM)而不是多维高斯。该模型在 MVTec AD 上的像素级 AUROC 比原始 PaDiM 稍好。里佩尔等人。 [89]引入了对特征提取部分中学习到的表示进行微调,从而改进了 AL 的原始 PaDiM。严等人。 [90]提出了一种采用自适应注意力级别变换(ALT)策略的 AL 多级图像重建和特征比较方法。 ALT 同时调整重建级别和特征测量尺度的权重,以利用一致的特征级别进行重建和 AD。
泰拉尼安等人。 [91]设计了一个反向框架来检测图像中的异常,该框架在生成最终异常图之前计算错误特征图的数量。然而,该方法在 MVTec 纹理数据集的 Tile 和 Wood 上仅实现了 0.77 和 0.86 的 AUROC。最近,郑等人。 [92]重新审视了 PaDiM 中未对齐数据的问题。他们提出了“集中分布”(FYD)模型,该模型采用从粗到细的过程。在提取特征之前,设计了图像级粗对齐模块,可以对输入图像进行强制对齐。然后在精确对齐阶段利用逐像素非对比学习,实现了密集特征的精细对齐。该方法在 MVTec AD 上实现了 98.2% AUROC。然而,从AL热图中可以看出,最终结果中存在一些干扰和粗缺陷区域。总之,表 6 列出了不同最先进作品的关键要素之间的比较。该表显示大多数方法选择 Wide-ResNet50 作为预训练模型,并通过 Mahalanobis 生成最终的异常图距离。除了受益于预训练特征之外,基于深度特征建模的模型可能具有更显着的潜力。简要总结:表 7 简要总结了几种基于深度特征嵌入的 AL 方法的优缺点。表 6 还包括代表深度特征建模的优点和缺点。这些模型试图解决以下两个问题。第一个是生成细粒度且抗噪声的定位结果。第二个是扩展模型以处理多尺度异常和不对齐的数据集。我们相信它将引起学术界和工业界越来越多的兴趣。
D. 基于自监督学习的方法 自监督学习(SSL)是从未标记图像中学习视觉特征,然后将其应用于相关视觉任务的过程。有两种基于 SSL 的 AL 方法代理任务和对比学习。代理任务相对侧重于借口任务的开发。另一方面,对比学习主要与网络设计有关。 1)代理任务:借口任务通常采用多种不同的形式,但都归结为预测或恢复输入图像中的隐藏区域或属性。最近基于 SSL 的 AL 方法依赖于三个主要代理任务:图像修复、相对位置预测和属性恢复。
a) 图像修复是最常见的代理任务。基于图像修复的自监督与之前基于图像重建或生成的方法相同,只是称呼不同。通过修复有缺陷的合成图像,赋予网络模型重建正常样本区域和修复异常区域的能力。这种方法可以在测试阶段修复类似的异常区域。常见的缺陷图像合成方式如图12所示。最早的缺陷图像是通过添加随机噪声生成的;例如,中泽等人。 [93]在晶圆图像中使用合成噪声图像进行AD,以及Mei等人提出的多尺度AE方法。 [37]也采用了类似的合成噪声图像。这种方法中使用的网络模型也称为“去噪编码器”。此外,还应用了一些数据增强方法来生成有缺陷的训练样本,以提高网络的修复能力。塔耶等人。 [94] 和李等人。例如,[95]随机擦除正常样本中任意形状的区域,然后用固定颜色填充它们,如图12(b)所示。然而,这种设计没有考虑图像中存在的有利于后续网络恢复的结构信息。因此,扎夫塔尼克等人。 [53]设计了一种网状随机掩模,如图12(c)所示。掩模区域的数量和比例被参数化。在 MVTec AD 上,该方法实现了 94.2% 的像素 AUROC。严等人。 [96]提出了一种多尺度条带掩模,用于模拟不同尺度尺寸的大跨度缺陷,如图12(d)所示。最近的一些作品尝试生成真实的有缺陷的图像,而不仅仅是使用无意义的黑白块图像。李等人。 [97]首先在原始无缺陷图像上裁剪区域,然后以随机角度将其粘贴到图像上,形成新的异常图像,如图12(e)所示。宋等人。 [98]也遵循这个想法。特别是,一些方法利用更复杂的背景融合方法,通过选择不同的背景图像、不同的大小、亮度和形状来模拟缺陷;然后添加图像融合以产生更真实的缺陷图像,如图12(f)所示。例如,施吕特等人。 [99]使用泊松融合,Zavrtanik 等人。 [29]选择各种纹理图像作为有缺陷的背景,Haselmann 等人。 [100]借鉴了数据增强中的样本合成方法。理论上,越接近真实合成缺陷的效果,图像重建和恢复能力应该越通用。然而,在实际场景中,缺陷的类型和形状往往是不同的。
不可预测,因此很难确定哪种合成方法是最佳的。如表10所示,更真实的缺陷合成方法与良好的定位结果之间没有关系。一般来说,这些方法往往需要与设计合适的恢复网络相结合才能达到更好的效果。 b)相对位置预测:与之前介绍的仅考虑输入和输出之间的映射的模型不同,有另一种方法来评估邻域斑块的空间信息。最具代表性的方法是 PatchSVDD [24],它引入了一种自我监督的特征提取方法。它首先将图像划分为3×3的块区域,并将中心图像块周围的八个块按顺序排序。然后,训练该模型的编码器来提取信息特征,以便后面的分类器能够正确预测补丁的相对位置。然而,由于补丁区域的设置,此类方法的AL结果通常非常粗糙且不细粒度。皮尔奈等人。 [27]设计了一种基于图像恢复的InTra网络。具体来说,它针对以w×w为中心的块区域,可以通过其周围块的图像信息来恢复,因此它也利用了邻域信息。里斯泰亚等人。 [101]为 AL 设计了一个自监督预测卷积注意块(SSPCAB)。对于应用扩张卷积滤波器的每个位置,该块学习使用上下文信息重建屏蔽区域。请注意,这种方法对于利用扩张卷积的区域特征来建模更广泛的邻域至关重要。
c) 属性恢复的特点是使用图像中的隐藏属性而不是屏蔽区域。这些属性通常包括颜色和方向。费等人。 [102]提出了一种属性恢复网络,将传统的重建任务转变为恢复任务。它首先更改输入的特定属性(例如,删除颜色、更改方向等),然后将图像输入 AE 进行重建。乌鲁塔斯等人。 [103]提出了一种裂脑卷积自动编码器方法来检测和定位缺陷。采用两个不相交的卷积自动编码器网络来从另一个子通道预测图像的子通道。每个编码器实现不同颜色通道之间的转换。该设计利用了颜色特性,提高了异常图像的定位精度。
2)对比学习:如前所述,代理任务侧重于在像素级别生成与训练数据相似的图像。另一个改进是学习相似实例之间的共同特征并区分非相似实例之间的差异。哈恩等人。 [104]直接应用对比预测编码(CPC)[105]来检测和分割图像中的异常。它将图像分割成补丁,将每一行补丁解释为一个单独的时间步长。在测试阶段,将测试图像块与无缺陷图像中随机选择的图像块进行比较,计算对比度损失函数,即InfoNCE。当超过一定阈值时,将当前图像块判断为异常区域。因此,该方法由于基于补丁的操作,影响了检测效率,且定位精度不高。在[92]中,精细对准部分所提出的 AL 网络是基于 SimSiam [106] 设计的。它输入同一特征的两次随机变换的结果,使用相同的编码器f提取特征,并将它们变换到更高维的空间。使用预测器 g,它转换一个分支的结果并将其与另一个分支的结果进行匹配。这种方法充分利用了 Siamese 网络的自然建模不变性。 Gui [45] 遵循了 AL 连体架构的相同思想,只是用自监督模块替换了原始预测器。尤亚等人。 [107]提出了一种基于 SimCLR [108](视觉表示对比学习的简单框架)的 AL 方法。通过在训练数据集中生成一对负图像,设计模型将正常样本与局部增强样本进行对比。该模型在 MVTec AD 上实现了 93.4% 的像素 AUROC。自监督学习框架仍然是研究的热点,我们相信这些新颖的模型可以展示和验证 AL,这将构成相关的未来方向。
简要总结:表 8 总结了两种基于自我监督学习的方法及其优点和缺点。自监督学习框架仍然是研究的热点问题。我们相信这些新颖的模型展示并验证了 AL 的潜力,并构成了相关的未来方向。

E. 基于一类分类的方法 一类分类方法通常用于图像级 AD,典型包括 OCSVM [109] 和深度 SVDD [110]。 Deep SVDD 训练一个网络,然后将训练数据映射到特征空间中的一个小超球面。超球面之外的数据称为异常。对于 AL,基于一类分类的方法通过将图像划分为补丁并将补丁分类为异常或正常类别来定位异常区域,从而实现粗略结果。 Liu等人采用了这种形式。 [111] 和Wang等人。 [112]分别定位钢表面和风力涡轮机叶片上的异常区域。此外,还为 AL 提出了几种深度 SVDD 的改进版本。与深度SVDD相比,Patch SVDD[24]检查每个补丁以定位缺陷,并采用自监督学习,允许特征形成多模态集群,从而增强AD能力。此外,Hu等人将深度SVDD方法嵌入到预训练特征比较中。 [113]。它基于深度 SVDD 有效地估计像素异常。利兹纳斯基等人。 [114]提出了一种完全卷积数据描述(FCDD),它是深度 SVDD 的修改,以便变换后的样本本身就是与下采样异常热图相对应的图像。虽然这种方法生成全分辨率异常热图,但由于固定高斯核的上采样操作,异常区域的范围并不准确。

BriefSummary:主要的 AD 方法可用于像素级 AL,因为我们可以将完整图像分割成多个块,然后对图像块执行 AD。 AD算法集中于整个图像的语义信息;因此,细微异常区域的语义信息可能会被忽略。在这里我们观察到将 AD 与一些自监督策略或预训练的深度特征嵌入方法相结合是提高定位性能的一种有前途的方法。

实验
A.近期工作使用的数据集 有五个数据集可用于基于无监督学习的 AL 数据集,它们在图像数量、质量、分辨率和纹理信息方面存在显着差异。 NanoTWICE [16]是第一个提出应用AD问题的数据集。它包含从扫描电子显微镜捕获的 45 个纳米纤维材料图像,像素为 1024×3696。图像的背景是非循环的连续纹理,缺陷的大小各不相同。 MVTec AD[115]是目前最常见的工业AL数据集,包含15个类别,每个类别约有240张正常图像用于训练,100张缺陷图像用于测试。原始图像分辨率在700×700和1024×1024像素之间。与现有的专注于纹理缺陷的数据集相比,该数据集有十个对象和五种纹理类型。这五个类别涵盖不同类型的规则(地毯、网格)或随机(皮革、瓷砖、木材)纹理,而其余十个类别代表各种类型的物体。其中一些物体是刚性的并且具有固定的外观(瓶子、金属螺母),而另一些物体是可变形的(电缆)或包含自然变化(榛子)。异常样品的测试图像包含各种缺陷,如划痕、凹痕、结构差异等,共有73种不同类型的缺陷,平均每类缺陷约5种。该数据集的更多详细信息可以在[115]中找到。然而,该数据集成像良好且照明均匀,而图像位置在某些数据类型中是固定的,使其更加理想化。
Mishra 等人最近发布了 BTAD(beanTech 异常检测)数据集。 [85]。它包含 2830 张图像,分为三个不同的类别。这三类的分辨率分别为1600×1600、600×600和800×600像素。每个类都由无缺陷的训练和测试图像组成,类似于 MVTec AD 数据集,但未说明缺陷类型。织物数据集[116]来自Tsang等人构建的香港大学自动化实验室样本数据库,包含256×256的织物图像,属于三种图案:点状、星状和盒状图案织物。每个图案有 25 个无缺陷样品和 25 个有缺陷样品。缺陷样品中出现的缺陷有断头、破洞、网状多重、粗条、细条五种。所有有缺陷的织物图像都有相应的真实值。该数据集是经典的纹理数据集,经常用于织物缺陷检测工作。纹理数据集也是由 MVTec 公司创建并首次在 AE-SSIM 中提出[18]。该数据集包含两种机织物纹理。所有图像的大小均为 512×512 像素,均作为单通道灰度图像获取。除此之外,一些广泛用于其他监督工业视觉任务的数据集也用于 AL,例如 KolektorSDD [117]、KolektorSDD2 [118]、RSDD(铁路表面离散缺陷)[119] 和磁瓦 (MT) 缺陷这些数据集中的集合用于 AL 模型训练。然后,剩余的样本(主要是有缺陷的)被用作测试集。 KolektorSDD [117]和KolektorSDD2 [118]是在真实工业场景中收集的金属表面数据集。 KolektorSDD 相对简单,只有一处细小的划痕缺陷。 KolektorSDD2 是一个真实世界的复杂且注释良好的现代表面检测数据集。它是由有缺陷的生产项目的彩色图像构建而成,使用视觉检查系统捕获并由公司注释。这些缺陷用细粒度的分割掩模进行注释,这些掩模的形状、大小和颜色各不相同,范围从微小的划痕到大表面缺陷上的斑点。 RSDD [119] 和 MT Defect [120] 数据集也经常用于评估异常定位。 RSDD数据集包含两种在真实铁轨上采集的数据集,其纹理和光照变化很大。 MT 缺陷数据集包括五种类型的缺陷:气孔、断裂、不均匀、磨损和裂纹,所有这些缺陷都有不同的分辨率。这些缺陷图像包含一系列工业噪声,例如光强度的变化、缺陷的规模和纹理的复杂性。但这些并不包含许多类型和变化的缺陷。在表9中,我们列出了AL社区常用的多个图像数据集,并具体指出了它们的下载链接、描述和缺陷。
B. 评估标准 AUROC(接受者操作特征曲线下的面积)、PRO(每个区域重叠)分数和 IoU(并集交集)是 AL 中使用的三个主要评估指标,如下所述。接收者工作特征曲线 (AUROC):AL 最常见的指示是每个像素的接收者工作特征曲线 (AUROC) 下的面积。 AUROC值高表明模型受到的影响较小在识别异常时通过不同的阈值设置。正常像素被识别为负,而异常像素被识别为正。真阳性率 (TPR) 是在评估类别中被正确分类为异常的像素的百分比,而假阳性率 (FPR) 是被错误分类为异常的像素的百分比,表示如下。
其中,TP、FP、TN 和 FN 分别表示真阳性、假阳性、真阴性和假阴性。 AUROC值可以通过扫描阈值范围并获得TPR和FPR的排序序列值来确定。然而,在表面 AD 设置中,只有一小部分像素异常,AUROC 无法准确反映定位精度。原因是误报率主要由大量非异常像素决定,因此尽管存在误报检测,误报率仍保持较低水平。因此,尽管实现了约 97% 的像素 AUROC,但一些最先进的方法无法产生细粒度的 AL 结果。正如可视化异常图中所示,它们通常会产生更多干扰并引入过多背景区域。尽管如此,AUROC 仍是目前使用的主导评估指标。每个区域重叠 (PRO) 分数:由于 AUROC 倾向于大异常,因此 PRO 分数也用于异常定位。为了计算 PRO 指标,首先对异常分数进行阈值化,以便对每个像素是否存在异常做出二元决策。对于真实情况内的每个连接组件,计算与阈值异常区域的相对重叠。许多方法 [21、23、50、84、88、116] 也使用 PRO 分数来评估模型的性能。
Intersection-over-Union (IoU):AL 可以被视为类似于监督学习中的分割任务。 IoU 作为分割任务的主要指标,同样可以用来评估 AL 的性能。目前,只有极少数作品使用这种评估方法,例如[49]、[59]和[98]。
C. 性能比较 MVTec AD 数据集上的性能:表 10 和表 11 总结了当代 AL 方法(主要在 2017 年至 2021 年发布)在 MVTec AD 数据集上的性能。我们观察到,大多数这些方法在 AE 的帮助下实现了基线性能。一些尝试致力于设计更强大的模块,例如图像修复和 GAN。 RIAD [53] 在 MVTec AD 数据集上的像素 AUROC 达到了 94.2%。然而,实验结果表明,这些纯粹的基于 AE 的重建或生成方法很难在 MVTec AD 数据集上表现得足够好。
CNN 对阵。维电视。 NF:我们还分析了在基于深度特征嵌入的方法下使用不同网络模块的 MVTec AD 数据集的性能。代表性方法的像素 AUROC (%) 结果如表 12 所示。两种最佳算法 CFLOW-AD [79] 和 Fastflow [28] 均采用 NF 模块训练方法。 UTRAD [124] 和 InTra [27] 是两种利用 ViT 的方法,利用 Transformer 层构建重建模型。其他算法使用简单的 CNN 模块。 ViT 可以通过注意力机制捕获各种各样的视觉区域,而 NF 则直接估计正常样本的概率。表12表明,结合ViT或NF可以显着提高定位精度。事实上,未来我们鼓励更多地关注使用 NF 和 ViT。
附加数据与没有附加数据:工业场景中的 AL 是一个非常具有挑战性的问题。单纯依靠图像级数据重建或生成很难取得好的效果。大多数现有方法都需要大型预训练模型中使用的附加数据、通过自我监督方式进行数据合成或设计代理任务的帮助。在图 14 中,我们展示了一个条形图以方便执行,通过 MVTec AD 使用和不使用额外数据的模型的比较。可以看出,使用额外数据的主要方法优于不使用额外数据的方法。运行时分析:工业图像中AL的实时特性是一个特点。因此,在表 13 中,我们提供了一些主要 AL 方法的运行时分析。如该表所示,基于深度特征嵌入的 AL 方法达到 20 fps。特别是,CFLOW-AD-WRN50 [79] 达到了 27 fps,展示了其实时缺陷检测的能力。
五、结论与展望
本文重点介绍了利用深度学习在工业 AL 方面取得的最新成就。在这里,我们还根据各种方法在 AL 中的作用提供了一些结构分类,分析了它们的优点和局限性,总结了现有流行的工业 AL 数据集,并讨论了最具代表性的方法的性能。尽管取得了重大进展,但仍有一些问题尚未解决。本节将重点介绍这些问题并提出一些未来可能的研究方向。我们预计这项研究不仅可以提高对工业 AL 的学术理解,还可以鼓励未来的研究工作。
功能异常:从上表提到的优缺点可以看出,许多方法的定位效果在某些特定数据集上显着下降。例如,DFR[84]的缺点是在晶体管数据集上的性能较差(参见表6、表10)。这是因为表 10 中显示的大多数数据集都是纹理缺陷,例如划痕和凹痕,而不是功能异常。功能异常违反了底层约束,例如,允许的对象位于无效位置或缺少所需的对象。在工业场景中,这两种类型同样重要。目前,Bergmann等人已经有一种方法。 [126]联合检测结构和功能异常。然而,功能缺陷的研究将是未来的一个重要方向。
发布丰富的异常定位数据集:与真实的行业场景相比,公共异常位置数据集还不够庞大和丰富。应该提供具有变化的成像条件(例如光照、透视、比例、阴影、模糊等)的更复杂的数据集,以更客观地评估 AL 算法的效果。现有的MVTec AD成像单一,图像质量较好,部分类别对准。一些现有的 AL 方法甚至利用这一特性来增强性能。尽管前景光明但这些方法无法适应真实复杂的工业场景。因此,有必要拥有一些真实且丰富的工业AL数据集。基于视觉变换器的方法:基于ViT的方法由于其优越的性能目前在计算机视觉领域占据主导地位。一些基于 ViT 的工作[27,124,79]也被提出来解决 AL 问题。 ViT 在长距离特征建模方面具有独特的优势。综合考虑多尺度异常区域是ViT可以改进的方向。而且,AL最好的框架是基于NF的生成模型。因此,ViT与NF的结合也一直是一个重要的方向。有意义的模型评估:如上所述,高像素AUROC值和细粒度定位性能之间存在重叠,这可能会导致模型有效性问题。许多方法仍然利用像素-AUROC评估指标,但AL的可视化结果表现不佳。建议未来的工作在构建模型时考虑精细边界问题或选择 IoU 指标进行模型评估。准确的异常类型:真实工业场景中的异常类型多种多样,不同异常类型的重要性也不同。这个问题挑战了 AD 或定位的经典范式,需要开发能够区分异常类型的学习方法。已经有方法[122]对异常类型进行聚类并将异常数据分组为语义一致的类别,但这只是一个开始。无监督3D异常定位:随着3D传感器的普及,工业场景中越来越多的缺陷检测任务正在从2D场景转向3D场景。相应地,3D场景中的AL将成为发展的趋势。最近,MVTec 公司于 2021 年底公开了 3D AD/AL 数据集[123]。因此,我们相信 3D AD/AL 是未来的一个相关方向。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值