IKD:基于信息知识蒸馏的图像异常分割


摘要

由于神经网络容量与知识量不一致,导致基于知识蒸馏的无监督异常分割方法出现过拟合的问题,并没有受到重视。本文提出一种信息性知识蒸馏方法(IKD),通过提取信息性知识并提供强监督信号来解决过拟合问题。
提出了一种新的上下文相似度损失方法 ,从正常数据流中捕获上下文信息,帮助学生网络了解正常数据流的结构;一种新的自适应的困难数据挖掘方法,鼓励把更多的注意放在更有信息价值的困难数据上,避免对简单样本的持续优化。


一、本文方法

1.核心原理概述

在这里插入图片描述
如上图所示,IKD包括两个阶段和模块,有着在大型自然图像数据集上预训练的描述性教师网络T和随机初始化的学生网络S。在训练阶段,正常图像被传送到MHKD。MHKD提取T和s各层次的特征并进行归一化,AHSM根据特征距离的统计信息从这些特征中挖掘困难样本。同时使用像素级损失和CSL来约束困难样本之间的相似性。
S的参数通过反向传播更新,而T的参数保持冻结。经过训练阶段,S和T提取的正常特征的回归误差较低,异常特征的回归误差明显较高。然后,在推理阶段,使用MHASF计算异常分数。

2.MHKD

给定一个正常图像I,提取的特征映射为
在这里插入图片描述
其中FT和FS分别表示教师和学生网络的特征提取器。假设提取到的特征映射fT和fS的分辨率为H×W,维数为D,那么第(i,j)位置的特征fij可以通过插值运算映射到输入图像的位置。
归一化特征可表示为:
在这里插入图片描述
考虑到不同层次,表示为第l层的特征映射。
为了让S和T提取的正常数据特征相似,使用逐像素的L2回归误差来约束学生网络S,然后将像素级相似度损失函数Lps定义为:
在这里插入图片描述
第二个公式中的H表示层次结构中的数量,第l层次特征映射的大小为H(l) × W(l),通过这一差分约束,减小了 S和T之间的回归误差。

3.CSL

刚刚提到的L2损失无法访问正常数据流的上下文信息,上下文信息有助于捕捉T和S之间的高阶相似性,当T对两个输入产生相似的特性时,S也应该产生相似的特征,那么,S可以更好地学习T产生的正态数据流形的结构,并获得所有正态样本的总体低回归误差。
受此启发,提出了一种新的损失函数Lcs,称为T和S之间的CSL。
因为在这里插入图片描述被正则化了,余弦相似度等于L2的距离,Lcs可以使用余弦相似度编码,余弦相似度可以使用内积有效地计算:
在这里插入图片描述
上式中QT(l)和QS(l)分别是在这里插入图片描述的变体。
G (l) T中的条目(i, j)编码了由第i和第j个位置引出的各自教师层次所提取的特征的相似性。因此,用Lcs表示的CSL可以定义为:
在这里插入图片描述
第一个公式是对G (l) T和G (l) S在不同位置之间的L2距离求平均值;第二个公式是跨不同层次的求和操作。Lcs旨在提高S和T之间的上下文相似度。直观地看,在Lcs的约束下,T和S生成的正规数据流形的结构趋于相似。Lps只帮助S减小一些正态数据点的回归误差,而Lcs将正态数据流形的上下文信息提取到S中。最后,训练S的总损失定义为:
在这里插入图片描述
γ是超参数用于平衡权重。

4.AHSM(图比较直观)

AHSM是一种有效的困难样本挖掘方法,该方法使用基于每个小批特征距离统计信息的自适应余量m来挖掘困难样本。通常,基于小批的方法的估计是不稳定的,例如,当在一个小批中采样极端数据时,统计信息可能会有很大的噪声。指数移动平均线(EMA)是解决这一问题的常用解决方案[37]。具体地说,设m(l,t)为第l层第n次迭代时的余量,其计算式为
在这里插入图片描述
第四个公式是计算第l层第t次迭代时逐像素的L2距离,值越大表示相应的样本没有得到很好的研究。
第二个公式是在这里插入图片描述的平均值,第三个公式是的方差。
最终推出第一个公式:α是控制m平滑度的动量参数;β是控制硬样品百分比的超参数。当β设为高值时,只提取极硬的样本。那么,每层的第(i,j)的困难样本可以用下式获取:
在这里插入图片描述
其中 i ∈{0, . . . , H(l)}, j ∈{0, . . . , W(l)},(ih.jh)为困难样本位置。只用困难样本来计算损失:在这里插入图片描述
这可以防止学生网络S在简单的样本上进行持续优化,并鼓励对具有丰富信息的样本进行大量关注。

在这里插入图片描述
上面四幅图形象地展示了对CSL和AHSM的解释。
图(a)是数据的原始分布图,黄色是教师网络提取的特征。红色是学生网络提取的特征。
图(b)是AHSM的挖掘困难样本的原理图。黄色虚线圆表示根据每个小批量的统计信息计算出的边际,白色小圆圈是被忽略的简单样本,黄色和红色小圆圈是提取到的困难样本(在黄色虚线圆外部)。
图(c)是损失函数Lps的作用。让困难样本的学生网络的特征向教师网络靠拢,保证学生网络使用困难样本
持续优化。
图(d)是损失函数Lcs的作用。它鼓励包含更高阶信息的Gs与Gt更相似。

5.MHASM

经过训练阶段,S和T产生相似的正常数据特征。因此,根据S的回归误差,得到单个图像像素级的异常分数AS:
在这里插入图片描述
注:在这里推理阶段,教师网络提取正常样本的逐像素特征应该是与学生网络提取到的基本一致,异常分数很低;而异常部分提取到的特征,教师和学生网络应该区别较大(个人理解:教师网络的参数是冻结的,应该对异常部分更加敏感,而学生网络受过“特训”,提取的正常区域的特征与异常区域的特征相似)
为了获得更好的性能,融合来自多个层次的遗产分数是一个很自然的想法:
在这里插入图片描述
上采样函数将异常分数调整为与双线性插值输入图像相同的大小。虽然加法运算已经取得了很好的性能,但它很可能得到次优解。
乘法操作可以帮助所有层次结构对最终结果做出相同的贡献。此外,乘法运算抑制了每个层次中过多的分割结果,因为只有当每个层次中对应的异常分数高时,融合异常分数才会高。因此,在本研究中使用乘法运算,而不是加法运算,最终的融合异常分数公式如下:
在这里插入图片描述
在这里插入图片描述

上图展示了加法运算和乘法运算的定量结果:
(a)异常检测图像(b)红色为异常的GT©来自第一层次的异常图(d)第二层次的异常图(e)加法运算得到的融合异常图(f)乘法运算计算出的融合异常图。
我们可以清晰地看到,乘法运算的效果更好。

二、实验分析

1.多层特征的影响

在本节中,我们通过实验探讨了多层次特征的影响。本小节将讨论HRNet的前三个层次结构。
使用简单L2损失的加法运算对不同层次组合进行评估,结果如下:
在这里插入图片描述
在纹理类别中,层1和层2的组合效果最好,但平均而言,层2和层3的组合效果最好。这是因为纹理分类简单,主要可以用包含结构信息的浅层特征来描述。相比之下,对象类别需要包含语义信息的判别特征来适应其各种干扰的变化。此外,纹理类别中的异常区域打破了纹理信息的连续性,在较小的感受域下可以很好地捕获纹理信息。相比之下,需要较大的接收域来捕获更多的语义信息,以分割对象类别中的异常区域。
因此,较深的层次结构适用于对象类别,较浅的层次结构适用于纹理类别。
由于用三个层次的计算复杂度要高得多,因此选择层2和层3的组合作为IKD的层次。

2.CSL的影响

本小节对CSL的影响进行了评估。以像素级损失为基准,对层2和层3的组合进行评估,并对不同的损失组合进行评估。
在这里插入图片描述
从增益的程度来看,纹理类别优于对象类别,这是因为纹理类别中的法向数据特征分布紧凑,而对象类别中包含复杂的干扰,法向特征分布广泛,纹理分类训练更有可能导致过拟合。因此,描述特征流的上下文信息提供了强有力的监督信号,缓解了纹理分类中的过拟合问题。
地毯和晶体管类别中正常和异常图像的教师网络和学生网络的相似图的一些样本下图所示。可以看到,在地毯类别的正常图像中,几乎每个元素的GT值都很高,因为每个位置的特征都非常相似。GS和GT几乎相同。在地毯类异常图像中,异常区域GT值明显降低,但GS值与正常图像相差不大。这说明学生网络提取的正常区域的特征与异常区域的特征相似。直观上,学生网络在仅使用正态数据进行训练后,在Lcs的约束下迫使异常区域的特征与正常区域的特征相同,并且由于T在异常区域提取的特征与正常区域的特征不同,因此学生网络对异常的分割贡献很大。在晶体管类别中,只有GT和GS对角线上的元素值较高,说明其特征在空间上不相似;因此,Lcs很难正确描述其正常数据流的结构。
地毯和晶体管类别中:正常和异常图像的教师网络和学生网络的相似图的一些样本
下图为异常图像经TSNE降维后的特征,进一步说明对象类别中的正常数据流要比纹理类别中的正常数据流复杂得多:(a)地毯类 (b)晶体管类
在这里插入图片描述

3.AHSM的影响

为了充分证明AHSM的作用,本节中评估了不同的β值。β控制着AHSM开采的样品百分比,β值越高,表明选择的样品越少、越硬。如图9所示,β显著影响性能。由于纹理类比物体类存在更高的过拟合风险,这种影响在纹理类中更为明显。一般来说,当β较小时,许多简单的样本更有效,而困难样本的有效性降低。例如,几乎所有的样本都是在β为-3时选择的,而具有信息性知识的硬样本没有得到足够的重视。因此,性能与没有AHSM的基线相似。然而,较高的β并不总是更好,因为选择的样本较少,例如,当β设置为3时,几乎没有选择样本。平均而言,β = 2时表现最佳,AU-ROC为97.57%。
在这里插入图片描述

总结

本文提出了一种新的无监督图像异常分割方法IKD。以往基于知识精馏的异常分割方法存在神经网络容量与知识量不一致导致的过拟合问题。IKD旨在通过两种方式缓解过拟合问题,一个是称为CSL的损失函数,另一个是AHSM模块:CSL可以帮助学生网络学习包含上下文信息的数据流的结构;利用AHSM,可以聚焦于具有丰富信息的困难样品上。CSL和AHSM都提供了强大的监督信号,并减轻了过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值