弱监督目标检测算法论文阅读(六)Erasing Integrated Learning : A Simple yet Effective Approach for Weakly Supervised

这是一篇CVPR2020的中山大学的一篇文章,提出了一个新颖的擦除网络。


在这里插入图片描述

Abstract

弱监督对象定位(WSOL)旨在仅通过图像级别标签之类的弱监督来定位对象。但是,基于分类网络的可用技术的一个长期存在的问题是,它们经常导致突出显示最有区别的部分,而不是突出对象的整个范围。然而,相反,尝试探索对象的整体范围可能会降低图像分类的性能。为了解决这个问题,我们通过引入一种新颖的对抗擦除技术,即擦除综合学习(EIL),提出了一种简单而强大的方法。通过在原始CNN中将区分区域挖掘和对抗擦除集成在单个向前-向后传播中,提出的EIL同时探索了高响应类别特定区域和区分度较小的区域,从而可以保持高性能分类并共同发现对象的范围。此外,我们以顺序的方式在网络的不同级别上应用了多个EIL(MEIL)模块,这是第一次通过对抗性擦除学习整合了多个级别和多个规模的语义特征。特别是,拟议的EIL和先进的MEIL都在CUB-200-2011和ILSVRC 2016基准测试中均达到了最新的最新性能,在改进本地化的同时显着提高了图像分类的性能。

在这里插入图片描述

Erasing Integrated Learning

这种擦除学习的方法简单,易于理解,是一篇很好的文章。

在本节中,我们将给出我们所提议的EIL的细节,如图3所示。一般来说,EIL是在CNN的卷积块之间按顺序添加的。在训练过程中,我们以流进feature map为输入,简单的按照[2]生成擦除mask,然后根据这个mask去除feature map上最有区别的区域。然后,我们将擦除和未擦除的特征映射都输入到下一个卷积块中,这会创建两个数据流。由于这种处理也可以看作是权值共享的双分支网络,因此对擦除后的特征图和未擦除的特征图会产生两个分类损失。在测试期间,EIL是停用的,因此训练的模型与CNN分类网络是相同的。通过未擦除的损失,网络可以学习利用最具识别力的类特定区域对目标进行分类。同时,擦除的损失驱动网络聚焦于鉴别度较低的部分,探索互补的目标区域,如图1所示。

算法1和图3给出了详细的描述。形式上,我们将训练图像集表示为I = {Ii, yi}(i=1…N),其中yi={1,2,…, C}为图像Ii的标签,C为图像的总类别,N为图像的数量。θ,f,F 分别表示网络参数,函数 和 特征映射。

使用EIL之前的网络f1(I,θ1)可以生成原始的未擦除特征图,记为 Fu←f1(Ii,θ1),Fu∈R K×H×W,其中K为通道数,W为宽度,H为高度。我们利用Fu的自注意特征图来生成擦除掩模。具体来说,我们将Fu压缩为平均map Mavg ∈R 1×H×W 通过使用通道平均池(即把所有通道的特征图相加再取平均)。然后我们在Mavg上应用硬阈值(hard threshold),以产生擦除掩模Me∈R 1×H×W,其中响应大于阈值的像素的空间位置被设置为零。之后使用逐元素相乘的方法时Me与Fu相乘,就可以得到擦除之后的特征图Fe ∈R K×H×W。

然后,未擦除的feature map Fu 和擦除后的feature map Fe一起被输入到网络的后半部分f2(F, θ2)中。由于这两种数据流是由同一个函数f2处理的,且参数是由同一个参数θ2,因此这种结构可以看作是权值共享的双分支网络。更具体地说,f2(F, θ2)生成类激活映射(CAM),在CAM上应用全局平均池化,利用全连接层,然后softmax操作得到每个分支的预测得分p, pu 和 pe 分别为擦除和未擦除的得分。最后将两个分支的分类损失加起来计算总损失L。注意我们还引入了损失加权超参数 σ 来控制未擦除损失Lu和擦除损失Le之间的权重。

主要的算法流程如下图所示:在这里插入图片描述

Jointly mining the whole object

首先,考虑到未擦除的损失Lu对应的分支,它实际上与一个典型的CNN是相同的,没有任何区别。所以这个分支肯定会像一个受过分类训练的网络那样学习:突出那些类特定的区分区域,以便更好地进行对象分类。这样,网络参数 θ1 可以学习对象的分类能力就像CNN分类模型。但是他只能学习到具有区别性的区域,只有物体的一部分。

因此,我们将对抗擦除技术集成到网络中,通过该技术,擦除后的损耗Le可以为密集像素预测任务发挥作用。 通过消除Fe中的显着类激活,网络f2(Fe,θ2)的后半部分会从较小区分区域的激活单元中产生损失。 因此,当来自擦除损失Le的梯度Ge通过θ1和θ2流回时,重点更新在空间上对应于对象中较少区分区域的分布的神经元。

一旦擦除损失Le达到最佳,网络θ1,θ2就可以学习挖掘具有较少判别力和类别独立性的视觉模式。 正如我们已经说明的那样,这两个数据流基于相同的主干θ1恰好在共享网络θ2中流动。 因此,Lu和Le正在更新相同的参数θ1,θ2,但着眼于不同的特定单位。 因此,尽管Lu可以对最有区别的部分的单元进行微调,但EIL可以通过同时组合互补和有区别的对象模式来整体定位整个对象范围。

Multiple EIL for multi-scale features

现有的擦除方法都选择在单一位置擦除,但我们提出了一种先进的多重EIL (MEIL)模块来在多个位置执行擦除,通过该模块可以同时反向学习多尺度的视觉模式。
MEIL的典型结构如图4所示。在将单个EIL插入到CNN中之后,另一个EIL会附加到未擦除的流中。 结果,网络将从共享分支中产生三个损失,这可能导致网络从尺度中探索感兴趣的对象,而不仅仅是分类的最佳判别功能。
在这里插入图片描述

Discussion

已擦除数据流与未擦除数据流之间的关系

当这两种数据流在共享的网络中向前流动和在相同的整个网络中反向传播时,人们可能会担心这两种流的梯度发生冲突和并且相互抵消。但是我们的实验结果并不支持这样的假设。正如我们已经讨论过的,我们认为在方向传播梯度时,实际上关注的是网络中不同的单元,而前者关注的是最具辨识力的部分,后者关注的是较少辨识力的部分。图1和图6所示的EIL可视化也支持我们的解释。我们可以验证,在原生CAM模型(用于分类的经典CNN)中发现的高响应区域,也在我们的EIL模型中不断出现。这意味着EIL也学习了这些参数来探索最具辨别能力的区域(例如鸟类的头部),并保留了对物体进行分类的能力。除此之外,我们还注意到,与CAM相比,区分度较低的区域(例如鸟类的身体)和CAM中显示的最重要的部分得到了同等的突出处理,这再次证明了我们的假设。换句话说,这些在CAM中通常被忽略的兴趣区域在EIL中被放大了。

与现有的WSOL擦除技术的关系

这里,我们将与WSOL任务中类似于我们的EIL的其他典型对抗擦除方法进行简要比较。对于图2c所示的ADL[2],它在一次正向传播中随机删除了最有区别的区域,信息区域的随机丢失会降低其分类性能。另一方面,我们的EIL也继承了ADL的优点。这包括在任意卷积块上插入的灵活性,以及不需要额外参数的灵活性。图2b所示的ACol[39]处理两个分支分开的源。我们的EIL做得更好的原因可能包括三个方面:1)ACoL使用了不同于我们的擦除掩模生成技术和ADL。他们在顶层提取它,然后在中间层重新采样以执行擦除,在中间层重新采样操作可能会模糊密集像素的信息,如果网络在那一刻没有正确地学习ground-truth类。2) ACoL只共享网络底层的参数,从中提取的边缘、纹理等底层特征具有通用性和类不变性。因此,来自两个独立分支的损失可能无法帮助主干有效地学习类特定的定位。3) ACoL将两个独立分支的CAM地图进行融合,生成最终的定位地图,这可能是不一致的,因为它们可能会覆盖对方。

在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值