【论文翻译】Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised Semantic Segmentation

在这里插入图片描述

摘要

语义分割是一项传统上需要大量像素级真实标签数据集的任务,这一获取数据耗时且昂贵。最近在弱监督环境中取得的进展表明,仅使用图像级标签即可获得合理的性能。通常,分类被用作代理任务(proxy task),用于训练深度神经网络,从中提取注意力图(attention maps)。然而,分类任务只需要最少的证据来进行预测,因此它侧重于最具区分性的物体区域。为了克服这个问题,我们提出了一种新颖的对抗擦除注意力图的公式(formulation of adversarial erasing of the attention maps)。与以前的对抗擦除方法不同,我们优化了两个具有相反损失函数的网络,从而消除了某些次优策略(certain suboptimal strategies)的要求;例如,复杂化训练过程的多个训练步骤或在不同分布上运行的网络之间的权重共享策略,这可能对性能有不利影响。所提出的解决方案不需要显著性遮罩(saliency masks),而是使用正则化损失来防止注意力图扩散到不太具有区分性的物体区域。我们在 Pascal VOC 数据集上的实验证明,我们的对抗方法相对于 baseline 提高了 2.1 mIoU 的分割性能,相对于以前的对抗擦除方法提高了 1.0 mIoU。

1. Introduction

语义分割是计算机视觉中最基本的任务之一,应用范围从自动驾驶汽车到医学诊断等各个领域。在深度学习时代,语义分割模型的质量取得了显著的进展,部分原因是由于拥有具有像素级真实标签的大规模数据集的可用性。然而,使用像素级注释为这些数据集添加标签是一项费力的过程。弱监督方法使用较粗糙的标签(如边界框、涂鸦、点,甚至是图像级标签)实现了合理的性能。在这项工作中,我们专注于利用图像级标签,这是最弱的监督形式。在只使用图像级标签的方法中,通常训练一个分类网络,并提取类别激活映射(CAMs)作为初始对象位置。然而,仅使用图像级标签学习语义分割是一个不适定问题(an ill-posed problem),因为标签仅指示类别的存在,而不指示其位置和形状。更具体地说,关注的视觉证据(visual evidence)通常对应于最具区分性的物体区域(the most discriminative object regions),因此未能捕捉完整的对象。我们将其称为区分性定位问题(the discriminative localization problem),如图 1 左侧的图像所示。这个问题在非刚性对象类别(non-rigid object classes,如鸟、猫、马和羊)中特别普遍,因为毛皮或皮肤的纹理比头部或脚等其他身体部位的纹理不太具有区分性。

在这里插入图片描述

Figure 1:从分类网络获取的两个注意力图示例(左)和端到端的对抗擦除(右)
分类网络只需要最少的视觉证据来对已存在的对象进行分类,因此它们侧重于最具区分性的物体区域。我们将这称为区分性定位问题。我们提出的端到端对抗擦除方案通过将注意力扩散到不太具有区分性的物体区域来解决这个问题

就是说,分类网络对一张图片进行分类,CAM 中的视觉证据(visual evidence,我想称其为 ROI)可能是很小的,因为这个 ROI 区域的特征很明显,模型可以根据这个小的显著性区域判断图片的类别。但是对于 WSSS 而言,我们需要使用 CAM 中的 ROI 作为伪标签来监督分割模型训练,所以这个 ROI 最好是可以包围住 Object 的,而不仅仅是 Object 最显著的区域。

图 1 中左边是分类网络 CAM 中 ROI 的区域,右边是本文提出的对抗擦除网络(AE)的 CAM 中 ROI。可以看到,原始的分类网络的 ROI 区域比较小,最关注的是具有明显特征的区域,而经过对抗擦除改良后,关注区域不仅仅是最有明显特征区域了,还有其他区域,这个区域就可以包裹住 Object 轮廓了,这对于 WSSS 任务而言很重要。

Note:attention maps(注意力图)其实就是 CAMs(Classes Activation Maps,类激活图)

以前的方法提出通过引入对抗擦除(Adversarial Erasing,AE)来缓解这个问题,它在注意力图上设置一个阈值以生成一个可以用来从图像中去除最具区分性物体区域的 mask。然后,将生成的图像输入到第二个分类网络中,以找到属于同一对象的不太具有区分性的区域。一些现有方法在多个步骤中执行擦除,可以是作为多阶段训练方法实现,也可以是与多个擦除网络一起联合训练。这将导致复杂的多阶段训练策略或更大的内存占用,可能妨碍了利用最先进的网络架构。图 2 说明了现有迭代擦除方法与我们提出的端到端方法之间的高级概要比较。其他方法 Tell Me Where to Look: Guided Attention Inference Network 旨在避免这个缺点,通过在输入和已擦除输入上共享模型的权重来训练单个擦除步骤。然而,权重共享可能会导致性能不佳,因为它们操作在不同的数据分布上。

在这里插入图片描述

Figure 2:高级比较,将迭代的对抗擦除方法(左)与我们提出的新方法(右)进行对比,后者通过单次迭代的对抗训练模型进行训练

对抗擦除方法 AE 刚被提出来的时候,主要思路是这样的:先让分类模型对图片进行分类,获取它的 CAM 并找到 ROI,之后根据 ROI 删除原图中超过阈值的区域,这就是擦除操作。之后将擦除后的图片再次送入分类网络,再次获得新的 CAM 并找到 ROI,再根据 ROI 对图片进行擦除,以此往复,这样就迫使网络找到 Object 所有的特征区域。最后再将所有的 ROI 进行融合,就可以得到 Object 最终的 CAM 了。这样得到的 CAM 的确是比直接得到的 CAM 的范围要大,可以接近 Object 原本的轮廓区域,所以这个 CAM 就可以算作是 Ground Truth 了,就可以根据这个 GT 去训练完全监督的语义分割模型了。

具体可以看这篇论文:Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach

在这里插入图片描述

图 1. (a) 提出的 AE 方法示意图。使用 AE,首先使用分类网络挖掘出与图像类别标签“狗”最具判别性的区域。然后,AE 擦除了从图像中挖掘出的区域(头部),并重新训练分类网络以发现一个新的物体区域(身体),用于进行分类而不降低性能。我们重复这种对抗性擦除过程多次,并将擦除的区域合并成一个完整的前景分割掩码。(b) 显示了 AE 在不同步骤挖掘的具有判别性的物体区域的示例,以及最终获得的前景分割掩码

但是作者也提到,上面这样的 AE 方法虽然有效,但是擦除网络太多会导致内存占用过高、可训练参数过多,模型越难训练,因此不好。针对这个问题,作者也说了他们的网络是 E-2-E 的,不需要多个 AE 网络,只需要一个擦除网络就可以。

我们提出的方法遵循对抗擦除的方法论,以恢复不太具有区分性的物体区域。但与此不同的是,我们提出了在真正的对抗方式下训练两个独立的网络,一个是定位网络(localizer network),另一个是对抗网络(adversarial network)。通过让这两个网络参与对抗性游戏,我们鼓励定位网络(localizer network)不留下任何视觉线索(visual clues),以使对抗网络(adversarial network)无法发现相应类别的存在(the existence of the corresponding class)。此外,我们对定位网络进行正则化(regularize the localizer network),以偏好具有较小的注意力图的解决方案,以避免低特异性的定位解决方案(low-specificity localization solutions),它们涵盖了不必要的区域,从而赢得对抗性游戏。因此,与以前的方法相比,这个设置在训练和推断期间消除了需要多个连续的定位模型和在不同数据分布上运行的模型之间的权重共享。此外,我们提出的框架不依赖于额外的监督(extra supervision),例如额外的数据(additional data)或显著性估计(saliency estimation)。为了证明我们的方法的有效性,我们不仅展示了提出的对抗训练方案作为独立模型的改进结果,还将我们的端到端对抗擦除集成到像素级语义关联(PSA)中,并实现更好的分割性能。

“Specificity” 是一个用于描述测试或模型的性能的统计术语,通常用于医学诊断和分类问题。在弱监督语义分割的上下文中,它可以解释为模型对于特定对象区域的定位准确性。

  • “High-specificity” 表示模型的定位结果趋向于非常精确,即它成功地将关注点限定在目标对象的确切区域,没有过多的错误定位。
  • "Low-specificity"表示模型的定位结果不够精确,它可能将关注点扩展到目标对象之外的区域,涵盖了一些不相关的部分。

本文的主要贡献如下:

  1. 我们提出了一种新颖的端到端对抗擦除方法,有助于捕捉不太具有区分性的物体区域。
  2. 我们展示了如何将这种方法集成到现有的弱监督语义分割方法中。
  3. 我们在 Pascal VOC 2012 基准上展示了其有效性,并优于 Baseline 方法。实现已包含在补充材料中,并将在论文被接受后公开提供。

这段作者主要说了他们在这篇论文中做了哪些工作:

  1. 以擦除对抗 AE 的方法为基础
  2. 引入了 GAN 的思想,网络模型只有两个:
  3. 生成器:定位网络(localizer network)
  4. 鉴别器:对抗网络(adversarial network)
  5. 对生成器打了一些补丁
  6. 强调了本文模型不需要其他 tricks(额外的数据、显著性估计)
  7. 强调了模型具有很强的移植性,可以当做一个插件使用:
  8. 单独的模型
  9. 加入其他模型中使用

2. Related work

2.1 Visual Attention,视觉注意力

自从深度神经网络的突破早期,人们一直致力于揭示这些“黑盒子”,以更好地理解决策过程。例如,在视觉任务中,如图像分类,通常有必要突出网络决策的图像区域。早期的工作通过可视化预测的类别分数对输入图像的偏导数或对原始梯度进行修改来实现这一目标。CAMs 通过调整全局平均池化层(Global Average Pooling,GAP)和用于分类的全连接层(Fully Connected Layer,FC)来突出相关区域。Selvaraju 等人扩展了这种方法,提出了 Grad-CAM,利用梯度使其能够获得图像标注(image captioning)和视觉问答(visual question answering)等任务的视觉解释,而无需进行任何网络架构更改

这里主要说了一下 CAMs

2.2 Adversarial Erasing,对抗擦除

视觉注意技术(visual attention techniques)经常在弱监督信号情况下用于下游任务(downstream tasks),如目标检测和语义分割。通常,分类被用作代理任务(proxy tasks)来生成注意力图(attention maps)。由于分类只需要最少的证据来进行预测,因此在决策过程中只使用图像中最具区分性的区域在下游任务中,这将导致不令人满意的结果,因为目标是捕捉图像中的整个对象。为了缓解这个问题,Object Region Mining With Adversarial Erasing 首次引入了对抗擦除方法。在对抗擦除中,使用注意力图找到最具区分性的物体区域,然后将其从图像中擦除。然后将已擦除的图像输入到另一个分类网络中,以找到属于同一实体的不太具有区分性的物体区域。最后,将注意力图组合以创建分割 mask(a segmentation mask)。这一方法已被 Adversarial Complementary Learning for Weakly Supervised Object Localization 改进,将擦除步骤整合到训练中,通过从特征图(Feature map)而不是图像(Input Image)上进行擦除。然而,这两种方法仍需要多次训练和/或推断步骤,以及将注意力图融合到分割 mask 中Tell Me Where to Look: Guided Attention Inference Network 通过在两个分类器之间共享权重并应用软阈值技术(a soft thresholding technique)来解决了这个问题,允许初始分类器(initial classifier)的注意力图扩展(grow to)到不太具有区分性的物体区域 (less discriminative object regions)。在对抗擦除方法中,注意力通常开始扩散到与相应物体高度相关的背景区域。这可以通过使用显著性 masks(saliency masks)的额外监督(extra supervision)来修复。与以前的方法不同,我们利用对抗擦除,而无需在训练/推断期间使用多个定位模型、权重共享或显著性蒙版。我们通过使用不同的优化器训练两个具有对抗目标的模型来实现这一点。我们的方法简单,并可以轻松嵌入到现有的弱监督方法中

saliency 和 discriminative 是两个不同的概念,它们分别表示:

  • saliency:显著性,指的是某个事物或区域在视觉上引起注意的程度,通常与背景的对比度有关。在计算机视觉中,saliency detection 是一种检测图像中显著区域的技术,可以用于图像分割、目标检测、图像压缩等应用。
  • discriminative:区分性,指的是某个事物或区域在分类或识别任务中具有的区别能力,通常与特征的选择和表示有关。在机器学习中,discriminative model 是一种直接建模条件概率 P ( y ∣ x ) P (y|x) P(yx) 的模型,可以用于分类、回归、序列标注等应用。

简单来说,saliency 和 discriminative 的区别是:saliency 关注的是视觉上的突出,而 discriminative 关注的是任务上的区分。

2.3 Weakly-Supervised Semantic Segmentation,弱监督语义分割 WSSS

在弱监督语义分割(WSSS)中,监督信号从像素级标签降低到边界框、涂鸦、点,甚至图像级标签。在这项工作中,我们专注于图像级标签,因为这是最困难的任务,也减少了标记工作的工作量。许多方法利用对抗擦除来生成语义分割蒙版。此外,还有一些方法随机隐藏特征图的部分区域(randomly hide parts of the feature map),以及利用跨图像特征(cross-image features)的方法。在许多弱监督方法中,通用的显著性方法被用作对象和背景的线索(cues of object and background)。与许多 WSSS 方法共同的是,输出的分割 masks 被用作代理标签(proxy labels),用于训练完全监督的语义分割模型。我们的框架不需要显著性 masks(saliency masks),并且不依赖于选择是否训练完全监督的语义分割模型。

一般的 WSSS 任务,有些方法使用 AE 生成分割 mask;有些方法对特征图进行 dropout;有些方法输入图片不是一张而是多张,从而利用图片间的信息。这些方法的目的都是生成分割 mask,其实就是伪标签,主要的作用是给后面的完全监督分割模型提供 Ground Truth。但作者说,它们的模型不需要生成分割 mask,因为不需要进行完全监督训练分割模型,所以伪标签有没有也无所谓。

说实话,作者模型不需要完全监督训练分割模型,我还是挺好奇的 😂。

2.4 Adversarial Training,对抗训练

对抗训练的概念自从生成对抗网络(GANs)的引入以来近年来引起了广泛关注。GANs 由两个竞争(competing)的网络组成,生成器(generator)和鉴别器(discriminator)。

  • 鉴别器(discriminator)的任务是:预测给定的输入图像来自真实数据分布还是生成器生成的伪造图像分布;
  • 生成器(generator)的任务是:通过匹配真实数据分布来愚弄(fool)鉴别器 😂。

这种图像合成方法已被证明非常强大,可以生成令人信服的图像。对抗训练的思想已被扩展到不同的任务,如图像到图像的翻译(image-to-image translation)、从图像中重建 3D 对象(reconstructing 3D objects from images)、图像超分辨率(image super-resolution)和语义分割(semantic segmentation)。

与我们的方法类似,对抗训练已被用于从弱监督中找到完整的分割 masks,但与我们的方法不同,这个设置对生成器施加了形状先验(shape priors),并用于自动对象移除任务(automatic object removal)。“对抗训练(adversarial training)” 这个术语在弱监督语义分割(WSSS)领域也被宽泛使用,它指的是擦除图像的一部分,并在这个新图像上训练一个辅助模型(an auxiliary model),尽管没有对抗性目标公式(adversarial objective formulation)或具有不同参数化的独立竞争模型(independent and competing models with different parameterization)。我们的对抗训练方法更接近最初的对抗训练公式,因为我们使用两个具有相反目标(opposing objectives)的不同模型。

这段作者简单介绍了 GAN 网络,并且说明了在 WSSS 任务中,自己使用 GAN 的方式和其他人的方式不同,作者方式中的鉴别器和生成器具有相反的目标,因此更加像一个 GAN 网络。

3. Method

在本节中,描述了我们提出的方法,即端到端对抗擦除(end-to-end adversarial erasing,EADER)。首先,我们提出了我们的弱监督语义分割的新颖对抗训练公式(novel adversarial training formulation)。然后,我们通过将端到端对抗擦除集成到现有的弱监督语义分割框架中,展示了我们方法的有效性。

3.1. End-to-End Adversarial Erasing,端到端对抗擦除

我们提出的方法由两个图像分类器组成:一个图像分类器(an image classifier)和一个对抗模型(an adversarial model)。两者都可以由适当的卷积神经网络(CNN)实例化。

  • 第一个图像分类器网络(image classifier)用于使用注意力图(attention maps,其实就是 CAMs)来定位目标对象(localize the target object),因此我们将这个网络称为定位网络(localizer network)。然后,通过软的、可微分的阈值操作(a soft, differentiable thresholding operation)将注意力图转换为 masks。接下来,这些 masks 用于创建一个新图像,其中最具区分性的物体区域(the most discriminative object regions)被擦除。
  • 然后,将这些图像传递给第二个网络,我们将其称为对抗网络(adversarial model)。其目标是正确分类图像(classify the
    images correctly),即使目标类别被擦除也要正确分类

定位网络 G φ G_\varphi Gφ 和对抗网络 F θ F_\theta Fθ 的图像分类器都使用二元交叉熵损失(BCE Loss)进行优化,但使用不同的优化器进行交替训练。为了迫使定位网络 G φ G_\varphi Gφ 不仅正确分类图像,而且将注意力扩散到不太具有区分性的物体区域(less discriminative object regions),我们为定位网络 G φ G_\varphi Gφ 网络添加了对抗损失项(an adversarial loss term)。这个项捕捉了对抗网络 F θ F_\theta Fθ 仍然能够对被擦除的对象进行分类的能力。定位网络的一个《平凡》解决方案是完全隐藏图像,因此我们通过额外的正则化损失项(an additional regularization loss term)来正则化定位网络 G φ G_\varphi Gφ 。这限制了定位网络的注意力,迫使它只擦除属于目标类别的区域。端到端对抗框架的概述如图 3 所示。

在这里插入图片描述
Figure 3:我们端到端对抗擦除框架的概述。图像 x x x 通过定位网络 G φ G_\varphi Gφ 被传递,以提取每类 ( c c c) 的注意力图 A c A_c Ac。通过软阈值操作,它们被转换为蒙版 M c M_c Mc,用于创建图像,其中最具区分性的物体部分已被擦除 ( x ~ \tilde{x} x~)。这些图像被传递到对抗网络 F θ F_\theta Fθ,它使用分类损失 L a d v \mathcal{L}_\mathrm{adv} Ladv 进行优化。定位网络使用分类损失 L l o c \mathcal{L}_\mathrm{loc} Lloc 和对抗损失项 L a m \mathcal{L}_\mathrm{am} Lam 进行优化。这迫使定位网络将其注意力扩散到不太具有区分性的物体部分,而 L r e g \mathcal{L}_\mathrm{reg} Lreg 损失鼓励模型将激活限制在最小必要区域内。

  • loc:localization,定位
  • reg:regularization,正则化
  • adv:adversarial,对抗
  • am:attention mining,注意力挖掘

看起来很复杂,其实具体的过程是这样的(这里生成器我用模型 A 表示,对抗网络(鉴别器)我用模型 B 来表示):首先输入图片 x x x 被输入到定位网络 A 中,之后获取 CAM 图(也就是 Attention Maps),之后再通过一个函数转换为 masks。通过 masks,擦除输入图片 x x x 对应的像素(用统一的像素值代替),得到特征图 x ~ \tilde{x} x~。之后将 x ~ \tilde{x} x~ 送入对抗网络 B(说是对抗网络,其实也是一个分类网络),B 再对 x ~ \tilde{x} x~ 进行分类。

那为什么说是生成-对抗网络呢?其实也很简单,定位网络 A 对原图进行处理,求出 CAM,之后再将原图中对应的区域进行擦除。但对抗网络 B 面对被擦除显著特征的特征图也需要识别出来,这就体现出对抗的意思了 ——生成器 A 擦除原图(目的是探索哪些是 ROI),鉴别器 B 在努力识别被擦除的图(如果图片被擦的太狠,那么鉴别器 B 就没办法识别出来了,这也就意味着,生成器 A 擦除的地方是有效的,即生成器 A 生成的 CAMs 是正确的)。

但是对于生成器 A(负责擦除的模型)而言:“md,我直接把图全擦了不就行了吗,让对抗网络面对一张空图,让它去识别吧,它永远识别不到”。这种情况对于生成器 A 是有利的,但对于 WSSS 任务而言是不行的,所以作者针对这种情况对生成器 A 进行了限制,即对生成器 A 添加一个额外的正则化损失项,限制它的 CAMs,从而迫使生成器 A 只擦除属于目标类别的区域。

考虑一个数据集 D = { x i , y i } i = 1 N \mathcal{D} = \{x_i, y_i\}^N_{i=1} D={xi,yi}i=1N,其中 N N N 是图像的数量, i i i 是图片的索引, x i x_i xi 是输入图像, y i y_i yi 是长度为 C C C 的 multi-hot 向量,其中 C C C 是类别的数量,如果类别 c c c 出现在 x i x_i xi 中,则 y i , c = 1 y_{i, c} = 1 yi,c=1,否则 y i , c = 0 y_{i, c} = 0 yi,c=0。需要注意的是,在多标签设置中,一个输入图像中可以存在多个类别,因此 ∑ c y i , c ≥ 1 \sum_c y_{i, c} \ge 1 cyi,c1

在 WSSS 任务中,Multi-hot vector 是一种处理多维多属性特征的稀疏矩阵降维压缩方法。Multi-hot 编码之后每个 id 对应的是多个的 1,而且不同样本中 1 的个数还不一样。对于 multi-hot 特征的处理无非也是一种稀疏矩阵的降维压缩,因此可以使用 embedding 的方法。对于某个属性对应的分类特征,可能该特征下有多个取值,比如一个特征表示对哪些物品感兴趣,那么这个特征不是单个值,而是有多个取值。例如我们现在有 3 个样本:

  • 样本 1 在该属性下取值有 1, 2 —— 两种特征
  • 样本 2 在该属性下有 2 —— 一种特征
  • 样本 3 在该属性下有 3, 4 —— 两种特征

我们以 multi-hot 编码的形式来定义特征应为:

  • 样本 1 [1, 1, 0, 0]
  • 样本 2 [0, 1, 0, 0]
  • 样本 3 [0, 0, 1, 1]

3.2 Localizer network,定位网络

定位网络可以由任何卷积神经网络(CNN)实例化,从中可以提取出 (Grad-) CAMs。为了简化,我们假设使用 CAMs,但可以很容易地将这种方法扩展到更高级的注意力提取方法,如 Grad-CAM。具有可训练参数 φ \varphi φ 的定位网络 G G G 被训练为多标签分类器,使用每个标签类别的二元交叉熵损失:

L l o c ( G φ ( x i ) , y i ) = − 1 C ∑ c y i , c ln ⁡ ( G φ ( x i ) ) + ( 1 + y i , c ) ln ⁡ ( 1 − G φ ( x i ) ) (1) \mathcal{L}_{\mathrm{loc}}(G_\varphi(x_i), y_i) = -\frac{1}{C} \sum_c y_{i, c} \ln(G_\varphi(x_i)) + (1 + y_{i, c}) \ln(1 - G_\varphi(x_i)) \tag{1} Lloc(Gφ(xi),yi)=C1cyi,cln(Gφ(xi))+(1+yi,c)ln(1Gφ(xi))(1)

在多标签分类中,每个样本可以被分配到多个标签类别中。因此,多标签分类器使用每个标签类别的二元交叉熵损失来训练模型。这意味着模型是由多个二分类器组成的,每个二分类器对应一个标签类别。在训练过程中,每个二分类器都会计算其对应标签类别的损失,并更新其权重。这样,模型就可以同时预测多个标签类别了。

3.3 Attention maps,注意力图(CAMs)

给定一个经过训练的定位网络网络 G φ G_\varphi Gφ,可以使用其最终卷积层的特征图 g φ f i n a l g_\varphi^{\mathrm{final}} gφfinal 和分类权重 w c w_c wc 来获取类别 c c c 的注意力图 A c A_c Ac,如下所示:
A c ( x i ) = R e L U ( W c T g φ f i n a l ( x i ) ) (2) A_c(x_i) = \mathrm{ReLU}(W_c^T g_\varphi^{\mathrm{final}}(x_i))\tag{2} Ac(xi)=ReLU(WcTgφfinal(xi))(2)
然后,对 A c A_c Ac 进行归一化,以使最大激活值等于 1。

3.4 Soft masks,软 Masks

只保留与真实类别相关的注意力图,然后将其调整为输入图像的尺寸,并应用一个软阈值(soft thresholding)操作生成特定类别的蒙版 M c M_c Mc
M c ( x i ) = σ ( ω ( A c ( x i ) − ψ ) ) (3) M_c(x_i) = \sigma(\omega(A_c(x_i) - \psi))\tag{3} Mc(xi)=σ(ω(Ac(xi)ψ))(3)
其中, σ \sigma σ 是 sigmoid 非线性函数, ψ \psi ψ 是阈值数值, ω \omega ω 是一个缩放参数,确保超过阈值的值接近 1,而低于阈值的值接近 0。与常规的阈值操作不同,这种软阈值是可微分的,允许从任何后续计算中的梯度反向传播到定位网络

3.5 Erasing,擦除

对于对抗网络的输入图像,其中注意力图已被擦除,计算如下:

x ~ i , c = x i ⊙ ( 1 − M c ( x i ) ) (4) \tilde{x}_{i,c} = x_i \odot (1 - M_c(x_i))\tag{4} x~i,c=xi(1Mc(xi))(4)
需要注意的是,这里只擦除了一个特定类别的注意力图,因此如果图片中存在多个目标,那么就会创建多个图像

3.6 Adversarial network,对抗网络

对抗网络 F F F,具有可训练参数 θ \theta θ,然后使用相同的二元交叉熵损失函数(BCE Loss)训练为多标签分类器:

L a d v ( F θ ( X ~ i ) , y i ) = − 1 C ∑ c y i , c ln ⁡ ( F θ ( x ~ i , c ) ) (5) \mathcal{L}_{\mathrm{adv}}(F_\theta(\tilde{X}_i), y_i) = -\frac{1}{C}\sum_c y_{i, c}\ln(F_\theta(\tilde{x}_i, c)) \tag{5} Ladv(Fθ(X~i),yi)=C1cyi,cln(Fθ(x~i,c))(5)
因此,这个网络的目标是在尽管证据被擦除的情况下,仍然对相同的目标进行分类

3.7 Attention mining loss,注意力挖掘损失

为了鼓励模型彻底擦除对象证据(object evidence),我们将定位网络网络与对抗模型进行对抗训练。我们遵循 Tell Me Where to Look: Guided Attention Inference Network 的方法,使用注意力挖掘损失(attention mining loss),该损失是已经被擦除的类别的 logits 的平均值:
L a m ( x ~ i , y i ) = 1 C ∑ c ∈ y i F θ ( x ~ i , c ) (6) \mathcal{L}_{\mathrm{am}}(\tilde x_i, y_i) = \frac{1}{C}\sum_{c\in y_i}F_\theta(\tilde x_i, c) \tag{6} Lam(x~i,yi)=C1cyiFθ(x~i,c)(6)

3.8 Regularization loss,正则化损失

最后,为了对定位网络进行正则化,我们引入了一个额外的损失项:

L r e g ( x i , y i ) = 1 W × H × C ∑ c ∈ y i ∑ j , k A c ( x i ) j , k (7) \mathcal{L}_{\mathrm{reg}}(x_i, y_i) = \frac{1}{W\times H \times C}\sum_{c\in y_i} \sum_{j, k} A_c (x_i)_{j, k} \tag{7} Lreg(xi,yi)=W×H×C1cyij,kAc(xi)j,k(7)
其中, W W W H H H 代表激活的宽度和高度。将这个正则化损失纳入优化过程(optimization process)中,鼓励定位网络找到一个覆盖目标类别的最小注意力图,从而防止定位网络采用擦除整个图像的《平凡(trivial)》解决方案,以全局最小化注意力挖掘损失。

3.9 Total loss,总损失

定位网络的总损失函数如下:
L t o t a l = L l o c + α L a m + β L r e g (8) \mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{loc}} + \alpha \mathcal{L}_{\mathrm{am}} + \beta \mathcal{L}_{\mathrm{reg}} \tag{8} Ltotal=Lloc+αLam+βLreg(8)
其中, α \alpha α β \beta β 是用来调整对抗损失和正则化损失重要性的超参数。虽然定位网络被训练来最小化其对抗损失项,对抗模型尝试最大化它,通过最小化 公式 5 中的损失。

3.10 Segmentation maps,分割图

在使用所描述的损失项训练模型之后,我们将注意力图转换为分割图。首先,我们将所有的注意力图上采样并叠加到具有 C + 1 C + 1 C+1 个通道的图像分辨率中。由于我们不训练背景类别的分类模型,我们将第一个通道的阈值设置为 ρ \rho ρ。为了获得分割掩模,我们在类别维度上取 argmax。

3.11 Integrability of End-to-End Adversarial Erasing,“端到端对抗擦除” 的可集成性

所提出的方法简单且可集成,我们通过将提出的端到端对抗擦除方案集成到现有的弱监督语义分割方法中来展示这一点。我们将其集成到 Pixel-level Semantic Affinity (PSA) ,这是一个多阶段方法,其第一阶段存在辨别性定位问题(the discriminative localization problem)。在这个阶段,从中提取 CAMs 训练一个分类网络。这个阶段不使用特定的方法来改进分割 masks,但训练和测试时的数据增强会在这方面提高性能。后两个阶段训练 AffinityNet,生成伪分割 masks,以及一个全监督分割模型,使用伪分割 masks 作为训练数据。

PSA 的 CAM 生成阶段适合进行对抗训练,因为它存在辨别性定位问题(the discriminative localization problem),而且分类网络适合作为定位网络,即 CAM 是从最终的卷积层生成的,无需任何后处理或其他破坏梯度的计算。与之前一样,我们对注意力图应用软阈值,创建 masks,然后用它们从输入图像中擦除最具辨别性的对象区域。生成的图像通过对抗网络进行前馈,然后将注意力挖掘损失作为定位网络网络的对抗损失。

请注意,将 Baseline 方法变成多阶段并不是使其适合与 EADER 集成的必要条件。只要可以获取注意力图而不破坏梯度,EADER 就可以集成到该方法中,以找到更不具有辨别性的对象区域以改进注意力图。

这段主要是说,本文提出的方法如何应用到 PSA 这种第三方模型中。

4. Experiments

4.1. Experimental Setup,实验设置

4.1.1 Dataset,数据集

我们在 Pascal VOC 2012 分割数据集上评估了所提出的方法的性能,这是弱监督语义分割中最广泛使用的 Benchmark。该数据集包含 20 个对象类别和一个背景类别,在训练、验证和测试集中分别包含 1464、1449 和 1456 张图像。遵循 WSSS 文献中的先前工作,我们使用 Hariharan 等人的注释对数据集进行增强,总共有 10582 张训练图像。我们报告了验证集和测试集的平均交并比 (mIoU)。测试集结果是使用官方的 Pascal VOC 评估服务器获得的。

与以前的对抗擦除方法不同,我们不使用任何后处理尽量减少技巧,以保持我们的方法简单。具体而言,我们不使用测试时增强、后处理和对我们集成的方法的显著性线索等技巧。

4.1.2 Network architecture details,网络架构细节

我们测试了采用 ResNet-101 作为定位网络网络,而对抗模型是 ResNet-18 网络的对抗训练方法。我们使用 ImageNet 预训练权重来初始化这两个网络。在与 PSA 集成时,为了确保公平比较,我们没有改变任何现有网络,这意味着定位网络是具有 38 个卷积层的 WideResNet,而新的对抗模型是 ResNet-18。在最后一个阶段,我们使用代理标签训练一个全监督的语义分割网络。我们使用 DeepLabV3+,这是一种现代分割模型,具有 ResNet-101 和 Xception-65 骨干网络,以及来自 Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation 的默认训练策略。

4.1.3 Training specifications,训练规格

我们以 Batch Size 为 16 训练定位网络,而对抗模型的 Batch Size 是动态的,因为它取决于每个图像中对象(objects)的数量。例如,当 Batch 中的 16 张图像每张都有两个对象类别(two object classes)时,每个图像的两个对象将被单独擦除,因此对抗网络的批量大小将为 32。我们随机将输入图像调整大小并裁剪为 448 × 448,对于定位网络和对抗模型都是如此。两个网络都使用学习率为 0.01 的随机梯度下降进行 10 个 Epoch 的优化。我们每隔 200 个训练 Steps 交替训练定位网络和对抗模型。在整个实验中,除非另有说明,我们使用 α \alpha α 值为 0.05, β \beta β 设置为 1 0 − 5 10^{-5} 105(Equation 8)。其他超参数值为 ω = 100 ω = 100 ω=100 ψ = 0.5 ψ = 0.5 ψ=0.5(Equation.3), ρ = 0.3 ρ = 0.3 ρ=0.3。在训练 PSA 时,我们遵循 Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation 的训练设置,并为对抗网络使用初始学习率 0.01。为了显示我们的方法对于注意力图生成方法是不可知的,我们在实验中使用 Grad-CAM,并在集成到 PSA 时使用 CAM。这也确保了与使用 CAM 的 PSA 的公平比较。

4.2 Ablation study,消融实验

我们的第一个实验是一个消融研究,旨在验证我们的假设,即对抗网络会迫使定位网络网络将注意力扩散到不太具有辨别力的对象区域。回顾公式 8, α \alpha α 控制对抗损失项的强度。在表 1 中,我们改变 α \alpha α 参数并报告分割 masks 的 mIoU、精确度和召回率。
L t o t a l = L l o c + α L a m + β L r e g (8) \mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{loc}} + \alpha \mathcal{L}_{\mathrm{am}} + \beta \mathcal{L}_{\mathrm{reg}} \tag{8} Ltotal=Lloc+αLam+βLreg(8)

在这里插入图片描述

Table 1:模型在 Pascal VOC 2012 验证集上使用不同 α \alpha α 值的性能。我们报告了 6 次运行的平均值和标准差

我们得出以下观察结果:首先,我们发现较高的 α \alpha α 确实增加了召回率,即迫使定位网络将注意力扩散到不太具有辨别力的对象区域。其次,我们观察到召回率的增加也提高了 mIoU 的性能。最高的 mIoU 是在 α = 0.05 \alpha = 0.05 α=0.05 时获得的,这在精确度和召回率之间找到了合适的平衡。较高的 α \alpha α 值会进一步增加召回率,但精确度下降更严重,从而导致较低的 mIoU 分数。图 4 显示了不同 α \alpha α 值生成的示例注意力图。

在这里插入图片描述
Figure 4:使用不同的对抗损失项 α \alpha α 值从端到端对抗擦除方法获得的 Grad-CAM 的注意力图。随着 α \alpha α 值的增加,注意力扩散到不太具有辨别力的对象区域

与之前的观察一致,我们看到较高的 α \alpha α 值会迫使注意力图扩散到不太具有辨别力的对象区域。然而,当值太高时,一些属于其他类别和背景区域的像素会产生高响应,因此会降低精确度。

类似的效果也可以通过调整阈值( ρ ρ ρ)来实现,而无需使用对抗模型。较低的阈值会增加召回率并降低精确度,反之亦然。然而,降低阈值以获得更高的召回率是不令人满意的,因为定位网络未经训练,无法找到属于同一对象的辨别力较低的区域。因此,定位网络只会关注最具辨别力的对象区域,无法捕捉整个对象。

4.3 Comparison to PSA,与 PSA 的对比

我们现在将原始的 PSA 结果与我们集成了端到端对抗擦除的结果进行比较。表 2 显示了在 mIoU 方面的改进。

在这里插入图片描述

Table 2:与我们的基准模型 Pixel-level Semantic Affinity (PSA) 在 Pascal VOC 2012 验证集上的比较。为了进行公平比较,我们重现了 PSA 的数据并使用 AffinityNet 生成的代理标签对 DeepLabV3+ 进行训练。带有†标记的数字表示我们重现的结果

此外,我们在 CAM 生成阶段之后报告精确度和召回率。端到端对抗擦除改进了所有指标的性能。换句话说,对抗和正则化损失项的组合强制注意图传播到辨别力较低的对象区域,而不会传播到背景区域。此外,这个阶段的 mIoU 得分比表 1 中报告的得分更高,这是由于 PSA 使用了广泛的测试时数据增强。在下一个阶段,使用第一阶段的改进输出来训练 AffinityNet 会导致更好的 mIoU 得分。最后,我们报告了在由 AffinityNet 生成的代理标签上训练完全监督的语义分割模型的结果。我们报告了在从 PSA 生成的代理标签上训练 DeepLabV3+ 的结果,包括有和没有端到端对抗擦除。再次,端到端对抗擦除可以提高 mIoU,显示了将端到端对抗擦除集成到现有的 WSSS 方法中的可行性。在表 3 中,我们对验证集上的每个类别的 mIoU 得分进行了逐类比较。请注意,辨别性定位问题在非刚性物体类别中尤为常见。

在这里插入图片描述

Table 3:仅使用图像级别监督在 Pascal VOC 2012 验证集上与 Pixel-level Semantic Affinity(PSA)进行的逐类比较

我们发现端到端对抗擦除显著提高了许多非刚性物体类别的结果,如鸟、猫、牛和马。通常,在这些物体类别中,最具辨别力的物体区域是头部或脚部,这导致注意图仅覆盖这些物体类别的一小部分。通过端到端对抗擦除,定位网络被迫捕捉整个物体区域,因为这些物体类别的皮毛或皮肤辨别力较低,但仍然可以识别。对于室外物体类别,结果通常与 PSA 相似,而对于室内物体类别,性能通常下降。总体而言,端到端对抗擦除提高了性能。

在图 5 中,我们展示了一些定性结果(qualitative results),展示了精度、召回率和 mIoU 的增加。

在这里插入图片描述

Figure 5:Pascal VOC 2012 验证集上的定性结果。Ground Truth 掩码中的白色边缘表示在评估过程中被忽略的像素。端到端对抗抹消策略增加了召回率,而不损害精度

在前四行中,我们发现,通过捕获不太具有判别性的目标区域,端到端对抗抹除更好地分割了对象,特别是对于非刚性目标类别。如最后一幅样本中所观察到的,增加的特异性(specificity)可以归因于正则化项,它迫使注意力仅扩展到定位器确信它是对象区域的地方。

4.4 Comparison to Adversarial Erasing Methods,与其他对抗擦除方法的对比

在表 5 中,我们将我们的结果与以前的 WSSS 方法进行了比较,这些方法采用了对抗抹消策略。

在这里插入图片描述
Table 5:与以前的 WSSS 对抗抹消方法在 Pascal VOC 2012 数据集上的比较。对于监督, I \mathcal{I} I 表示图像级标签, S \mathcal{S} S 表示显著性掩模。†的结果来自 Self-Erasing Network for Integral Object Attention

请注意,在每种方法中,对抗抹消都是多阶段设置(multi-stage setup)中的一个组件。我们的表现优于所有现有的对抗抹消方法,即使大多数方法都使用了更强的监督信号(stronger supervision signals),以形式的显著性掩模(saliency masks)。与 ACoL 相比(这是唯一没有显著性掩模的对抗抹消方法),我们在验证集上明显优于他们的方法。

在弱监督语义分割(WSSS)中,显著性掩膜(saliency masks)通常用作额外的监督信号,以帮助模型识别对象的边界和分割。在上下文中,显著性掩膜可能用于指示哪些区域应该被保留在对象分割中,而其他区域则可以被抹消或忽略。这有助于改善对象分割的准确性。

4.5 Comparison to the State-of-the-Art,与 SOTA 方法的对比

表格 4 中,我们将我们的方法与以前的弱监督语义分割(WSSS)方法进行了比较,其中我们报告了用于生成对象位置的特征提取器和训练代理标签的全监督模型。

在这里插入图片描述

Table 4:在 Pascal VOC 2012 数据集上比较 WSSS 方法。在监督方面, I \mathcal I I 表示图像级标签, S \mathcal S S 表示显著性掩膜, F \mathcal F F 表示像素级标签,这是完全监督语义分割的上限。对于特征提取器,所提到的架构是用于生成初始对象位置的架构(例如使用 CAMs)

带有监督信号 F \mathcal F F 的方法表示分割性能的上限。请注意,我们的方法胜过了全监督的 FCN 网络,我们实现了接近上限的性能,由全监督的 DeepLabV3+ 模型设定。此外,我们展示了我们胜过了许多现有的 WSSS 方法,但也被一些其他方法胜过。

5. Conclusion

在本文中,我们提出了一种新颖的端到端对抗抹去方法,以解决弱监督语义分割方法中固有的判别定位问题。与许多以前的对抗抹去方法不同,这种方法容易集成到现有方法中,无需迭代分类器(classifiers)、后处理(postprocessing)、权重共享(weight sharing)或显著性掩膜( saliency masks)。此外,我们还展示了端到端对抗抹去方法在 Pascal VOC 2012 数据集上改善了性能,特别是在大多数非刚性对象类别(non-rigid object classes)上,这些类别最受判别性定位问题(discriminative localization problem)的影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值