弱监督目标检测算法论文阅读(五)Combinational Class Activation Maps for Weakly Supervised Object Localization

在这里插入图片描述

Abstract

弱监督的对象定位最近吸引了关注,因为它旨在通过使用图像级标签来识别类标签和对象位置。先前的大多数方法都使用与最高激活源相对应的激活图。仅利用一个最高概率类别的激活图通常会偏向有限的区域,有时甚至会突出显示背景区域。为了解决这些局限性,我们建议使用激活图,称为组合类激活图(CCAM),这是从最高到最低概率类的激活图的线性组合。通过使用CCAM进行定位,我们抑制了背景区域,以帮助更准确地突出显示前景对象。另外,我们设计网络架构时要考虑空间关系以定位相关对象区域。具体来说,我们将非定位模块在低层和高层都集成到现有的基础网络中。我们的最终模型称为非定位组合类激活图(NL-CCAM),与以前在代表性对象定位基准(包括ILSVRC 2016和CUB-200-2011)上的方法相比,其性能更高。此外,我们证明了该方法通过可视化其他数据集具有很大的概括能力。

Introduction

在本文中,为解决上述问题,我们建议使用激活图,称为组合类激活图(CCAM),这是从最高到最低概率类的激活图的线性组合。据我们所知,所有以前的WSOL方法仅使用最高概率类别的激活图来利用区分部分。相反,我们并入了从最高概率到最低概率的类形成的激活图。如图1所示,较高概率类别的激活图突出显示了与该类别对应的对象的某些部分,而较低概率类别的激活图通过抑制区部分捕获了背景区域。通过经验研究,我们发现类激活图的线性组合具有出色的抑制背景区域的能力,并且我们将此特性用于WSOL。此外,我们设计网络架构以考虑使用非定位[22]的空间关系,该非定位块通过非定位操作捕获远程依赖关系。具体来说,与之前只在高层考虑空间关系的方法不同,我们在低层和高层都使用了非局部块,如图2所示。在低层进行的考虑允许非局部在形成特征图时使用诸如边缘和纹理之类的信息来捕获对象的更多部分,并且从高层进行考虑使网络可以通过使用空间和通道关系来找到与最具区分性的部分相关联的对象的其他部分。生成的特征图。
在这里插入图片描述

Proposed Approach

Class Activation Maps
如前所述,以前的WSOL方法仅依赖于最高概率类别的激活图。与以前的研究不同,我们观察到较高概率类别的激活图突出显示了对象的某些部分,而较低概率类别的激活图具有显示非特别性部分(即背景区域)的相当大的能力,因此我们利用了这些WSOL的​​属性。具体来说,如果我们查看最高概率类别的激活图,则该图往往会突出显示图像中最有区别的区域。同时,如果我们获得最低概率类别的激活图,则它会突出显示与对象无关的非区别部分。这是因为必须更新全连接(FC)层的权重参数,以包括尽可能少的区分部分,以便通过softmax层获得最低的概率值。因此,此类创建的定位图突出显示背景区域或压制了对象的整个部分。

为了符号上的方便,我们将具有第k个最高概率的类的激活图表示为第k个图。 在公式中,类别的总数为K,我们使用c1,…,cK依次从最高概率到最低概率表示类别,Mck表示与ck相对应的激活图。 在图2中,fn是全局平均池(GAP)之前的第n个特征图。 Fn表示GAP层的输出,它是第n个特征图的空间平均值。 在此,F∈RN,其中N是最后一个特征图的通道维。 在测试时,我们将通过GAP获得的特征向量传递给FC层,并通过softmax层找到概率最高的类。 概率最高的c1类别标签如下:(这里要注意符号的含义,别混淆了
在这里插入图片描述其中w∈RN×K表示FC层的权重参数。 按如下方式获得第一张激活图Mc1:
在这里插入图片描述
结合Mc1,按以下方式获得第k个映射Mck:
在这里插入图片描述
最终的定位图是通过以下方式获得的:
在这里插入图片描述
其中g(k)是下一部分中详述的组合函数。 作为最后一步,我们通过线性插值将Mccam调整为原始输入大小。


Combination Functions of Activation Maps
在图4中,我们按顺序可视化了从最高到最低概率类别的激活图。 我们观察到第一张图倾向于突出显示对象的区分部分,而第K张图突出显示非区别部分,例如背景区域。 注意,第K个图是最低概率类别的激活图。 为了有效地使用这些属性,我们检查了组合函数g(k)的以下两个候选项。
在这里插入图片描述Polynomial function(多项式函数):一种简单的方法是添加捕获对象部分的激活图,然后减去突出显示背景区域的图。 我们使g(k)为多项式权重函数,以概率顺序考虑每个激活图的重要性(g(k)对于第一个图和第K个图具有最大的绝对值)。
在这里插入图片描述其中η是超参数,p是前景激活图的数量。 在我们的实验中,我们将η设置为2,以使g(k)成为二次函数,而p设置为(K + 1)/2,是类别数的中点。(此函数是和类别所在的位置关系有关。也就是按照概率由大到小的排列位置。)

Top-i & bottom-j function:此方法仅考虑top-i和bottom-j类激活图。 由于并非所有激活图都突出显示目标对象部分或抑制背景区域,因此我们仅考虑i个高概率类激活图和j个低概率类激活图。
在这里插入图片描述
前面所有方法仅考虑最高概率类的激活图,因此可以说它们使用了top-1和bottom-0组合函数。 在我们的实验中,我们使用top-1和bottom-10组合函数。

对于WSOL,使用CCAM具有多个优点。 首先,对网络复杂性没有影响,因为利用CCAM不会进行任何体系结构修改。 第二个原因是,引入CCAM不会降低分类性能,因为它不是在训练时重新训练子网或擦除某些部分的方法。 现有的方法[30,34]往往会降低分类的准确性,因为它们会在擦除适合分类的最有区别的部分后看到并判断其余部分。 最后,有可能在推理时在单个前向通过中提取定位图,而其他一些方法需要多次前向通过。


Non-local Module for WSOL
使用空间关系的目的是查看对象的更全面区域,而不是仅仅关注于最有区别的部分。 与先前的研究不同,这些研究在定位使用高级特征的组合,我们将空间关系视为非定位方式,并同时考虑了低级和高级特征图。 图2显示了所提议的网络,[22]提出了组成非定位模块的细节。

我们工作的非定位模块的实现如下。 首先将某个图层x∈RC×H×W的特征图投影到三个特征空间中,使用1×1卷积层来嵌入像素和通道的注意力,其中f(x),g(x)∈RC′×H×W,h(x)∈RC×H×W 。 然后,将f(x)和g(x)重塑为RC’×HW,将h(x)重塑为RC×HW。 attention矩阵如下:
在这里插入图片描述
其中α∈RHW×HW表示非局部关系的权重矩阵,其中考虑了所有像素和通道的关联。 另外,我们对每一层使用1×1卷积和batch normalization来给出容量和非线性,然后最后attention如下:
在这里插入图片描述
其中BN(·)表示batch normalization操作。 我们将注意力层输出添加到输入feature map。 最终输出如下:
在这里插入图片描述
如图2所示,我们在高层和低层都使用了上述非定位模块。 由于我们在低层次和高层次都考虑了空间关系,因此可以找到对象的更全面的部分。 低层的非局部块通过结合诸如边缘和纹理之类的信息来帮助形成特征图,而高层转移特征图上的非局部块则结合到激活图上,包括最有区别的部分的相关部分。 第4.4节中的消融研究表明,考虑低层和高层特征的空间关系至关重要。 最后,我们使用CCAM的网络称为NL-CCAM,可以通过抑制背景区域来捕获对象的更多相关部分,从而准确地突出显示对象。

Experiments

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值