【CAM】Learning Deep Features for Discriminative Localization

Ziy.

已于 2022-10-12 21:57:02 修改

阅读量1.7k

点赞数

分类专栏：论文阅读文章标签：深度学习计算机视觉神经网络

于 2022-10-12 21:52:14 首次发布

本文链接：https://blog.csdn.net/yzy144121/article/details/127198741

版权

论文阅读专栏收录该内容

12 篇文章 4 订阅

订阅专栏

论文链接
 github

Abstract

1. Introduction

CNN能保留位置信息，但经过用于分类的全连接神经网络时会丢失位置信息。最近的NIN和GoogLeNet使用全卷积网络、避免使用全连接层，来减少参数量的同时保持模型高性能。

在这里插入图片描述
在ILSVRC benchmark的弱监督定位方法上，本文模型的错误率接近AlexNet

1.1. Related Work

图像分类任务可以衍生到目标定位上，介绍了本文相关工作的两条主线

Weakly-supervised object localization（有关CNNs的弱监督物体监督能力的研究）

前人研究的不足包括没有端到端的训练，一个网络需要用多个前向传递来定位物体，使其很难应用于真实世界的数据集。但本文进行了端到端的训练并用一个前向传递来定位。

和本文工作最接近的前人工作是Oquab等人的工作。不过Oquab用的是全局最大池化(GMP)，也就是说他们的结果只能在图像中定位到目标物体的边缘点而不是内部区域；而本文用的是全局平均池化(GAP)，可以定位目标物体的全部区域，此外作者还用CAM(class activation maps)热力图进行物体标注。作者在此特地申明了，GAP不是本文提出来的，是NIN提出来的。

Visualizing CNN（有关可视化CNNs学习到的内部特征以便更好地理解其特性的研究）

前人的不足：只分析了卷积层，忽视了全连接层。本文将全连接层换为GAP层来进行网络的从头到尾的可解释性分析。

还有人对CNNs的语义编码(visual encoding)进行了分析，但是他们只展示了深度特征里的信息，没有分析该信息的相对重要性，也没办法提取图中重要区域。

2. Class Activation Mapping

Fig2介绍了在CNNs中使用GAP来生成CAM(class activation maps)的流程：
在这里插入图片描述

$f_k\left( x,y \right) ，f_k为最后一层卷积层输出的feature map中，第k个channel上(x,y)的激活值$
$F^k=\sum_{x,y}{f_k\left( x,y \right)}，F^k为channel \ k的GAP值$
$w_{k}^{c}为单位k对应类别c的权重，从本质上讲，w_{k}^{c}表示F^k对类C的重要性，间接反映了channel \ k对类别C的贡献$
$M_c\left( x,y \right) =\sum_k{w_{k}^{c}f_k\left( x,y \right)}，M_c为类别C的CAM，为矩阵$
$S_c=\sum_{x,y}{w_{k}^{c}F_k}=\sum_{x,y}{\sum_k{w_{k}^{c}f_k\left( x,y \right) =\sum_{x,y}{M_c\left( x,y \right)}}}，S_c为类别C的在softmax上的输入值，即类别C的线性分类logit值，为标量$
$P_c=\frac{\exp \left( S_c \right)}{\sum_c{\exp \left( S_c \right)}}，P_c为类别C的softmax输出值$

这里b站同济子豪兄对各层参数有详细分析

此处忽略了偏置项，即将softmax的输入偏置项设为0，使其对于最终的分类结果没有没有影响。

每个feature map(一个channel产生一个feature map)代表了一个卷积核从图像中提取出的一类视觉特征，而 $w_{k}^{c}$ 间接反映了该特征对于类别C的重要程度。将CAM上采样至原图尺寸即可识别到和特定类最相关的图像区域了。

Fig3为CAMs的例子，不同类别的discriminative region可以被定位。
在这里插入图片描述

Fig4展示了即使是同一张图片，在进行不同分类时，定位出来的discriminative region也是不一样的
在这里插入图片描述

Global average pooling (GAP) vs global max pooling (GMP):

GAP：关键区域范围内的特征都有影响，也就是更关注区域
GMP：只关注最大值，非最大值的特征怎么变化都没用(因为无梯度)

两者的分类性能接近，但是定位性能不同，明显GAP的定位性能更好

3. Weakly-supervised Object Localization

评估在ILSVRC 2014 benchmark的dataset上训练出来的CAM的定位能力

3.1. Setup

在AlexNet、VGGNet和GoogLeNet上使用CAM，并且用后跟全连接softmax层的GAP替换全连接层。需要注意的是，移除全连接层会大幅度减少网络参数量(比如说VGGNet的参数量减少了90%)，而且也会带来分类性能的下降。

如下，映射分辨率mapping resolution的定义，和AlexNet-GAP，VGGnet-GAP和GoogLeNet-GAP的结构和训练
在这里插入图片描述

分类：AlexNet-GAP，VGGnet-GAP和GoogLeNet-GAP和原始AlexNet，VGGnet和GoogLeNet做对比。在ILSVRC验证集上进行评估。
定位：AlexNet-GAP，VGGnet-GAP和GoogLeNet-GAP和原始GoogLeNet，NIN做对比并使用back propagation而不是用CAMs。在验证集和训练集上进行评估。

本文模型的定位和分类评估方法都是使用和ILSVRC一样的top-1和top-5的error metrics。

3.2. Results

先汇报了分类结果，以说明本文方法并不会大幅减损模型的分类性能；再展示了本文方法在弱监督物体定位的高效性。

Classification

在这里插入图片描述
可以看到，模型错误率普遍提升1-2%，而且AlexNet受影响最大，而AlexNet*-GAP（在GAP之前加了两层卷积层）要比原始AlexNet表现性能更好。

如预期，GoogLeNet-GAP和GoogLeNet-GMP在分类上的性能相近

Localization

本文通过简单的threshold技术来分割热力图，来用CAMs来生成bounding box(也就是定位框)；
第一次分割区域取值为大于最大值20%

Table 2为在测试集上测试各模型的top-1和top-5错误率
在这里插入图片描述
如图，GoogLeNet-GAP的错误率比GoogLeNet，基于反向传播的GoogLeNet和GoogLeNet-GMP要低

Fig5 为输出示例
在这里插入图片描述
Fig6 为定位框输出对比

Table 3为各模型在验证集上的top-5错误率
在这里插入图片描述

4. Deep Features for Generic Localization

作者将本文方法与以下SUN397、MIT Indoor67等场景和物体分类方法进行对比

Table5 展示了作者抽取的时本文表征最好的网络特征进行比较，AlextNet的f7、GoogLeNet的ave pool和GoogLeNet-GAP 的gap
在这里插入图片描述

可见GoogLeNet-GAP和GoogLeNet表现比AlexNet好

而在网络层数更少的情况下，GoogLeNet-GAP的表现优于GoogLeNet

总的来说，作者发现GoogLeNet-GAP与当今sota方法相比仍具有竞争力

在这里插入图片描述
此外，作者还想知道GoogLeNet-GAP使用CAM技术生成的定位图是否在场景中是带有有效信息的。

Fig8 展示了各数据集的一些定位图示例，作者发现模型泛化较好，最具区分力的区域在所有数据集上都被高亮了出来，也就是说本文方法在generic task的生成可定位的深度特征时是有效的。

4.1. Fine-grained Recognition(细粒度图像分类)

CUB-200-2011数据集用于识别200种类的鸟，作者使用此数据集是因为其中包含的定位框标注可用于评估本文模型的定位能力。

Table4 为评估结果
在这里插入图片描述
其中Train/Test Anno.项中的n/a表示train和test数据集中皆没有定位框标注，BBox表示皆有定位框标注

可以看到没有任何定位框标注，且训练集和测试集使用整张图像时，GoogLeNet-GAP精确度可达到63%，当使用定位框标注时准确度升至70.5%

考虑到模型的定位能力，作者使用了3.2的从CAM使用threshhold生成定位框方法来先在测试集和训练集中生成鸟的定位框，再使用GoogLeNet-GAP来从裁剪后的定位框里提取特征进行训练测试。作者发现这种细粒化方法能够将无定位框标注的分类结果从63%提升至67.8%，这种方法也能高亮出区分不同类别物体的特征（如鹈鹕和其他鸟类最不同的特征为鹈鹕的嘴巴）。

此外，作者发现，GoogLeNet-GAP 能够在 0.5 联合交集 (IoU) 标准下准确定位 41.0% 的图像中的鸟类，而随机模型性能为 5.5%，Figure7 为一些可视化示例
在这里插入图片描述