Paying More Attention to Attention (ICLR 2017)------阅读笔记

最新推荐文章于 2022-04-12 10:03:29 发布

落了一地秋

最新推荐文章于 2022-04-12 10:03:29 发布

阅读量1.6k

点赞数

分类专栏：知识蒸馏文章标签：神经网络深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_46239293/article/details/118100848

版权

知识蒸馏专栏收录该内容

14 篇文章 1 订阅

订阅专栏

PAYING MORE ATTENTION TO ATTENTION: IMPROVING THE PERFORMANCE OF CONVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER

Paper and Code
SUGGESTION
Abstract
1 Introduction
2 RELATED WORK
3 ATTENTION TRANSFER
4 EXPERIMENTAL SECTION

IMPROVING THE PERFORMANCE OF CONVOLUTIONAL
NEURAL NETWORKS VIA ATTENTION TRANSFER)

Paper and Code

SUGGESTION

建议使用GRADIENT-BASED ATTENTION TRANSFER就可以

Abstract

使学生CNN网络模仿强大的教师网络的注意力图来显著提高其性能

1 Introduction

定义了两种类型的空间注意图:基于激活的和基于梯度的空间注意图
其可用于显著提高卷积神经网络体系结构(各种类型并针对各种不同任务进行训练)的性能。
为此，作者提出了几种将注意力从强大的教师网络转移到较小的学生网络的新方法，目的是提高后者的性能。
在这里插入图片描述
Figure 1: (a) An input image and a corresponding spatial attention map of a convolutional network that shows where the network focuses in order to classify the given image. Surely, this type of map must contain valuable information about the network. The question that we pose in this paper is the following: can we use knowledge of this type to improve the training of CNN models ?
(b) Schematic representation of attention transfer: a student CNN is trained so as, not only to make good predictions, but to also have similar spatial attention maps to those of an already trained teacher CNN.
图1: (a)输入图像和卷积网络的相应空间注意力图，该图显示了网络聚焦的位置，以便对给定图像进行分类。当然，这种类型的地图必须包含关于网络的有价值的信息。我们在文中提出的问题是:能否利用这类知识来提高CNN模型的训练？
(b)注意力转移的图式表征:训练一名学生CNN，不仅是为了做出好的预测，而且是为了获得与已经受过训练的教师CNN相似的空间注意力地图。

2 RELATED WORK

3 ATTENTION TRANSFER

空间注意力图的两种方法:
3.1 ACTIVATION-BASED ATTENTION TRANSFER
3.2 GRADIENT-BASED ATTENTION TRANSFER

3.1 ACTIVATION-BASED ATTENTION TRANSFER

在这里插入图片描述
一个CNN层及其对应的激活张量A ∈ R^C×H×W，它由空间维度为H×W的C个特征平面组成。一个基于激活的映射函数F(在该层中)将上述3D张量A作为输入，并输出一个空间注意力图，即在空间维度上定义的平坦2D张量:
在这里插入图片描述

在这里插入图片描述
如何定义空间注意力映射函数？
一个隐藏神经元激活的绝对值(当网络在给定的输入上被评估时产生的)可以被用作该神经元相对于特定输入的重要性的指示。因此，通过考虑张量A元素的绝对值，我们可以通过计算这些值在通道维度上的统计来构建空间注意力图(见图3)。
从而提出上面三种映射函数。
在这里插入图片描述

三种空间注意力映射函数的差异

在这里插入图片描述
F_sum(A)映射函数表现情况：
中等水平的注意力地图在眼睛、鼻子和嘴唇周围有较高的激活水平，高水平的激活对应于整个面部

在图4的左侧是中层预平均池激活，在右侧是顶部预平均池激活
空间注意力图效果图的发现（Figure 4）：
（1）隐藏层激活的上述统计不仅与图像级别上的预测对象具有空间相关性，而且这些相关性在具有更高准确度的网络中也往往更高，并且更强的网络在弱网络没有注意到的地方具有峰值(例如，参见图4)。
（2）此外，注意力图关注网络中不同层的不同部分。在第一层中，低级别梯度点的神经元激活级别较高，在中间，眼睛或车轮等最具识别性的区域的激活级别较高，而在顶层，它反映了整个对象。例如，为面部识别而训练的网络的中级注意力图，帕克希等人(2015)将在眼睛、鼻子和嘴唇周围具有较高的激活，并且顶级激活将对应于全脸(图2)。
（3）大多数区别性区域具有更高的激活水平，例如狼的脸，并且形状细节随着参数p(用作指数)的增加而消失。
在这里插入图片描述
F^p_sum(A)和F^p_max(A)差异：
F^p_sum(A) 对于多个高激活神经元，给予更多权重
而F^p_max(A)则是取最大而针对一个。

根据教师和学生的深度，可以考虑以下两种情况

在注意力转移中，给定教师网络的空间注意力图(使用任何上述注意力映射函数计算)，目标是训练学生网络，其不仅做出正确的预测，而且具有与教师相似的注意力图。一般来说，人们可以把转移损失放在几层计算的w.r.t .注意图中。例如，在ResNet架构的情况下，根据教师和学生的深度，可以考虑以下两种情况:
在这里插入图片描述

注：一个组指一个3 × 3、1 × 1、1 × 1卷积的块

AT_Loss

在这里插入图片描述

可结合Hinton的KD

在这里插入图片描述

3.2 GRADIENT-BASED ATTENTION TRANSFER

这种情况下，我们将注意力定义为梯度,也就是说，输入可将其视为输入敏感度图，即输入空间位置的注意力编码输出预测对输入位置的敏感度(例如，如果像素的微小变化会对网络输出产生较大影响，则假设网络正在“关注”该像素是合乎逻辑的)。让我们将教师和学生输入的梯度损耗定义为:

在这里插入图片描述
然后，如果我们希望学生的梯度注意力类似于老师的注意力，我们可以最小化它们之间的距离(这里我们使用L2距离，但是也可以使用其他距离):

当W_T和x给定时，要得到所需的导数 W_S:

不规范翻译如下，以作参考：
因此，要进行更新，我们首先需要进行前向和后向传播，以获得JS和JT，计算第二个错误β2 | | JS-JT | | 2，并进行第二次传播。在这种情况下，第二传播类似于前向传播，并且涉及二阶混合偏导数计算∂2 ∂WS∂x.。上述计算类似于德鲁克和勒肯(1992)开发的双反向传播技术(其中梯度w.r.t .输入的L2范数被用作正则化)。此外，它可以在支持自动区分的框架中高效地实现，即使对于具有复杂图形的现代架构也是如此。第二次反向传播的成本与第一次反向传播大致相同，不包括前向传播。
在这里插入图片描述
我们还建议在梯度注意力地图上加强水平翻转不变性。为了做到这一点，我们传播水平翻转的图像以及原件，反向投影和翻转梯度注意力图回来。然后，我们在获得的关注和输出上增加L2损耗，并进行第二次反向传播:
在这里插入图片描述
不规范翻译如下，以作参考：

其中flip(x)表示翻转运算符。这类似于科恩和韦林(2016)的群体等变CNN方法，但这不是一个硬约束。我们通过实验发现，这对训练有正则化效果。

我们应该注意到，在这项工作中，我们只考虑输入层的梯度，但一般来说，在网络的较高层可能会有建议的注意力转移和对称性约束

4 EXPERIMENTAL SECTION

两部份实验：
(1)activation-based attention transfer and gradient-based attention transfer experiments on CIFAR,
激活注意力和梯度注意力在CIFAR数据集。
(2)activation-based attention transfer experiments on larger datasets.
激活注意力在大数据集的实验。

对于基于激活的注意力转移，用Network-In-Network、基于ResNet的体系结构、WRN，针对小型和大型数据集。具体的，在Scenes、CUB和ImageNet上，用ResNet-18和ResNet-34进行了实验。

对于基于梯度的注意力转移，由于需要复杂的自动区分，我们用Network-In-Network，在没有批处理和规一化的CIFAR数据集实验。
在这里插入图片描述

在这里插入图片描述

落了一地秋

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
Paying More Attention to Attention (ICLR 2017)------阅读笔记

PAYING MORE ATTENTION TO ATTENTION:IMPROVING THE PERFORMANCE OF CONVOLUTIONALNEURAL NETWORKS VIA ATTENTION TRANSFERPaper and CodeAbstract1 Introduction2 RELATED WORK3 ATTENTION TRANSFER3.1 ACTIVATION-BASED ATTENTION TRANSFER三种空间注意力映射函数的差异根据教师和学生的深度，可以考虑以
复制链接

扫一扫