【论文阅读笔记】——注意力综述阅读笔记

本文深入探讨了深度学习中用于提高性能的注意力机制,特别是视觉领域的应用,如软注意力、通道注意力、空间注意力、自注意力等。文章指出,尽管注意力机制带来了性能提升,但也面临高计算成本、大量训练数据需求等问题。同时,研究还涵盖了多模态注意力和强化学习在注意力模型中的应用。
摘要由CSDN通过智能技术生成

Visual Attention Methods in Deep Learning: An In-Depth Survey

摘要:受人类认知系统的启发,注意力是一种模仿人类对特定信息的认知意识,放大关键细节以更多地关注数据的本质方面的机制。深度学习已经利用注意力来提高许多应用程序的性能。有趣的是,相同的注意力设计可以适合处理不同的数据模式,并且可以很容易地融入大型网络。此外,多个互补的注意力机制可以合并在一个网络中。因此,注意力技巧变得极具吸引力。然而,文献中缺乏专门针对注意力技术的全面调查,以指导研究人员在其深层模型中使用注意力。请注意,除了在训练数据和计算资源方面要求很高之外,transformer只涵盖了可用的许多类别中的一个自我关注类别。我们填补了这一空白,并对50项注意力技术进行了深入调查

1. 引言

2. 视觉领域中的注意力机制

2.1 软注意力

本节回顾软注意方法,如通道注意、空间注意和自我注意。在通道注意力中,分数是按通道计算的,因为每个特征图(通道)都关注输入的特定部分。在空间注意力中,主要思想是关注图像中的关键区域。关注感兴趣区域有助于对象检测、语义分割和人员重新识别。与通道注意力相反,空间注意力关注空间地图中的重要部分(以宽度和高度为界)。它可以独立使用,也可以作为引导注意力的补充机制。另一方面,自注意力被提议通过提取输入序列标记之间的关系来编码高阶交互和上下文信息。它与通道注意力的不同之处在于它如何生成注意力分数,因为它主要计算同一输入的两个图(K,Q)之间的相似性,而通道注意力从单个图生成分数。然而,自注意力和通道注意力都是在通道上运行的。软注意力方法将注意力分数计算为所有输入实体的加权和,主要使用软函数,如 softmax 和 sigmoid。由于这些方法是可微分的,因此可以通过反向传播技术对它们进行训练。然而,它们还存在其他问题,例如高计算复杂性和为无人值守的对象分配权重。

2.1.1 通道注意力

 Squeeze & Excitation Attention (SE):通道挤压后进行对特征进行特征提取,通过激活函数提取各通道注意力,并赋值给各通道(与RCAN中的CA很像)

 Efficient Channel Attention (ECA):基于挤压和激励网络(SE),旨在通过消除降维来提高效率并降低模型复杂性。

Split-Attention Networks(ResNest):ResNest也是一种特殊类型的挤压和激励,它使用分割通道的平均池化和求和来挤压通道。

Channel Attention in CBAM(CBAM):SE-Net的进阶,使用Maxpool与AvePool共同提取注意力

Second-order Attention Network(SOCA):针对单幅图像超分辨,采用全局协方差池化,通过二阶特征统计来学习特征相关性。

High-Order Attention(HA):在计算每个像素的注意力图之后,使用图转导来形成最终的特征图。该特征表示用于通过使用上下文信息的加权和来更新每个像素位置。

Harmonious attention:和谐注意力在一个分支中学习两种类型的软注意力(空间和通道),在另一个分支学习硬注意力。此外,它提出了这两种注意力类型之间的交叉交互注意力协调。

Auto Learning Attention:HOGA和DARTS。注意力模块的核心思想与之前的体系结构相同

Double Attention Networks(A2-Nets):该网络分两步处理输入图像。第一步使用双线性池来收集所需的特征,以对实体之间的二阶关系进行编码,第二步将特征自适应地分布在各个位置上。

Dual Attention Network(DAN):该网络由并行工作的位置注意力和通道注意力组成。位置注意力和空间注意力在结构上大体相同,但位置注意力通过三个卷积层来生成三个特征图,然后进行后续的处理,空间注意力直接将输入图片进行操作。

Frequency Channel Attention:全局平均池运算可以用频率分量代替。频率注意将离散余弦变换视为具有余弦部分的加权输入和。

2.1.2 空间注意力

空间注意力侧重于从特征图的空间补丁而不是通道生成注意力得分。

Spatial Attention in CBAM(CBAM):特征图通道信息通过平均池特征和最大池特征进行聚合,然后进行级联和卷积以生成2D空间注意力图。

Co-attention & Co-excitation:使用编码长程依赖性和二阶相互作用的非局部网络来丰富提取的特征表示

Spatial Pyramid Attention Network(SPAN):它由三个主要模块组成,即特征提取(头部)模块、金字塔空间注意力模块和决策(尾部)模块。

Spatial-Spectral Self-Attention:空间光谱自注意力,主要由两部分组成,空间自注意力及光谱自注意力,两者都利用了自注意力。

Pixel-wise Contextual Attention: (PiCANet):像素化语境关注

Pyramid Feature Attention:从不同级别的VGG中提取特征

Spatial Attention Pyramid:从在特征图上操作的不同大小的多个平均池化层中提取特征。这些特征被转移到空间注意力,然后是通道注意力。注意力之后的所有特征都被连接起来,形成一个单一的语义向量。

Region Attention Network(RANet):在语义分割领域被提出,由区域构建块(RCB)和区域交互块(RIB)两个模块组成。

2.1.3 自注意力 

自我注意,也称为内部注意,是一种对所有输入实体之间的关系进行编码的注意机制。这是一个使输入序列能够相互作用并聚合注意力得分的过程,这说明了它们的相似性。其主要思想是将特征图复制成三个副本,然后测量它们之间的相似性。

Transformers:基于无卷积和递归模块的自注意概念。由编码器—解码器两个部分组成。

Standalone self-attention:卷积特征由于其局部偏置感受野而不考虑全局信息,而不是将注意力特征增强到卷积特征。利用自注意模块代替空间卷积。

Clustered Attention:为了解决transformer的计算效率低下的问题,提出了一种集群注意力机制,该机制依赖于相关查询在欧几里得中心遵循相同分布的思想。

Slot Attention:提出了槽式注意力,这是一种学习场景中对象表示的注意力机制

Efficient Attention:提出了对称的局部敏感哈希(LSH)聚类,以减少注意力图的大小,从而开发了有效的模型。

Random Feature Attention:提出将Transformers的时间和空间复杂性从二次型降低到线性型。它们只是使用随机函数来增强softmax近似。

Non-local Networks:提出了非局部网络,以减轻细胞神经网络对局部信息的偏见,并将全局信息融合到网络中。它用上下文信息,即整个特征图的加权和,来增强卷积特征的每个像素。以这种方式,以长程方式对图像中的相关补丁进行编码。

Non-Local Sparse Attention (NLSA):提出了一种稀疏非本地网络,以结合非本地模块的优点来编码长程依赖关系和稀疏表示,以实现鲁棒性。

X-Linear Attention:X-Linear:注意模块提出了一种新的注意机制,不同于transformer[2]。与变换器中的二次型相比,它能够在不进行位置编码的情况下仅以线性复杂度对输入令牌之间的关系进行编码。

Axial-Attention:提出了轴向注意力来编码主题的全局信息和长期上下文,同时降低了计算复杂度,不仅与全注意力模型相比,而且与卷积注意力模型相比都表现出竞争性能。

Efficient Attention Mechanism:通过一个简单的更改,降低了处理和内存使用的复杂性,从而能够在大规模任务中集成注意力模块。

2.1.4 算术注意力

这部分介绍了算术注意力方法,如脱落法、镜像法、反向法、逆法和倒数法。我们将其命名为算术,因为这些方法与上述技术不同,尽管它们使用了它们的核心。然而,这些方法主要从注意力的倒数等简单的算术方程中产生最终的注意力得分。

Attention-based Dropout Layer:提出使用Dropout层通过两个步骤来提高定位精度:甚至通过隐藏最具鉴别力的部分来确定整个对象的位置,以及关注整个区域来提高识别性能。

Mirror Attention:镜像注意力来学习更多的语义特征。他们围绕候选线翻转特征图,然后将特征图连接在一起。如果行未对齐,则应用零填充。

Reverse Attention:他们的动机是高级语义表征中类之间的可分辨性较低,以及潜在表征对正确类的反应较弱。

2.1.5 多模态注意力

多模态注意力是用来处理多模态任务的,使用不同的模态来产生注意力如文本和图像。

Cross Attention Network(CAN):提出了一种交叉注意力模块(CAN)来增强少镜头分类的整体辨别力,但它依赖于余弦相关等不可学习的函数,并且虽然它适用于少镜头分类,但不通用,因为它依赖于两个流(查询和目标)。

Criss-Cross Attention:交叉注意力提出在交叉路径中对图像中每个像素的上下文进行编码。通过构建纵横交错注意力的递归模块,对每个像素的整个上下文进行编码。

Perceiver T raditional:受同时通过各种模态理解环境的生物系统的启发,提出了迭代利用这些模态之间关系的感知器。由于权重共享,感知器与RNN相似。它由两个主要组成部分组成:交叉注意将输入图像或输入向量映射到潜在向量和变换塔。

Stacked Cross Attention:提出了一种在图像和句子上下文之间进行处理的方法。

Boosted Attention:提出了一种增强注意力模型,将自上而下的注意力机制和视觉刺激方法结合在一起,以关注来自语言的自上而下的信号,并独立关注来自刺激的显著区域。

2.1.6 逻辑注意力

类似于人类如何更加关注关键特征,已经提出了一些方法来使用递归来编码更好的关系。这些方法依赖于使用RNN或任何类型的顺序网络来计算注意力。我们将其命名为逻辑方法,因为它们使用类似于逻辑门的架构。

Sequential Attention Models(S3TA):提出了软的、顺序的、空间自上而下的注意力方法(S3TA),以更多地关注图像的关注区域。尽管S3TA提供了一种使用递归网络来增强注意力模块的新方法,但它是低效的。

Permutation invariant Attention:提出了一种基于注意力的方法来处理数据集,贡献主要有三点:1.设置注意块(SAB),类似于多头注意块(MAB)层[2],但没有位置编码和丢弃 2.降低计算的复杂度 3.多头注意力(PMA)的池化在种子向量的可学习集合上使用MAB。

Show, Attend and Tell:关注特定的图像区域,用于使用LSTM[161]生成与图像对齐的字幕序列

2.1.7 基于类别的注意力

Guided Attention Inference Network(GAIN):提出了类意识注意,即由标签引导的引导注意推理网络(GAIN)。GAIN不是只关注图像中最具鉴别力的部分[170],而是将上下文信息包括在特征图中。

Curriculum Enhanced Supervised Attention Network:一种生成监督注意力网络(SAN)的新想法

Attentional Class Feature Network(ACFNet):一种利用上下文信息进行语义分割的新想法。这种上下文信息是基于类别的,实验表明ACFNet在语义分割方面具有显著的改变。

2.2 硬(随机)注意力

硬注意力不是使用隐藏状态的加权平均值,而是选择其中一个状态作为注意力得分。

2.2.1 基于统计的硬注意力

Bayesian Attention Modules (BAM):与确定性注意力模块相反,Fan等人[59]提出了一种基于贝叶斯图模型的随机注意力方法。

Variational Attention:提出了使用变分注意机制。潜在变量是至关重要的,因为它编码实体之间的依赖关系。

2.2.2 基于强化的注意力

Self-Critic Attention:提出了一种自我批评注意力模型,该模型使用代理生成注意力,并使用增强算法重新评估该注意力的增益,使用了强化算法来指导整个过程。

Reinforced Self-Attention Network:将软注意力和硬注意力结合在一种方法中。软注意力在建模局部和全局依赖关系方面表现出了有效性,然而,软注意力是基于softmax函数的,该函数为每个项目分配值,甚至是未参与的项目,这削弱了整个注意力。另一方面,硬关注[12]只关注重要区域或标志,而忽略其他区域或标志,在时间和可微性方面效率低下。使用硬注意力提取丰富的信息,然后将其输入软注意力进行进一步处理。同时,软注意力被用来奖励硬注意力,从而稳定训练过程。

2.2.3 基于高斯的注意力

Self Supervised Gaussian-Attention:大多数软注意力模型使用softmax来预测特征图的注意力,提出用高斯注意力模块取代经典的softmax

Uncertainty-Aware Attention:由于注意力是在没有完全监督的情况下产生的(即以弱监督的方式),因此它缺乏完全的可靠性。使用基于输入的不确定性

2.2.4 聚类

Expectation Maximization attention:使用期望最大化来选择紧凑的基集,而不是使用所有像素

3. 问题和挑战

高计算成本、大量的训练数据、模型的效率以及性能改进的成本效益分析。

模型的泛化能力:一些模型(例如通道和空间注意力)在分类方面表现更好,因为注意力模型主要是为高级任务设计的;当直接应用于低级视觉任务时,它们会失败;需要提高模型的泛化能力

效率:一些模型显示出良好的性能,但却是以巨大的计算复杂性为代价的

多模型数据:注意力模型是否能够以有意义的方式融合输入数据,同样,注意力模型也可以用来知道它们是否能够以统一的方式预测标签、动作和属性之间的关系。

训练数据量:与简单的非注意力模型相比,注意力模型通常依赖更多的训练数据来学习重要方面。数据的增加也意味着更多的训练时间和计算资源。

性能比较

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值