Visual Attention Network论文解析
Abstract
图像的**“二维特性”**给自注意机制在视觉中的应用带来的三个挑战:
- (1)将图像作为一维序列处理,忽略了其二维结构
- (2)对于高分辨率图像,二次复杂度过于昂贵
- (3)只捕捉了空间适应性,忽略了通道适应性
为此,文中提出一种新的**“线性注意”**——大核注意(large kernel attention,LKA),具有一下特点:
(1)使自注意具有“自适应”和“远程相关性”
(2)避免自注意的以上缺点
以及一种基于LKA的神经网络——视觉注意网络(VAN)。
补充:——对适应性的理解
在神经网络中,“适应性”通常指网络自适应地学习和提取输入数据中的特征的能力。神经网络可以自适应地调整它的权重和偏置,从而使得网络能够更好地拟合输入数据中的特征,并进行分类、回归等任务。
具体来说,神经网络的适应性表现为它可以自动地学习和提取输入数据中的特征,而不需要手动地指定特征。 例如,在图像分类任务中,神经网络可以自适应地提取输入图像中的边缘、角点、纹理等特征,而不需要手动地指定这些特征。这种自适应性使得神经网络能够处理各种类型的输入数据,并具有较强的泛化能力。
需要注意的是,**神经网络的适应性是通过反向传播算法来实现的。**反向传播算法可以自动地计算网络中每个参数对损失函数的贡献,并根据损失函数的梯度来更新网络中的参数,从而使得网络能够更好地拟合输入数据中的特征。
Introduction
视觉主干——特征提取器
卷积神经网络的发展:
(1)更深层的网络,ResNet
(2)更高效的架构,ShuffleNet
(3)更强的多尺度能力,GoogLeNet
(4)注意力机制,ViT
CNN对于任意大小输入的视觉任务中固有高效的原因:
(1)平移不变性
(2)共享滑动窗口策略
人类视觉系统只处理可能刺激的部分细节,而其余部分几乎未被处理。
因此,选择性注意是处理复杂搜索组合方面的一种重要机制。(例如:特征融合)
注意力机制可以看作是一个基于输入特征的自适应选择的过程。
卷积的不足之处:
(1)采用静态权值
(2)缺乏自适应
LKA吸收了卷积和自关注的优点:
(1)局部结构信息
(2)远程依赖
(3)适应性
同时,避免了二者在信道维度上忽略自适应的缺点
Related Work
Convolutional Neural Networks
计算机视觉的基本问题——如何有效地计算强大的特征表示?
CNN的优势:
(1)局部上下文信息
(2)平移不变性
因此,为进一步提高CNN的可用性,研究的两个方面:
(1)更深
(2)更轻,MobileNet
本文与MobileNet相似:
MobileNet将标准卷积解耦为两个部分:
(1)深度卷积(depthwise convolution)
(2)点向卷积(pointwise convolution)
本文将卷积分级为三个部分,更适合于有效地分解大的核卷积:
(1)深度卷积,(depthwise convolution)
(2)深度和扩展卷积,(depthwise and dilated convolution)
(3)点卷积,(pointwise convolution)
同时,还在方法中引入了注意机制以获得自适应特性。
Visual Attention Methods
计算机视觉中的注意力可以分为四个基本类别:
(1)通道注意
(2)空间注意
(3)时间注意
(4)分支注意
以及它们的组合,如通道和空间注意。
自注意是一种特殊的注意力机制,起源于NLP领域。有效性如下:
(1)捕获远程依赖
(2)适应性
自注意的三个缺点,如上。
根本原因:视觉任务中不同的通道通常代表不同的对象!!
需求:通道适应性
实现:本文中新的“视觉注意方法”——LKA,结合CNN和自注意的优点于一身。
Vision MLP
MLP是CNN出现之前计算机视觉的流行工具,受限之处:
(1)需求高
(2)效率低
最近的研究可以显著减少计算成本和参数,是将标准MLP解耦为:
(1)空间MLP
(2)通道MLP
本文相关的MLP是gMLP,其在分解的同时,还是及注意力机制。缺点如下:
(1)对输入大小敏感,只能处理固定大小的图像
(2)只考虑图像的全局信息而忽略局部信息
本文的方法可以使gMLP趋利避害。
Method
Large Kernel Attention(LKA)
注意力机制
理解:可以看作是一种自适应选择过程,即选择判别特征,并根据特征自动忽略噪声响应。
关键:产生注意力图,用来表示不同部分的重要性。
需求:学习不同特征之间的关系
实现:
1、众所周知的两种方法来建立不同部分之间的关系,分别为:
(1)自我注意机制:捕获远程依赖,但上述三个固有缺点难以逾越
(2)大核卷积:建立相关性并产生注意图,但带来大量计算开销和参数
2、本文中“分解一个大内核卷积”来克服了上述缺点并利用自注意力和大内核卷积的优点:
分解 K × K 大核卷积:
(1)的空间局部卷积,spatial local convolution(深度卷积,depthwise convolution)
(2)的空间远程卷积,扩展长度(dilation)为d,spatial long-range convolution(深度扩张卷积,depthwise and dilated convolution)
(3)1×1 的信道卷积,channel convolution(1×1卷积,pointwise convolution)
在获取远程关系后,便可以估计一个点的重要性并生成注意力图。
LKA的数学模型为:
输入特征:
注意力图,图中的值表示每个特征的重要性:
逐元素乘积:
LKA不需要像sigmoid和softmax那样额外的归一化函数。
注意方法的关键特征是基于输入特征自适应地调整输出,而不是归一化的注意图。
LKA结合了卷积和自关注的优点。它考虑了局部上下文信息、大感受野、线性复杂度和动态过程。
LKA不仅实现了空间维度的自适应性,还实现了通道维度的自适应性。在深度神经网络中,不同的通道通常表示不同的对象和通道维度的适应性对于视觉任务也很重要。
如何理解????????
Visual Attention Network(VAN)
VAN有着简单的层次结构,即输出空间分辨率递减的四个阶段序列。
在每个阶段中,
① 下采样,使用步长控制下采样率。下采样后,一个阶段中的所有其他层保持相同的输出大小,即空间分辨率和通道数量。
② 将L组批处理归一化、1 × 1 Conv、GELU激活、大核关注和前馈网络(FFN)按顺序叠加提取特征。
③ 根据输出通道Ci和不同的参数、计算成本设计的七个架构。
复杂性分析—— 分解后的参数和浮点运算。
在计算过程中省去了偏差,简化了格式。我们假设输入和输出特征具有相同的大小H × W × c。参数P (K, d)和FLOPs F (K, d)的个数可以表示为:
其中,d表示膨胀速率,K表示核大小。
**实现细节——**默认采用K=21,d=3时等式(3)有最小值,相应地5 × 5深度卷积和扩张为3的7 × 7深度卷积。
对于不同大小的通道数,这一分解方法在参数量和FLOPS方面对大核卷积的分解具有明显优势。
ImageNet-1K Experiments
消融实验
DW-Conv。DW-Conv可以利用图像的局部上下文信息。如果没有它,分类性能将下降0.5%(74.9%对75.4%),表明了局部结构信息在图像处理中的重要性。
DW-D-Conv。DW-D-Conv表示深度扩张卷积,它在LKA中起捕获远程依赖的作用。如果没有它,分类性能将下降1.3%(74.1%对75.4%),证实了我们的观点,即远距离依赖对视觉任务至关重要。
注意机制。注意机制的引入可以看作是使网络实现了自适应特性。得益于此,VAN-B0实现了约1.1% (74.3% vs. 75.4%)的改进。此外,用加法运算代替注意力的准确率也不低。
1 × 1 Conv。这里,1 × 1 Conv捕获通道维度上的关系。结合注意机制,引入通道维度的适应性。提高了0.8% (74.6% vs. 75.4%),证明了通道维度适应性的必要性。
Signoid函数。Sigmoid函数是一种将注意力映射从0归一化到1的常用归一化函数。然而,在我们的实验中,我们发现LKA模块是不必要的。没有sigmoid,我们的VAN-B0实现了0.2% (75.4% vs. 75.2%)的改进和更少的计算。
LKA、标准卷积和自注意的总结:
LKA可以利用本地信息,捕获远程依赖关系,并且在通道和空间维度上都具有自适应性。此外,实验结果还证明了这些特性对识别任务都是积极的。
标准卷积虽然可以充分利用局部上下文信息,但忽略了远程依赖性和适应性。
对于自注意,虽然可以捕获远程依赖关系,在空间维度上具有自适应性,但忽略了局部信息和通道维度上的自适应性。
对卷积核的大小进行了消融研究,我们可以发现分解21×21卷积比分解7×7卷积效果更好,这表明大内核对视觉任务至关重要。在分解一个较大的28×28卷积时,我们发现与分解一个21×21卷积相比,增益并不明显。因此,我们默认选择分解21×21卷积。
VAN与其他mlp、cnn和vit现有方法的比较:
Visualization
激活映射(CAM)是一种流行的区分区域(注意图)可视化工具。我们采用Grad-CAM[85]来可视化VAN-B2模型产生的ImageNet验证集上的关注。比较了swwin - t[15]、ConvNeXtT[21]和VAN-B2产生的不同CAM。
我们可以发现VANB2的激活区域更加准确。特别是当物体在图像中占主导地位时(最后3行),我们的方法具有明显的优势,这表明它有能力获得长期依赖。
ImageNet-22K的预训练
我们比较了当前最先进的cnn(例如:, ConvNeXt [21], EFFNetV2[101])和vit(例如:, Swin变压器[15],ViT[13]和CoAtNet[102])。如表8所示,VAN在200M参数下的Top-1准确率达到87.8%,在不同分辨率下均超过了同级ViT[13]、Swin Transformer[15]、EFFNetV2[101]和ConvNeXt[21],证明了VAN具有较强的适应大规模预训练的能力。