目录
attention 机制最初是出现在翻译领域的,之后逐渐应用到检测和识别上的。
总的来说,我觉得attention就是对提取的特征进行加权,进行提升重要特征忽略次要特征的作用。在这个本质作用上,我觉得和SEnet的目的是相似的,只是提纯的手段不一样。
论文:Residual Attention Network for Image Classificatio
论文理解
总的来说,这篇论文有几个重要的方面加两张重要的图。
几个重要的方面:(introduction)
1.利用可堆叠的结构:Stacked network structure
2.attention residual learning:基于attention模块,借鉴residual的思想,残差学习。
3.soft mask attention。
两张图:
1.整体结构图:
2.soft mask
这张图的主要目的是表述,通过softmask branch ,扩大了感受野。同时将attention得到的权重信息和原始map定位对应上,最终取得加权的map。
由于加权之后的值是原始map乘以了(0,1)系数的map,所以会越来越小,同时借鉴了residualnet,加入了skip connect。
结构解释:
网络结构中主要的就是不同stage的attention branch。根据stage的不同,map的尺寸是不同的,所以attention的dpwnsample数量不同,比如stage1就是从56*56降到28*28再到14*14,同时对称的为3个upsample层。具体的attention如下所示:
其中的三角表示下采样和上采样,条形为residual unit。
我觉得这个attention形成模块化的好处之一是,可以用多层的down-up的结构来替换,比如说命名上图中的三个结构分别为a1,a2,a3。在原始论文中的结构,stage1,2,3分别是使用的a1,a2,a3。这是为了匹配尺寸设计的,具体的提升效果暂时不知道。
同时,加入不考虑尺寸的匹配的话,是不是也可以三个stage都使用a3结构,或者其他的组合结构。
复现的结果:
在同等情况下,带有attention的结构比不带attention的结构确实有提升效果,而不同组合的attention之间的效果仅有略微的差异。