Fully Attentional Network for Semantic Segmentation

论文提出全注意力网络(FLANet)以解决语义分割中的注意力缺失问题,通过结合空间和通道注意力,保持高计算效率。FLANet在单一的相似度图中编码了所有通道和空间位置的特征响应,从而提高了大型对象和细小类型的分割效果。实验表明,FLANet优于传统的non-local方法,并在Cityscapes验证集中取得了更好的分割结果。
摘要由CSDN通过智能技术生成

Abstract

论文地址:paper-AAAI2022
代码地址:Github

提出了什么问题?解决了什么问题?

语义分割中,non-local(NL)的方法起到了很好的捕捉long-range dependencies的作用,可以分为channel non-local和spatial non-local两种。但这俩都存在一个问题:注意力缺失(attention missing)。

作者为了解决这个问题提出了全注意力网络(FLANet),在保持高计算效率的同时,将空间和通道注意力编码到单个similarity map中,具体来说,对于每个通道图,FLANet可以通过一个新的完全注意力模块从所有其他通道图以及相关的空间位置获取特征响应。


Introduction

在这里插入图片描述

针对channel non-local,可以看出channel attention map是由两个输入矩阵( C ∗ H W C*HW CHW H W ∗ C HW*C HWC)相乘生成的,每个通道可以与其它所有通道图链接,而空间信息将被集成,并且每个空间位置在矩阵相乘中无法感知到来自其它位置的特征响应,也就是说缺失了不同位置之间的联系
类似地,针对spatial non-local,能找到每个空间位置之间的关系,但所有channel特征也被集成了起来,缺失了不同channel之间的联系

作者认为这种attention missing问题会破坏三维语义信息的完整性,为了验证这个猜想,作者给出了图2中citysacpes验证集每个类别的比较结果。

在这里插入图片描述

可以看出channel NL在大型对象之间获得了更好的分割结果,而spatial NL在细小类型上表现更好。
而将两个NL堆叠仍然存在注意力缺失问题,如,Dual NL是将二者并行连接,CS NL是顺序连接,讲道理同时使用两个NL时每个类的精度增益应该不小于单个NL,然而Dual NL在大型目标(truck, train)中性能下降很多,而CS NL在比较thin的类别(pole, mbike)中的IoU结果较差,得出结论,并行或串行连接都只能保留它们各自的部分优点,而FLA可以成功解决这个问题。


Method

全文的基本思路为:
在计算channel attention map时,使用全局上下文特征来保存空间响应特征,这能在一个单一的attention中实现充分的注意,并具有高的计算效率。下图为整体结构(S为合并后的维度):
在这里插入图片描述

  • 首先,让每个空间位置来捕捉全局上下文的特征响应
  • 之后,使用self-attention机制来捕捉两个channel之间和相应空间位置的全注意力相似度
  • 最后,使用全注意力相似度来对channel map进行re-weight

可以看到FLA生成的attention map为 ( C ∗ C ) ( H + W ) (C*C)(H+W) (CC)(H+W),其中 C ∗ C C*C CC是通道注意力权重, ( H + W ) (H+W) (H+W)是每行和每列的注意力权重。

输入特征图 F i n ∈ R C × H × W F_{in}∈R ^{C×H×W} FinRC×H×W,FLA结构图如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值