Fully Attentional Network for Semantic Segmentation

big_hm

于 2022-07-21 10:49:29 发布

阅读量349

点赞数

分类专栏：论文阅读笔记文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/woshilaixiazaidemiao/article/details/125896232

版权

论文提出全注意力网络（FLANet）以解决语义分割中的注意力缺失问题，通过结合空间和通道注意力，保持高计算效率。FLANet在单一的相似度图中编码了所有通道和空间位置的特征响应，从而提高了大型对象和细小类型的分割效果。实验表明，FLANet优于传统的non-local方法，并在Cityscapes验证集中取得了更好的分割结果。

摘要由CSDN通过智能技术生成

Abstract

论文地址：paper-AAAI2022
代码地址：Github

提出了什么问题？解决了什么问题？

语义分割中，non-local(NL)的方法起到了很好的捕捉long-range dependencies的作用，可以分为channel non-local和spatial non-local两种。但这俩都存在一个问题：注意力缺失(attention missing)。

作者为了解决这个问题提出了全注意力网络（FLANet），在保持高计算效率的同时，将空间和通道注意力编码到单个similarity map中，具体来说，对于每个通道图，FLANet可以通过一个新的完全注意力模块从所有其他通道图以及相关的空间位置获取特征响应。

Introduction

在这里插入图片描述

针对channel non-local，可以看出channel attention map是由两个输入矩阵（ $C * H W$ 和 $H W * C$ ）相乘生成的，每个通道可以与其它所有通道图链接，而空间信息将被集成，并且每个空间位置在矩阵相乘中无法感知到来自其它位置的特征响应，也就是说缺失了不同位置之间的联系。
类似地，针对spatial non-local，能找到每个空间位置之间的关系，但所有channel特征也被集成了起来，缺失了不同channel之间的联系。

作者认为这种attention missing问题会破坏三维语义信息的完整性，为了验证这个猜想，作者给出了图2中citysacpes验证集每个类别的比较结果。

在这里插入图片描述

可以看出channel NL在大型对象之间获得了更好的分割结果，而spatial NL在细小类型上表现更好。
而将两个NL堆叠仍然存在注意力缺失问题，如，Dual NL是将二者并行连接，CS NL是顺序连接，讲道理同时使用两个NL时每个类的精度增益应该不小于单个NL，然而Dual NL在大型目标（truck, train）中性能下降很多，而CS NL在比较thin的类别（pole, mbike）中的IoU结果较差，得出结论，并行或串行连接都只能保留它们各自的部分优点，而FLA可以成功解决这个问题。