CCNet:Criss-Cross Attention for Semantic Segmentation
https://arxiv.org/abs/1811.11721v2
1、创新点
提出十字交叉网络来有效提取上下文信息,相较于非局部注意力,GPU内存使用减少11倍
并且提出类别一致性损失,增强交叉注意力模块的识别能力。
2、解决的问题
1、目前的FCN,仅能提供短程上下文的局部感受野,上下文信息不足的局限性对分割造成很大的不利影响。
2、为了引入上下文信息,各种工作ASPP、PSP.
3、APPROACH
1、网络结构
移除了最后两次的下采样操作,并在后续的卷积层中使用了膨胀卷积,输出是输入的1/8
RCCA:给定X,首先先降维得到H,在进行两次的criss-cross attention
进行一个远距离残差连接,在进行特征融合、上采样输出
2、criss cross attention
3、Recurrent Criss-Cross Attention
一个像素可以在水平和垂直方向上捕捉上下文信息。但是与周围不在交叉路径的像素之间的连接仍不存在,为解决这个问题,作者对CCA进行一个重复进行的操作
4、类别一致性损失
定义:属于同一类的像素应该具有相近的特征;不同类别应该具有相距较远的特征。