本文从增强全局的特征融合以及语义特征质之间的相关性为切入点,提出了Position Attetion 和 Channel Attention mechanism(位置注意力机制和通道注意力机制)的方法。
目前基于深度学习的语义分割网络采用multi scale融合或者U-Net的结构去融合低层和高层的语义特征,但是还是没有综合考虑各个位置的联系和相关性。因为CNN使用局部感受野进行特征的提取,这就导致即使是相同的像素标签在最终的feature map上的表达也可能不同,致使分割的类内不一致性,产生误分割。 其次,对于语义分割,每个通道的map相当于是对每一类的响应,因此对于通道间的相关性也应着重考虑。
网络架构:
整体网络架构如上图所示,backbone采用ResNet,为更好地进行语义分割,作者对ResNet做出以下改动,将最后的downsampling取消,采用空洞卷积来达到即扩大感受野又保持较高空间分辨率的目的,然后进行两个并行的位置注意力机制和通道注意力机制操作,最终将两个模块的结果进行elementwise操作。
Postion Attention Module:
位置注意力机制模块如上图所示,B、C、D由A卷积得到,维度均为C*H*W。将B、C、D都reshape到C * N(N = H*W);然后将C的转置于B相乘到N*N的矩阵, 对于矩阵的每一个点进行softmax,例如对于i行j列的点(i, j),softmax考虑的是i行的每一个点。然后将D与softmax后的结果相乘并reshape到C*H*W,与A进行elementwise。以上操作如下式所示:
从上式可以直接看出每个位置都融合了其他位置的信息。
Channel Attention Module:
在通道注意力机制中,B与C的转置相乘C*C的矩阵,然后针对C*C的矩阵进行softmax操作,具体如下是所示:
如上式所示,每个通道也融合其他通道的信息。