【文献阅读】Asymmetric Non-local Neural Networks for Semantic Segmentation

最新推荐文章于 2022-07-03 00:38:18 发布

Dogged21

最新推荐文章于 2022-07-03 00:38:18 发布

阅读量750

点赞数 1

分类专栏：文献阅读文章标签：算法机器学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43578873/article/details/105903279

版权

文献阅读专栏收录该内容

16 篇文章 4 订阅

订阅专栏

原文链接：https://arxiv.org/abs/1908.07678
代码：https://github.com/MendelXu/ANN.git

Non-local 是一种特别有用的语义分割技术，但也因其难以进行计算和占用GPU内存而受到批评。本文提出了Asymmetric Non-local Neural Network，其中有两个突出的组成部分：Asymmetric Pyramid Non-local Block（APNB） 和 Asymmetric Fusion Non-local Block（AFNB）。APNB利用金字塔采样模块，在不牺牲性能的前提下，极大地减少了计算和内存消耗；AFNB是由APNB演化而来的，在充分考虑了长期相关性的前提下，融合了不同层次的特征，从而大大提高了性能。

核心思路是：
只要query分支和key分支的输出保持相同的大小，Non-local的输出大小就保持不变。考虑到这一点，如果只从key分支和value分支中选取几个有代表性的点作为样本，就有可能在不牺牲性能的情况下显著降低时间复杂度。如下图所示，其中， $\ll N$ 。
在这里插入图片描述

Asymmetric Non-local Neural Network

提出了APNB和AFNB，其中APNB旨在减少Non-local的计算开销，AFNB提高了Non-local的学习能力，从而提高了分割性能。

重识Non-local

在这里插入图片描述
考虑输入特征图 $\in \mathbb{R}^{C \times H \times W}$ ，三个 $\times 1$ 卷积 $W_{\phi}$ 、 $W_{\theta}$ 和 $W_{\gamma}$ 用来将 $X$ 变换到不同的嵌入式空间 $\phi \in \mathbb{R}^{C' \times H \times W}$ 、 $\theta \in \mathbb{R}^{C' \times H \times W}$ 、 $\gamma \in \mathbb{R}^{C' \times H \times W}$
$\phi = W_{\phi}(X), \space \theta = W_{\theta}(X), \space \gamma = W_{\gamma}(X)$
接着将他们三个 $f l a t t e n$ 为 $\times N$ ， $N$ 为空间中总像素数， $\times W$ 。相似度矩阵 $\in \mathbb{R}^{N \times N}$ 可由矩阵乘法计算
$\phi^T \times \theta$
接着，将 $V$ 进行归一化
$\vec{V}=f(V)$
$f$ 有三种形式，分别为 $s o f t m a x$ 、 $r e s c a l i n g$ 和 $n o n e$ ，这里选择用 $s o f t m a x$ 。对于 $\gamma$ 中的每个位置，都可以计算输出为
$O=\vec{V} \times \gamma^T$
其中， $\in \mathbb{R}^{N \times C'}$ 。通过参考Non-local的设计，最终的输出为
$W_o(O^T) + X \space or \space Y = cat(W_o(O^T),X)$
其中， $W_o$ 使用 $\times 1$ 卷积，作为一个加权参数来调整Non-local的重要性，并且将通道维度从 $C^{'}$ 还原为 $C$ 。

Asymmetric Pyramid Nonlocal Block（APNB）

动机和分析

Non-local在两个矩阵相乘的时间复杂度为 $O(C'N^2)=O(C'H^2W^2)$ 。在语义分割任务中，网络的输出通常有较大的分辨率来保持细节的语义信息， $N$ 通常很大。
一个更直接的 $p i p e l i n e$ 如下：
$\mathbb{R}^{N \times C'} \times \mathbb{R}^{C' \times N}\rightarrow \mathbb{R}^{N \times N} \times \mathbb{R}^{N \times C'} \rightarrow \mathbb{R}^{N \times C'}$
通过将 $N$ 变为 $S$ （ $\ll N$ ），输出尺寸保持不变
$\mathbb{R}^{N \times C'} \times \mathbb{R}^{C' \times S}\rightarrow \mathbb{R}^{N \times S} \times \mathbb{R}^{S \times C'} \rightarrow \mathbb{R}^{N \times C'}$
将 $N$ 变为更小的 $S$ 相当于从图中采样几个有代表性的点，而不是考虑空间中所有的点，从而将计算量大大减少。

方法

在这里插入图片描述
在 $\theta$ 和 $\gamma$ 后，通过添加采样模块 $P_\theta$ 和 $P_\gamma$ ，来采样一些稀疏的锚点，得到 $\theta_P \in \mathbb{R}^{C' \times S}$ 和 $\gamma_P \in \mathbb{R}^{C' \times S}$ ，其中 $S$ 为采样锚点的个数。数学公式为
$\theta_P = P_{\theta}(\theta),\space \gamma_P = P_{\gamma}(\gamma)$
$\phi$ 与锚点 $\theta_P$ 间的相似度矩阵 $V_P$ 如下
$V_P=\phi^T \times \theta_P$
其中， $V_P$ 是一个不对称的矩阵，大小为 $\times S$ 。接下来与Non-local一样进行归一化，得到 $\vec{V_P}$ 。 $a t t e n t i o n$ 输出为
$O_P=\vec{V_P} \times \gamma_P^T$
最终的输出 $Y_P$ 为
$Y_P = cat(W_o(O_P^T),X)$
时间复杂度仅为 $O (C^{'} N S)$ ，比标准Non-local中的 $O(C'N^2)$ 小很多。

前面的工作表明，全局和多尺度对语义分割很有帮助，因此，在Non-local块中嵌入金字塔池化来增强全局表示。
在这里插入图片描述
这四个池化结果被平铺并连接起来，作为被采样的点。设置 $\subseteq \{1,3,6,8\}$ ，则锚点的总量为
$\sum_{n \subseteq \{1,3,6,8\}}n^2$

Asymmetric Fusion Nonlocal Block（AFNB）

在这里插入图片描述
不同层级的特征融合对语义分割有帮助，将特征融合加入到Non-local中，得到Fusion Non-local Block。
标准的Non-local只有一个输入源，而FNB有两个输入源：一个高级特征图 $X_h\in \mathbb{R}^{C_h \times N_h}$ 和一个低级特征图 $X_l \in \mathbb{R}^{C_l \times N_l}$ 。同样的， $\times 1$ 卷积 $W_{\phi}^h$ 、 $W_{\theta}^l$ 和 $W_{\gamma}^l$ 被用来将 $X_h$ 和 $X_l$ 变换到嵌入式空间 $\phi_h \in \mathbb{R}^{C' \times N_h}$ 、 $\theta_l \in \mathbb{R}^{C' \times N_l}$ 和 $\gamma_l \in \mathbb{R}^{C' \times N_l}$
$\phi_h=W_{\phi}^h(X_h),\space \theta_l=W_{\theta}^l(X_l),\space \gamma_l=W_{\gamma}^l(X_l)$
$\phi_h$ 和 $\theta_l$ 间的相似度矩阵 $V_F \in \mathbb{R}^{N_h \times N_l}$ 为
$V_F=\phi_h^T \times \theta_l$
同样的，将 $V_F$ 进行归一化得到 $\vec{V_F} \in \mathbb{R}^{N_h \times N_l}$ 。同理输出为
$O_F=\vec{V_F} \times \gamma_l^T$

$Y_P = cat(W_o(O_P^T),X)$

网络结构

在这里插入图片描述

实验结果

在这里插入图片描述

Dogged21

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【文献阅读】Asymmetric Non-local Neural Networks for Semantic Segmentation

原文链接：https://arxiv.org/abs/1908.07678代码：https://github.com/MendelXu/ANN.gitNon-local 是一种特别有用的语义分割技术，但也因其难以进行计算和占用GPU内存而受到批评。本文提出了Asymmetric Non-local Neural Network，其中有两个突出的组成部分：Asymmetric Pyramid...
复制链接

扫一扫

专栏目录