5种2D Attention整理（Non-Local、Criss-Cross、SE、CBAM、Dual-Attention）

byzy

已于 2022-07-16 15:32:42 修改

阅读量2.3k

点赞数 2

分类专栏： attention、transformer与视觉MLP 文章标签：深度学习计算机视觉

于 2022-06-29 22:00:25 首次发布

本文链接：https://blog.csdn.net/weixin_45657478/article/details/125526261

版权

attention、transformer与视觉MLP 专栏收录该内容

6 篇文章 3 订阅

订阅专栏

一、Non-local

原文链接：Non-local Neural Networks | IEEE Conference Publication | IEEE Xplore

1.公式

$y_i=\frac{1}{C(x)}\sum_{\forall j}f(x_i,x_j)g(x_j)$

其中 $g(x_j)=W_gx_j$ 。

$f$ 的形式可以不同，如

(1)Gaussian：

$f(x_i,x_j)=e^{x_i^\mathrm{T}x_j}$

$C(x)=\sum_{\forall j}f(x_i,x_j)$

(2)Embedded Gaussian:

$f(x_i,x_j)=e^{\theta(x_i)^\mathrm{T}\phi(x_j)}$

$C(x)=\sum_{\forall j}f(x_i,x_j)$

自注意力（self-attention）是non-local在Embedded Gaussian中的特例。因为

$\frac{1}{C(x)}f(x_i,x_j)$

就是对给定的 $i$ ，沿着维度 $j$ 作softmax操作。

(3)点积（embedded）：

$f(x_i,x_j)=\theta(x_i)^\mathrm{T}\phi(x_j)$

$C(x)=N$

(4)拼接：

$f(x_i,x_j)=\mathrm{ReLU}(w^\mathrm{T}_f[\theta(x_i),\phi(x_j)])$

$C(x)=N$

其中 $[\cdot ,\cdot ]$ 表示拼接操作； $w_f$ 是将拼接后的向量转换为标量的权重向量。

2.Non-local块

$z_i=W_zy_i+x_i$

上图为Non-local（embedded Gaussian）的结构。图中蓝色方块为 $1\times 1\times 1$ 卷积； $\oplus$ 和 $\otimes$ 分别表示矩阵加法和矩阵乘法。1024和512代表通道数。softmax操作是对每一行做的。

如果去掉上图中的 $\theta$ 和 $\phi$ ，就变为Gaussian结构；将softmax操作替换为乘以 $1/N$ ，就变为点积结构。

实际实施时，不改变性能，但减小计算量的方法：在 $\phi$ 和 $g$ 后加入最大池化层。

二、Criss-Cross

原文链接：CCNet: Criss-Cross Attention for Semantic Segmentation | IEEE Conference Publication | IEEE Xplore

网络结构：

1.Criss-Cross模块结构

图中softmax在通道维度做。

2.Affinity操作

对于 $Q$ 中每个位置 $u$ ，可以得到其特征 $Q_u\in \mathbb{R}^{{C}'}$ ；同时可以得到 $K$ 中对应位置所在行和列的所有向量集合 $\Omega_u\in\mathbb{R}^{(H+W-1)\times {C}'}$ 。设 $\Omega_{i,u}$ 为 $\Omega_u$ 的第 $i$ 个元素，则Affinity操作定义为

$d_{i,u}=Q_u\Omega^{\mathrm{T}}_{i,u}$

记 $D$ 为Affinity操作的输出矩阵（或 $A$ 在softmax前的矩阵；其位置 $u$ 处的第 $i$ 个元素为 $d_{i,u}$ ），则

上图中，左边的矩阵为 $H$ ，上边的矩阵为 $K$ ，下边的矩阵为 $Q$ ，右边的矩阵为 $D$ ； $\otimes$ 表示Affinity操作。

3.Aggregation操作

对于 $V$ 中每个位置 $u$ ，可以得到其特征 $V_u\in \mathbb{R}^C$ 和集合 $\Phi_u\in\mathbb{R}^{(H+W-1)\times C}$ （所在行和列的所有向量集合）。则Aggregation操作为

${H}'_u=\sum_{i\in \left |\Phi_u \right |}A_{i,u}\Phi_{i,u}+H_u$

实际上就是线性组合（以 $A$ 的 $u$ 位置向量( $H+W-1$ 维)的每个元素作为系数/权重，作用于 $\Phi_u$ 中每一个位置的向量( $C$ 维)，相乘相加，作为 ${H}'$ 的 $u$ 位置元素向量( $C$ 维)）。

三、Squeeze and Excitation（SE）

原文链接：Squeeze-and-Excitation Networks | IEEE Journals & Magazine | IEEE Xplore

上图中：

$F_{tr}$ 为卷积、特征提取操作（不属于SE模块）；

$F_{sq}$ 为均值池化操作，输出为 $C$ 维向量；

$F_{ex}$ 为2层全连接层加sigmoid操作：

$s=F_{ex}(z,W)=\sigma(g(z,W))=\sigma(W_2\delta(W_1z))$

$F_{scale}$ 即 $s$ 的每个元素作为权重乘上 $U$ 的对应通道得到输出的每个通道：

$\tilde{x}_c=F_{scale}(u_c,s_c)=s_cu_c$

将SE嵌入到ResNet中：

四、CBAM

原文链接：https://arxiv.org/pdf/1807.06521.pdf

CBAM模块结构：

1.通道注意力模块结构

$\begin{aligned} M_c(F)&=\sigma(\textup{MLP}(\textup{AvgPool}(F))+\textup{MLP}(\textup{MaxPool}(F)))\\ &=\sigma(W_1(W_0(F^c_{avg}))+W_1(W_0(F^c_{max}))) \end{aligned}$

其中 $\sigma$ 表示sigmoid函数， $W_0\in\mathbb{R}^{C/r\times C}$ ， $W_1\in\mathbb{R}^{C\times C/r}$ ； $W_0$ 后有ReLU激活函数。

2.空间注意力模块结构

$\begin{aligned} M_s(F)&=\sigma(f^{7 \times 7}([\textup{AvgPool}(F);\textup{MaxPool}(F)]))\\ &=\sigma(f^{7 \times 7}([F^c_{avg};F^c_{max}])) \end{aligned}$

其中 $f^{7\times 7}$ 表示核为 $7\times 7$ 的卷积操作。

将CBAM嵌入ResNet中：

五、Dual-Attention

原文链接：Dual Attention Network for Scene Segmentation | IEEE Conference Publication | IEEE Xplore

网络结构：

1.位置注意力模块结构

图中 $B,C,D$ 的维度与 $A$ 相同； $B,C,D$ 的reshape表示将 $C\times H\times W$ 的矩阵变为 $C\times N$ （其中 $N=HW$ ）; $S\in \mathbb{R}^{N\times N}$ 为attention map； $\otimes$ 表示矩阵乘法；最后的reshape表示将 $C\times N$ 的矩阵变为 $C\times H\times W$ 。最终