8种视觉Transformer整理（下）

byzy

已于 2022-07-14 21:46:17 修改

阅读量1k

点赞数 3

分类专栏： attention、transformer与视觉MLP 文章标签： transformer 深度学习计算机视觉

于 2022-07-14 21:41:31 首次发布

本文链接：https://blog.csdn.net/weixin_45657478/article/details/125577044

版权

attention、transformer与视觉MLP 专栏收录该内容

6 篇文章 3 订阅

订阅专栏

一、Focal Transformer

原文链接：https://arxiv.org/pdf/2107.00641.pdf

网络结构

首先将图片分成 $4\times 4$ 的patch。然后进入Patch Embedding层（卷积核和步长都为4的卷积层），输入到Focal Transformer层。在每个stage中，特征的大小减半，通道维度变为原来的两倍。

Focal自注意力（FSA）

传统的SA由于对所有的token都进行细粒度的关注，因此非常费时；本文提出的FSA对靠近当前token的信息进行更加细粒度的关注，对远离当前token的信息进行粗粒度的关注。

分为多个level，每个level有两个参数，子窗口大小 $s_w^l$ 和横纵数量 $s_r^l$ （ $l$ 为level序号）。

子窗口池化：对每一个level的feature map，每一个子窗口通过线性层池化得到一个值。然后拉长为向量，不同level的向量拼接，用线性层分别生成 $K$ 和 $V$ ；用原始窗口的特征拉长通过线性层生成 $Q$ 。

注意力计算： $B$ 为可学习的相对位置偏置（和下面Swin Transformer的 $B$ 类似）

$\textup{Attention}(Q_i,K_i,V_i)=\textup{Softmax}(\frac{Q_iK_i^T}{\sqrt d}+B)V_i$

二、Swin Transformer

原文链接：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows | IEEE Conference Publication | IEEE Xplore

网络结构

将图像分为 $4\times4$ 的patch，通过linear embedding将特征维度变为 $C$ ，送入Swin-T块。此后每一个stage开始有一个patch merging，将 $2\times2$ 的patch合并为1个，再把特征维度乘以2。

Swin-T块

将输入图片划分成不重合的窗口，每个窗口包含 $M\times M$ 的patch，在每个窗口内部计算自注意力。但由于未考虑窗口间的关系，因此引入shifted window。

对于连续两个Swin-T块，第二个采用shifted window：

$\begin{aligned} \hat{z}^l&=\textup{W-MSA}(\textup{LN}(z^{l-1}))+z^{l-1}\\ z^l&=\textup{MLP}(\textup{LN}(\hat{z}^l))+\hat{z}^l\\ \hat{z}^{l+1}&=\textup{SW-MSA}(\textup{LN}(z^l))+z^l\\ z^{l+1}&=\textup{MLP}(\textup{LN}(\hat{z}^{l+1}))+\hat{z}^{l+1} \end{aligned}$

$\textup{Attention}(Q,K,V)=\textup{Softmax}(QK^T/\sqrt d+B)V$

$B$ --相对位置偏置，文章未介绍计算方法，具体可能要看代码（可参考图解swin transformer - 腾讯云开发者社区-腾讯云的讲解）。

三、ResT

原文链接：https://arxiv.org/pdf/2105.13677.pdf

网络结构

stage组成：patch embedding模块+位置编码+ $L\times$ efficient Transformer块。efficient Transformer块中的多头自注意力称为EMSA。

EMSA

$X$ 通过depth-wise卷积（核大小，步长和padding分别为 $s+1$ ， $s$ ， $s/2$ ，这里 $s=8/k$ ， $k$ 为head数量），然后通过线性层生成 $K$ 和 $V$ 。按照下式计算：

$\textup{EMSA}(Q,K,V)=\textup{IN}(\textup{Softmax}(\textup{Conv}(\frac{QK^T}{\sqrt{d_k}})))V$

这里Conv为1*1卷积，IN为Instance Normalization。

最后拼接所有head的输出，通过线性层。

剩下的部分和常规Transformer一致，即

$y={x}'+\textup{FFN}(\textup{LN}({x}')),{x}'=x+\textup{EMSA(\textup{LN}(x))}$

$\textup{FFN}(x)=\sigma(xW_1+b_1)W_2+b_2$

Stem

使用3个 $3\times3$ 卷积层（步长分别为2,1,2，padding为1，中间包含BN和ReLU）将尺寸缩小到1/4。

Patch embedding

减少输入token的分辨率并且增加通道数。使用 $3\times3$ 卷积（步长2，padding 1）将尺寸缩小1半，通道数提高1倍。

位置编码

使用pixel-wise attention来编码位置，即使用 $3\times3$ 的depth-wise卷积，再通过sigmoid函数。如下图所示。

$\hat{x}=\textup{PA}(x)=x\ast\sigma(\textup{DWConv}(x))$

四、VOLO

原文链接：https://arxiv.org/pdf/2106.13112.pdf

开始先把图像分割为 $8\times8$ 的patch。

分为两个stage，第一个stage由outlooker组成，生成细粒度特征，第二个stage用Transformer聚合全局信息。每个stage开始时有一个patch embedding生成token。

Outlooker

outlook attention layer（空间）+ MLP（通道）

$\begin{aligned} \tilde{X}&=\textup{OutlookAtt}(\textup{LN}(X))+X\\ Z&=\textup{MLP}(\textup{LN}(\tilde{X}))+\tilde{X} \end{aligned}$

Outlook Attention

Outlook attention计算每个空间位置 $(i,j)$ 和其 $K\times K$ 邻域内点的相似度。

使用两个线性层分别得到 $A$ 和 $V$ ，然后把 $A$ 做reshape。

即：给定输入 $X$ ，对每个 $C$ 维token，使用两个线性层（权重分别为 $W_A\in\mathbb{R}^{C\times R^4}$ 和 $W_V\in \mathbb{R}^{C\times C}$ ）得到 $A\in\mathbb{R}^{H\times W\times K^4}$ 和 $V\in\mathbb{R}^{H\times W\times C}$ 。令 $V_{\Delta_{i,j}}\in\mathbb{R}^{C\times K^2}$ 表示中心为 $(i,j)$ 的窗口内的所有value（Unfold操作）。

将 $A$ 中 $(i,j)$ 位置向量取出，reshape为 $\hat{A}_{i,j}\in\mathbb{R}^{K^2\times K^2}$ 。则输出

$Y_{\Delta_{i,j}}=\textup{MatMul}(\textup{Softmax}(\hat{A}_{i,j}),V_{\Delta_{i,j}})$

然后将不同窗口中同一位置的输出加起来（Fold操作）。

$\tilde{Y}_{i,j}=\sum_{0\leq m,n\leq K}Y^{i,j}_{\Delta_{i+m- \lfloor \frac{K}{2} \rfloor, j+n-\lfloor \frac{K}{2} \rfloor}}$

最后输出通过线性层。

多头Outlook Attention

设有 $N$ 个头。将 $A$ 的形状增长 $N$ 倍后平均分为 $N$ 份（即此时 $W_A\in\mathbb{R}^{C\times N\cdot R^4}$ ，得到的 $A$ 划分为 $N$ 份， $A_n\in\mathbb{R}^{H\times W\times K^4}$ ）。 $V$ 按照维度平均分成 $N$ 份（ $V_n\in\mathbb{R}^{H\times W\times C_N}$ 且 $C_N\times N=C$ ）。最后对每一对 $A_n$ ， $V_n$ 分别进行Outlook Attention后拼接。