7种视觉MLP整理（下）

byzy

已于 2022-07-15 17:09:34 修改

阅读量1k

点赞数

分类专栏： attention、transformer与视觉MLP 文章标签：深度学习计算机视觉

于 2022-07-15 17:08:59 首次发布

本文链接：https://blog.csdn.net/weixin_45657478/article/details/125803570

版权

attention、transformer与视觉MLP 专栏收录该内容

6 篇文章 5 订阅

订阅专栏

一、RepMLP

原文链接：https://arxiv.org/pdf/2105.01883.pdf

RepMLP（re-parameterized MLP）是考虑到FC层比起卷积来说不擅长捕捉局部信息的特点而提出的。其训练和推断是不同的。

训练阶段由全局感知器，partition感知器和局部感知器组成。

全局感知器

将feature map分割为partition。为了捕捉partition之间的交互，使用平均池化处理每个partition，输入到BN和2层的MLP，然后reshape，加到partition map上。

partition感知器

由一个FC层和BN层组成，以partition map作为输入。FC层为类似group卷积的group FC以减少参数。

group FC在编程时采用group $1\times1$ 卷积实现，步骤如下：（1）将 $V^{(\textup{in})}$ reshape为空间维度为 $1\times1$ 的feature map；（2）使用 $g$ 分组的 $1\times1$ 卷积处理；（3）将处理后的feature map reshape为 $V^{(\textup{out})}$ 。即：

${M}'=\textup{RS}(V^{(\textup{in})},(\textup{N},P,1,1)),{F}'=\textup{RS}(W,(Q,\frac{P}{g},1,1))$

$\textup{gMMUL}(V^{(\textup{in})},W,g)=\textup{RS}(\textup{gConv}({M}',{F}',g,0),(\textup{N},Q))$

RS表示reshape，gMMUL表示group FC。 $W$ 为group FC的权重矩阵（大小应为 $(Q,P/g)$ ）， ${F}'$ 表示 $W$ 转换的group卷积核（ $Q$ 个核，每个核大小为 $P/g$ ）， $P$ 和 $Q$ 分别为FC层输入和输出的维度。且应有 $\textup{N}=NHW/hw$ ， $P=Chw$ ， $Q=Ohw$ 。

局部感知器

将partition map通过多个并行的卷积层（保持分辨率大小和输入一致，后接BN），卷积组数 $g$ 应和Partition感知器中相同

最后所有卷积输出和Partition感知器的输出相加，还原形状，得到最终输出。

推断阶段会把RepMLP转化为3个FC层。

关键是两步：

1.将BN merge到之前的卷积中：

${F}'_{i.:,:,:}=\frac{\gamma_i}{\sigma_i}F_{i.:,:,:},{b}'=-\frac{\mu_i\gamma_i}{\sigma_i}+\beta_i$

2.将卷积转化为FC层（ $I$ 为 $Chw$ 维的单位矩阵）：

$M^{(I)}=\textup{RS}(I,(Chw,C,h,w)),W^{(F,p)}=\textup{RS}(\textup{Conv}(M^{(I)},F,p),(Chw,Ohw))^T$

其中 $p$ 为padding， $F$ 为卷积核， $W^{(F,p)}$ 为FC层的权重。

这样可以把FC3和局部感知器的卷积合并。

二、ResMLP

原文链接：https://arxiv.org/pdf/2105.03404.pdf

Res表示residual。

模型结构

首先将原图分割为 $N\times N$ 个patch，然后通过线性层得到 $d$ 维特征，输入到ResMLP中。图中的A为按列的仿射变换；T为转置。

Residual Multi-Perceptron层

线性层+前馈层。没有使用LN，而采用对每一列进行仿射变换：

$\textup{Aff}_{\alpha,\beta}(x)=\textup{Diag}(\alpha)x+\beta$

这个变换在每个残差块进行两次（两次分别称为为pre和post）。它们在推断时会整合到线性层。

前馈网络和Transformer一样，为双层MLP，激活函数变为GELU。

$Z=X+\textup{Aff}\left ((A\: \textup{Aff}(X)^T)^T \right ),Y=Z+\textup{Aff}\left ( C\: \textup{GELU}(B\: \textup{Aff(Z)}) \right )$

其中 $A,B,C$ 为线性层权重， $A$ 为 $N^2\times N^2$ 维， $B$ 为 $4d\times d$ 维， $C$ 为 $d\times 4d$ 维。

三、S²-MLPv2

原文链接：https://arxiv.org/pdf/2108.01072.pdf

S²-MLP

patch embedding层+数个S²-MLP块+分类头

patch embedding层将图像分割成 $p\times p$ 的patch，然后通过FC得到 $d$ 维向量。

S²-MLP块

4个作用于通道维度的MLP+空间移位层。

空间移位：将 $X$ 沿通道方向分成4份，然后沿长和宽的正负方向分别平移1个单位。

split attention

设 $K$ 个大小为 $n\times c$ 的feature map $\{X_k\}_{k=1}^K$ ；其中 $n$ 为patch数， $c$ 为通道数。沿空间维度进行求和得到 $c$ 维向量 $a$ ：

$a=\sum_{k=1}^K\textbf{1}X_k$

其中 $\textbf{1}\in \mathbb{R}^n$ 为全为1的行向量。

然后 $a$ 通过MLP把维度变为 $Kc$ （ $\hat{a}=\sigma(aW_1)W_2$ ， $\sigma$ 为GELU），再reshape为 $K\times c$ 矩阵 $\hat{A}$ ，沿第一维度softmax后得到 $\bar{A}$ ，按照下面的公式生成新的feature map $\hat{X}$ 。