论文阅读笔记 | MLP系列——MLP部分汇总（Cycle-MLP，Hire-MLP，Sparse-MLP，ConvMLP）

本文链接：https://blog.csdn.net/weixin_44751294/article/details/121611297

如有错误，恳请指出。

这篇博客是一篇归纳总结性的博客，对几篇MLP结构文章进行汇总。

文章目录

1. Cycle-MLP
2. Hire-MLP
3. Sparse-MLP
4. ConvMLP

1. Cycle-MLP

出发点：结合层级结构来适应可变的图像尺寸，减少计算复杂度

Cycle FC block大体结构上与MLP-Mixer类似，继承了Channel FC的优点，可以接受任意尺度的大小处理接受任意分辨率的输入，同时改进了Spatial FC进行空间全局上下文聚合消耗计算量大的缺点，提出了阶梯式风格进行采样。这样，可以在保持计算复杂度的同时一定程度上扩大感受野。

CycleMLP的Block结构：

Cycle FC本质上还是一个移动特征图的操作，Cycle FC block由三个并行的Cycle FC算子组成，三条支路并行：H 方向，W 方向，以及不移动特征图做通道方向映射
在这里插入图片描述

详细内容：
1.论文阅读笔记 | MLP系列——CycleMLP
2.CycleMLP网络详解

2. Hire-MLP

出发点：解决MLP-Mixer对输入图像尺寸敏感的问题，且平面化空域信息的效率较低

Hire-MLP提出了分层重排的思想来聚合局部和全局空间信息，同时对下游任务具有通用性。区域内重排（inner-region rearrangement）可以捕获空间区域内的局部信息，跨区域重排（the cross-region rearrangement）实现不同区域间的信息交流和获取全局语境，其将所有标记沿空间方向循环移位。

Hire-MLP Block结构：

其中包含三条支路，分别是对于 H 方向的重排，W 方向的重排，以及通道方向的映射，最后三条支路的特征图直接加和即可获得最终的融合特征图。
Inner-Region与Cross-Region：

详细内容：Hire-MLP网络详解

3. Sparse-MLP

出发点：Self-Attention是否必须？MLP能否达到Sota的性能？

利用DW卷积+Sparse-MLP模块替换了Token-mixing MLP。DW卷积可以减少计算量并且实现局部的信息交流，而Sparse-MLP在W与H通道轴上具有长距离依赖。其中分3个分支，其中两条在宽高维度上进行全连接处理，还有一条不作处理，将3条支路concat再作1x1的卷积降维。

sMLPNet网络架构
Sparse-MLP Block结构：
感受野示意图：

虽然在一层上看起来是十字形感受野，但是如果经过两个 Sparse-MLP 之后，其实能形成全局感受野，可以实现与所有其他白色令牌的交互。

详细内容：Sparse-MLP网络详解

4. ConvMLP

出发点：固定维数的输入会限制下游任务且全连接层的计算量较大，用卷积来解决问题

ConvMLP是一格分层卷积的MLP骨干，用于视觉识别与卷积和MLP层的共同设计。其使用3 × 3DW卷积来替换Token-mixing MLP，以引入局部性特征。同时，使用了Convolutional Tokenizer替换Patch Embedding并提高了性能，然后在Conv Stage采用全卷积来增加空间内的信息交互。