论文阅读笔记 | MLP系列——MLP部分汇总(Cycle-MLP,Hire-MLP,Sparse-MLP,ConvMLP)


如有错误,恳请指出。


这篇博客是一篇归纳总结性的博客,对几篇MLP结构文章进行汇总。

1. Cycle-MLP


出发点:结合层级结构来适应可变的图像尺寸,减少计算复杂度

Cycle FC block大体结构上与MLP-Mixer类似,继承了Channel FC的优点,可以接受任意尺度的大小处理接受任意分辨率的输入,同时改进了Spatial FC进行空间全局上下文聚合消耗计算量大的缺点,提出了阶梯式风格进行采样。这样,可以在保持计算复杂度的同时一定程度上扩大感受野。

  • CycleMLP的Block结构:
    在这里插入图片描述
    在这里插入图片描述

Cycle FC本质上还是一个移动特征图的操作,Cycle FC block由三个并行的Cycle FC算子组成,三条支路并行:H 方向,W 方向,以及不移动特征图做通道方向映射
在这里插入图片描述
在这里插入图片描述
详细内容:
1.论文阅读笔记 | MLP系列——CycleMLP
2.CycleMLP网络详解

2. Hire-MLP


出发点:解决MLP-Mixer对输入图像尺寸敏感的问题,且平面化空域信息的效率较低

Hire-MLP提出了分层重排的思想来聚合局部和全局空间信息,同时对下游任务具有通用性。区域内重排(inner-region rearrangement)可以捕获空间区域内的局部信息,跨区域重排(the cross-region rearrangement)实现不同区域间的信息交流和获取全局语境,其将所有标记沿空间方向循环移位。

  • Hire-MLP Block结构:
    在这里插入图片描述
    其中包含三条支路,分别是对于 H 方向的重排,W 方向的重排,以及通道方向的映射,最后三条支路的特征图直接加和即可获得最终的融合特征图。

  • Inner-Region与Cross-Region:
    在这里插入图片描述

详细内容:Hire-MLP网络详解

3. Sparse-MLP


出发点:Self-Attention是否必须?MLP能否达到Sota的性能?

利用DW卷积+Sparse-MLP模块替换了Token-mixing MLP。DW卷积可以减少计算量并且实现局部的信息交流,而Sparse-MLP在W与H通道轴上具有长距离依赖。其中分3个分支,其中两条在宽高维度上进行全连接处理,还有一条不作处理,将3条支路concat再作1x1的卷积降维。

  • sMLPNet网络架构
    在这里插入图片描述
  • Sparse-MLP Block结构:
    在这里插入图片描述
  • 感受野示意图:
    在这里插入图片描述
    虽然在一层上看起来是十字形感受野,但是如果经过两个 Sparse-MLP 之后,其实能形成全局感受野,可以实现与所有其他白色令牌的交互。

详细内容:Sparse-MLP网络详解

4. ConvMLP


出发点:固定维数的输入会限制下游任务且全连接层的计算量较大,用卷积来解决问题

ConvMLP是一格分层卷积的MLP骨干,用于视觉识别与卷积和MLP层的共同设计。其使用3 × 3DW卷积来替换Token-mixing MLP,以引入局部性特征。同时,使用了Convolutional Tokenizer替换Patch Embedding并提高了性能,然后在Conv Stage采用全卷积来增加空间内的信息交互。

  • ConvMLP Block结构:
    在这里插入图片描述
    在这里插入图片描述
  • 详细参数结构
    在这里插入图片描述

详细内容:ConvMLP 网络详解

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Clichong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值