论文名称:《S^2-MLPV2: IMPROVED SPATIAL-SHIFT MLP ARCHITECTURE FOR VISION》
论文地址:https://arxiv.org/pdf/2108.01072.pdf
文章目录
1 原理
最近,基于多层感知机(MLP)
的视觉骨干网络开始出现。相比于CNN
和视觉Transformer
,具有较少归纳偏差的基于MLP
的视觉架构在图像识别中取得了有竞争力的性能。其中,采用直接的空间位移操作的空间位移MLP (S2-MLP)
在性能上优于包括MLP-mixer
和ResMLP
在内的开创性工作。最近,使用具有金字塔结构的较小补丁,Vision Permutator (ViP)
和Global Filter Network (GFNet)
在性能上优于