MetaFormer介绍
介绍
Transformer提出时,作者认为效果最重要的部分是注意力机制。然后随着后续的研究,人们发现attention并没有那么重要,而且还有一个计算复杂度高的问题。MetaFormer认为,整个Tranformer的encoder/decoder单元是根本。甚至是使用pooling来代替Attention也能取得较好的效果。
归纳偏置
Transformer的归纳偏置是很少的。这也是Transformer通用性很好的主要原因,副作用就是需要大量数据,数据少会造成过拟合。
- CNN的归纳偏置是Locality本地性(相邻的是相关的)和Translation equivariance平移等价(平移卷积操作可以互换,而结果不变)。
- lstm归纳偏置是数据是序列的。
MetaFormer
作者观点是Transformer的成功源于它的架构。通过Spatial MLP和Pooling代替Attention,来证明了这个观点。
从结果看,PoolFormer效果好于原生的Transformer,ResMLP也相差不大。
整体模型分成4个阶段,每一阶段的结构是相同的。