【Transformer系列】你需要的是Attention吗,MetaFormer介绍

介绍

Transformer提出时,作者认为效果最重要的部分是注意力机制。然后随着后续的研究,人们发现attention并没有那么重要,而且还有一个计算复杂度高的问题。MetaFormer认为,整个Tranformer的encoder/decoder单元是根本。甚至是使用pooling来代替Attention也能取得较好的效果。

归纳偏置

Transformer的归纳偏置是很少的。这也是Transformer通用性很好的主要原因,副作用就是需要大量数据,数据少会造成过拟合。

  • CNN的归纳偏置是Locality本地性(相邻的是相关的)和Translation equivariance平移等价(平移卷积操作可以互换,而结果不变)。
  • lstm归纳偏置是数据是序列的。

MetaFormer

作者观点是Transformer的成功源于它的架构。通过Spatial MLP和Pooling代替Attention,来证明了这个观点。
在这里插入图片描述
从结果看,PoolFormer效果好于原生的Transformer,ResMLP也相差不大。
在这里插入图片描述
整体模型分成4个阶段,每一阶段的结构是相同的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值