论文速读——Pay Attention to MLPs
Transformer [1] 已成为深度学习领域最重要的架构创新之一,并在过去几年中实现了许多突破。在这里,我们提出了一种简单的网络架构 gMLP,它基于带有门控的 MLP,并表明它在关键语言和视觉应用中的性能与 Transformer 一样好。我们的比较表明,自注意力对于 Vision Transformers 来说并不重要,因为 gMLP 可以达到相同的精度。对于 BERT,我们的模型在预训练复杂度上与 Transformer 相当,并且在一些下游 NLP 任务上表现更好。
原创
2024-04-01 12:45:02 ·
775 阅读 ·
0 评论