【MLP-Mixer】核心方法解读

___Dream

已于 2024-10-13 16:49:07 修改

阅读量1.4k

点赞数 27

分类专栏： MLPs 文章标签：深度学习人工智能

于 2024-10-11 19:40:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45962681/article/details/142852429

版权

abstract：

我们提出MLP-Mixer架构(或简称“Mixer”)，这是一个具有竞争力但在概念和技术上都很简单的替代方案，它不使用卷积或自关注。相反，Mixer的架构完全基于多层感知器(mlp)，这些感知器可以在空间位置或特征通道上重复应用。Mixer仅依赖于基本的矩阵乘法例程、对数据布局的更改（重塑和换位）以及标量非线性。

intro：

图1描述了Mixer的宏观结构。它接受一系列线性投影图像补丁(也称为令牌)，形状为“patches x channels”表，作为输入，并保持该维度。Mixer使用两种类型的MLP层:通道混合MLP和令牌混合MLP。信道混合mlp允许在不同信道之间进行通信;它们独立地操作每个令牌，并将表中的各个行作为输入。令牌混合mlp允许在不同的空间位置(令牌)之间进行通信;它们独立地在每个通道上操作，并将表中的各个列作为输入。这两种类型的层相互交织，以支持两个输入维度的交互。

在极端情况下，我们的架构可以看作是一个非常特殊的CNN，它使用1×1卷积进行通道混合，使用单通道深度卷积的完整接受场和参数共享进行令牌混合。然而，相反的情况并不成立，因为典型的cnn并不是Mixer的特例。此外，卷积比mlp中的普通矩阵乘法更复杂，因为它需要对矩阵乘法进行额外的昂贵简化和/或专门的实现。

mixer architecture：

现代深度视觉架构由混合特征的层组成(i)在给定的空间位置，(ii)在不同的空间位置之间，或同时混合特征。

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。