【MLP-Mixer】核心方法解读

 abstract:

我们提出MLP-Mixer架构(或简称“Mixer”),这是一个具有竞争力但在概念和技术上都很简单的替代方案,它不使用卷积或自关注。相反,Mixer的架构完全基于多层感知器(mlp),这些感知器可以在空间位置或特征通道上重复应用。Mixer仅依赖于基本的矩阵乘法例程、对数据布局的更改(重塑和换位)以及标量非线性。

intro:

图1描述了Mixer的宏观结构。它接受一系列线性投影图像补丁(也称为令牌),形状为“patches x channels”表,作为输入,并保持该维度。Mixer使用两种类型的MLP层:通道混合MLP和令牌混合MLP。信道混合mlp允许在不同信道之间进行通信;它们独立地操作每个令牌,并将表中的各个行作为输入。令牌混合mlp允许在不同的空间位置(令牌)之间进行通信;它们独立地在每个通道上操作,并将表中的各个列作为输入。这两种类型的层相互交织,以支持两个输入维度的交互。

在极端情况下,我们的架构可以看作是一个非常特殊的CNN,它使用1×1卷积进行通道混合,使用单通道深度卷积的完整接受场和参数共享进行令牌混合。然而,相反的情况并不成立,因为典型的cnn并不是Mixer的特例。此外,卷积比mlp中的普通矩阵乘法更复杂,因为它需要对矩阵乘法进行额外的昂贵简化和/或专门的实现。

mixer architecture:

现代深度视觉架构由混合特征的层组成(i)在给定的空间位置,(ii)在不同的空间位置之间,或同时混合特征。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值