FNet: Mixing Tokens with Fourier Transforms --粗读

摘要

我们证明,通过用简单的线性转换可以取代自注意力层,transformer编码器架构可以通过“混合”输入标记的线性转换来大幅提高速度,精度成本有限。这些线性变换,以及前馈层中简单的非线性层,足以在几个文本分类任务中建模语义关系。也许最令人惊讶的是,我们发现用标准的、非参数化的傅里叶变换替换transformer编码器中的自我注意层在GLUE基准上实现了92%的精度,但在GPU上运行速度快7倍,在TPU上快两倍。所得到的模型,我们命名为FNet,非常有效地扩展到长输入,与 the Long Range Arena benchmark上最精确的“高效的”transformer的精度相匹配,但在GPU上的所有序列长度和TPU上相对较短的序列长度上训练和运行得更快。最后,FNet具有较轻的内存占用,在较小的模型尺寸下特别有效:对于固定的速度和精度预算,小的FNet模型优于transformer对应的模型。

引言

在这项工作中,我们研究了是否使用一个简单的混合机制就可以完全取代trans类体系结构中相对复杂的注意力层。我们首先用两个参数化的矩阵乘法来替换注意力子层——一种是混合序列维数,另一种是混合隐藏维数。看到在这个简单的线性混合方案的有希望的结果,我们进一步研究了更快的,结构化的线性变换的有效性。令人惊讶的是,我们发现傅里叶变换,尽管没有参数,但达到了与致密线性混合相同的性能,并且非常有效地扩展到长输入,特别是在GPU上(FFT由于快速傅里叶变换)。我们称结果得到的模型为FNet。
通过用线性转换替换注意力层,我们能够减少trans体系结构的复杂性和内存占用。我们表明,FNet在速度、内存占用和准确性之间

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值