Sparse Transformers

1 简介

本文根据2019年《Generating Long Sequences with Sparse Transformers》翻译总结的。文中提出了Sparse Transformers,即稀疏Transformers。

通过将完整的注意力计算分成多个快速的注意力操作(当他们结合时,近似于密集注意力操作)。我们使用这种方法将自注意力机制应用到前所未有的序列长度。

此外,我们引入了对transformer的其他几个改变:
一个重建的残差模块和权重初始化来改善深度神经网络的训练;
一组稀疏注意力核有效的计算注意力矩阵子集。
在向后传输时注意力权重的重计算来减少内存的使用。

在这里插入图片描述

2 背景

主要讲自回归模型,如下面公式,前i-1个元素预测第i个元素,模型θ的一个简单有力的选择的是transformer 解码器(其对将来元素掩码) :
在这里插入图片描述

3 Factorized Self-Attention

在这里插入图片描述

在这里插入图片描述

下面我们主要考虑p=2的情况,即两维Factorized Attention。

3.1 两维Factorized Attention

下图的a是全自注意力。下图b、c是两维Factorized Attention。两维Factorized Attention是其中一个头关注前面l个位置,另一个头关注每个第l位置。我们考虑了下面两种情况,分别是strided attention,fixed attention。strided attention有步长l。公式不是太好理解,从下图b、c大体能看出来strided attention,fixed attention的样子吧。

在这里插入图片描述

4 Sparse Transformer

Sparse transformer的一个残差模块示意图如下:
在这里插入图片描述

在这里插入图片描述

4.1 扩展到几百层

在这里插入图片描述

4.2 不同数据类型建模

在这里插入图片描述

5 实验

从下表可以看出来sparse transformer的效果超越了以前的模型。在文本、图片、语音都表现好。
在这里插入图片描述

从下表可以看出来sparse transformer的运行速度很快。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值