1 简介
本文根据2019年《Generating Long Sequences with Sparse Transformers》翻译总结的。文中提出了Sparse Transformers,即稀疏Transformers。
通过将完整的注意力计算分成多个快速的注意力操作(当他们结合时,近似于密集注意力操作)。我们使用这种方法将自注意力机制应用到前所未有的序列长度。
此外,我们引入了对transformer的其他几个改变:
一个重建的残差模块和权重初始化来改善深度神经网络的训练;
一组稀疏注意力核有效的计算注意力矩阵子集。
在向后传输时注意力权重的重计算来减少内存的使用。
2 背景
主要讲自回归模型,如下面公式,前i-1个元素预测第i个元素,模型θ的一个简单有力的选择的是transformer 解码器(其对将来元素掩码) :
3 Factorized Self-Attention
下面我们主要考虑p=2的情况,即两维Factorized Attention。
3.1 两维Factorized Attention
下图的a是全自注意力。下图b、c是两维Factorized Attention。两维Factorized Attention是其中一个头关注前面l个位置,另一个头关注每个第l位置。我们考虑了下面两种情况,分别是strided attention,fixed attention。strided attention有步长l。公式不是太好理解,从下图b、c大体能看出来strided attention,fixed attention的样子吧。
4 Sparse Transformer
Sparse transformer的一个残差模块示意图如下:
4.1 扩展到几百层
4.2 不同数据类型建模
5 实验
从下表可以看出来sparse transformer的效果超越了以前的模型。在文本、图片、语音都表现好。
从下表可以看出来sparse transformer的运行速度很快。