Sparse Transformer: 主要目的是减少传统Transformer 的时间复杂度和空间复杂度。
通过top-k选择,将注意退化为稀疏注意。这样,保留最有助于引起注意的部分,并删除其他无关的信息。这种选择性方法在保存重要信息和消除噪声方面是有效的。注意力可以更多地集中在最有贡献的价值因素上。
论文《Generating Long Sequences with Sparse Transformers》
self-attention是O(n^2),因为对序列中任意两个位置的均建立起关联;
节省显存和加快速度的思路:减少关联性的计算
‘稀疏Attention’
每个元素只跟序列内的一部分元素相关(top k)
1.Atrous self attention :对相关性约束:每个元素只跟与他相对距离为k,2k,3k..的元素关联 ,k为人工设定的超参数

strided attention: 其余部分attention值置为0
效果:(共有n个元素)每个元素只跟n/k个