Sparse transformer - 之Sparse attention 稀疏注意力

最新推荐文章于 2024-04-25 09:48:16 发布

weixin_56336619

最新推荐文章于 2024-04-25 09:48:16 发布

阅读量4.7k

点赞数 4

分类专栏：自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_56336619/article/details/117789447

版权

Sparse Transformer: 主要目的是减少传统Transformer 的时间复杂度和空间复杂度。
通过top-k选择，将注意退化为稀疏注意。这样，保留最有助于引起注意的部分，并删除其他无关的信息。这种选择性方法在保存重要信息和消除噪声方面是有效的。注意力可以更多地集中在最有贡献的价值因素上。

论文《Generating Long Sequences with Sparse Transformers》

self-attention是O(n^2)，因为对序列中任意两个位置的均建立起关联；
节省显存和加快速度的思路：减少关联性的计算
‘稀疏Attention’
每个元素只跟序列内的一部分元素相关（top k)

1.Atrous self attention :对相关性约束：每个元素只跟与他相对距离为k，2k,3k..的元素关联 ，k为人工设定的超参数

strided attention： 其余部分attention值置为0

效果：（共有n个元素）每个元素只跟n/k个

最低0.47元/天解锁文章

weixin_56336619

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Sparse transformer - 之Sparse attention 稀疏注意力

Sparse Transformer: 主要目的是减少传统Transformer 的时间复杂度和空间复杂度。通过top-k选择，将注意退化为稀疏注意。这样，保留最有助于引起注意的部分，并删除其他无关的信息。这种选择性方法在保存重要信息和消除噪声方面是有效的。注意力可以更多地集中在最有贡献的价值因素上。论文《Generating Long Sequences with Sparse Transformers》self-attention是O(n^2)，因为对序列中任意两个位置的均建立起关联；节省显.
复制链接

扫一扫