Sparse transformer - 之Sparse attention 稀疏注意力

Sparse Transformer: 主要目的是减少传统Transformer 的时间复杂度和空间复杂度。
通过top-k选择,将注意退化为稀疏注意。这样,保留最有助于引起注意的部分,并删除其他无关的信息。这种选择性方法在保存重要信息和消除噪声方面是有效的。注意力可以更多地集中在最有贡献的价值因素上。

论文《Generating Long Sequences with Sparse Transformers》

self-attention是O(n^2),因为对序列中任意两个位置的均建立起关联;
节省显存和加快速度的思路:减少关联性的计算
‘稀疏Attention’
每个元素只跟序列内的一部分元素相关(top k)

1.Atrous self attention :对相关性约束:每个元素只跟与他相对距离为k,2k,3k..的元素关联 ,k为人工设定的超参数

strided attention: 其余部分attention值置为0

效果:(共有n个元素)每个元素只跟n/k个
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值