【阅读笔记】《Self-attention with relative position representations》

Self-attention with relative position representations



一、Introduction

  《attention is all you need》文章中使用绝对位置来表征位置信息,本文中使用相对位置对self-attention机制进行扩展。使用相对位置这个方法在翻译任务中取得了很大成果,并且实验得知将绝对位置与相对位置结合并不能进一步提高翻译质量。

二、Self-attention

  老熟人了,query与key相乘得到weight,周围的不同点给予该点的attention不同,然后与value相乘得到该点学习global information后的结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、Relation-aware Self-Attention

  论文中通过扩展自我注意来考虑输入元素之间的成对关系。在这个意义上,可将输入建模为一个标记的、有向的、完全连接的图。
  输入元素xi和xj之间的edge可用向量aij V ^{V} V和aij K ^{K} K来表示(da = dz,即a向量的维度与z相同),通过如下两个方程学习这两个位置向量,各自都不需要额外的linear transformations,这些representations可在不同attention heads之间共享。
在这里插入图片描述
在这里插入图片描述
  aij V ^{V} V和aij K ^{K} K中蕴含了xi与xj间的相对位置信息,上述两个公式即为将可训练的这两个向量融入self-attention公式后的结果。

四、Relative Position Representations

  假设精确的相对位置信息在一定距离之外是没有用的,设这个距离为k,使用如下公式进行该限制。
在这里插入图片描述
在这里插入图片描述
  论文中给的一个栗子:
在这里插入图片描述

总结

  好!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值