Self-attention with relative position representations
目录
一、Introduction
《attention is all you need》文章中使用绝对位置来表征位置信息,本文中使用相对位置对self-attention机制进行扩展。使用相对位置这个方法在翻译任务中取得了很大成果,并且实验得知将绝对位置与相对位置结合并不能进一步提高翻译质量。
二、Self-attention
老熟人了,query与key相乘得到weight,周围的不同点给予该点的attention不同,然后与value相乘得到该点学习global information后的结果。
三、Relation-aware Self-Attention
论文中通过扩展自我注意来考虑输入元素之间的成对关系。在这个意义上,可将输入建模为一个标记的、有向的、完全连接的图。
输入元素xi和xj之间的edge可用向量aij
V
^{V}
V和aij
K
^{K}
K来表示(da = dz,即a向量的维度与z相同),通过如下两个方程学习这两个位置向量,各自都不需要额外的linear transformations,这些representations可在不同attention heads之间共享。
aij
V
^{V}
V和aij
K
^{K}
K中蕴含了xi与xj间的相对位置信息,上述两个公式即为将可训练的这两个向量融入self-attention公式后的结果。
四、Relative Position Representations
假设精确的相对位置信息在一定距离之外是没有用的,设这个距离为k,使用如下公式进行该限制。
论文中给的一个栗子:
总结
好!