Self-Attention with Relative Position Representations解读

非递归的模型(attention,CNN等)并没有考虑输入序列中元素的顺序,因此在很多任务中可能需要显式地编码位置信息。这篇文章将元素与元素之间的相对位置表示引入了self-attention机制。在两个机器翻译的任务中,引入相对位置表示的self-attention比绝对位置编码的self-attention有明显的提升。

 

背景知识

  • Attention Mechanism
    这篇文章把普通的self-attention的输出表示为:
                                                   

注:的计算方式采用的是Scaled Dot-Product,详见Attention Mechanism

模型

Relation-aware Self-Attention

在普通self-attention的基础上,这篇文章引入了两个与相对位置相关的向量:,之所以采用维向量的表示形式,主要是为了套用原来self-attention的计算公式。
也就是说,如果attention的目标词是的话,那么在计算的注意力特征的时候,需要额外考虑的两个与位置相关的向量。
引入这两个向量之后,上述self-attention的计算可以修改为:

                                                                


 

Relative Position Representations

Relative Position Representations的目标是给出,的计算方式。作者假设如果序列中两个元素的距离超过K,则这两元素之间的位置信息就没有意义了。同时,应该只跟相对位置有关,而与没有关系。作者直接将定义为了可训练的向量,本质上是训练

                                                                        


 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值