Self-Attention with Relative Position Representations解读

最新推荐文章于 2023-11-15 15:51:09 发布

wu740027007

最新推荐文章于 2023-11-15 15:51:09 发布

阅读量2.7k

点赞数 1

文章标签： self attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wu740027007/article/details/103151423

版权

非递归的模型（attention，CNN等）并没有考虑输入序列中元素的顺序，因此在很多任务中可能需要显式地编码位置信息。这篇文章将元素与元素之间的相对位置表示引入了self-attention机制。在两个机器翻译的任务中，引入相对位置表示的self-attention比绝对位置编码的self-attention有明显的提升。

背景知识

Attention Mechanism
这篇文章把普通的self-attention的输出表示为：

注：的计算方式采用的是Scaled Dot-Product，详见Attention Mechanism

模型

Relation-aware Self-Attention

在普通self-attention的基础上，这篇文章引入了两个与相对位置相关的向量：，之所以采用维向量的表示形式，主要是为了套用原来self-attention的计算公式。
也就是说，如果attention的目标词是的话，那么在计算对的注意力特征的时候，需要额外考虑对的两个与位置相关的向量。
引入这两个向量之后，上述self-attention的计算可以修改为：

Relative Position Representations

Relative Position Representations的目标是给出,的计算方式。作者假设如果序列中两个元素的距离超过K，则这两元素之间的位置信息就没有意义了。同时，应该只跟相对位置有关，而与没有关系。作者直接将定义为了可训练的向量，本质上是训练

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Self-Attention with Relative Position Representations解读

非递归的模型（attention，CNN等）并没有考虑输入序列中元素的顺序，因此在很多任务中可能需要显式地编码位置信息。这篇文章将元素与元素之间的相对位置表示引入了self-attention机制。在两个机器翻译的任务中，引入相对位置表示的self-attention比绝对位置编码的self-attention有明显的提升。背景知识Attention Mechanism 这篇文章把...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。