Self-Attention with Relative Position Representations阅读笔记

最新推荐文章于 2023-11-15 15:51:09 发布

邹大佳

最新推荐文章于 2023-11-15 15:51:09 发布

阅读量475

点赞数 1

分类专栏： AI 文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_44378920/article/details/115369930

版权

本文介绍了Transformer模型中引入相对位置表示以提升翻译质量的概念。Transformer结构包含encoder和decoder，各层由self-attention和FFN子层组成，并利用layer normalization和residual connections。相对位置编码通过在QKVT中添加相对位置偏置来增强注意力机制，实验表明在一定范围内能显著提高结果。对于更深入的探讨，可以参考相关博客链接。

摘要由CSDN通过智能技术生成

一句话概括：在Transformer模型中加入相对位置表示，可以提升翻译结果的质量。

Transformer：采用encoder-decoder框架

encoder里面有多层，每一层包括两个子层 self-attention 和 FFN（a position-wise feed-forward layer），子层之间通过 layer normalization 连接，层与层之间通过 residual 连接。
decoder里面同样可以定义多层。每一层包括三个子层 self-attention 、encoder-decoder attention 和 FFN，子层之间通过 layer normalization 连接，层与层之间通过 residual 连接。decoder 的 self-attention 使用 masking 防止生成当前输出的时候看到未来的输出结果。

$softmax(\frac{QK^T}{\sqrt d_k})V$

$FFN(x)=max(0,x_iW_1+b1)W_2+b2$

最低0.47元/天解锁文章

邹大佳

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Self-Attention with Relative Position Representations阅读笔记

一句话概括：在Transformer模型中加入相对位置表示，可以提升翻译结果的质量。Transformer：采用encoder-decoder框架encoder里面有多层，每一层包括两个子层 self-attention 和 FFN（a position-wise feed-forward layer），子层之间通过 layer normalization 连接，层与层之间通过 residual 连接。decoder里面同样可以定义多层。每一层包括三个子层 self-attention 、e
复制链接

扫一扫

专栏目录