Attention Is All You Need 模型解读

最新推荐文章于 2024-08-13 15:43:57 发布

TYP

最新推荐文章于 2024-08-13 15:43:57 发布

阅读量745

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44000193/article/details/105398738

版权

深度学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

论文相关

这篇文章是由谷歌大脑，谷歌研究所以及多伦多大学的一篇论文。这篇论文提出了一种新的模型结构–Transformer。这个模型仅基于注意力机制，完全不考虑循环结构和卷积结构。并在两个机器翻译大赛中展示了优异的性能以及较好的BLEU值

模型结构

在这里插入图片描述
这个模型由编码器和译码器组成，举个简单的例子理解，输入一段中文，然后翻译成一段英文。这里，编码器将符号表示的输入序列(x1，…，xn)映射到连续表示的序列z=(Z1，…，Zn)。给定z，然后解码器每次生成一个符号的输出序列(Y1，…，ym)，在每一步，模型是自回归的，在生成下一个时，将先前生成的符号作为附加输入。

Encoder

编码器是由6个相同的层，图片里展示的是一个层。而每一层都有2个子层。第一层是个Multi-Head Attention，第二层是个前向传播网络。这两个子层中还加了正则化的Norm以及残差连接。表达式如下：
Layeroutput=LayerNorm(x + Sublayer(x))