Attention Is All You Need 模型解读

论文相关

这篇文章是由谷歌大脑,谷歌研究所以及多伦多大学的一篇论文。这篇论文提出了一种新的模型结构–Transformer。这个模型仅基于注意力机制,完全不考虑循环结构和卷积结构。并在两个机器翻译大赛中展示了优异的性能以及较好的BLEU值

模型结构

在这里插入图片描述
这个模型由编码器和译码器组成,举个简单的例子理解,输入一段中文,然后翻译成一段英文。这里,编码器将符号表示的输入序列(x1,…,xn)映射到连续表示的序列z=(Z1,…,Zn)。 给定z,然后解码器每次生成一个符号的输出序列(Y1,…,ym), 在每一步,模型是自回归的,在生成下一个时,将先前生成的符号作为附加输入。

Encoder

编码器是由6个相同的层,图片里展示的是一个层。而每一层都有2个子层。第一层是个Multi-Head Attention,第二层是个前向传播网络。这两个子层中还加了正则化的Norm以及残差连接。表达式如下:
Layeroutput=LayerNorm(x + Sublayer(x))

Decoder

解码器也是有6层,每层除了有何编码器相同的两个子层外,还有多了第三子层
在这里插入图片描述
这个子层有着和其他子层一样的正则化以及残差连接。不同的是它的Masked Multi-Head Attention。这样可以确保位置I的预测输出仅取决于I之前的已知的输出

注意力机制

在这里插入图片描述
一个Multi-Head Attention由h个Scaled Dot-Product Attention组成。因此要实现Multi-Head Attention,得先实现Dot-Product Attention。

Dot-Product Attention

输入的是Q,K,V,将Q,K,V执行下面的公式在这里插入图片描述
便得到一个Attention,其中,dk是K的维度

Multi-Head Attention

将Q,K,V经过h个不同的线性回归,各自地输进Attention函数里,得到h个不同的head,如何将这h个不同的head拼接起来便是Multi-Head
在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值