Transformer Attention is all you need 部分解析

boardking135

已于 2022-03-14 00:11:52 修改

阅读量1.2k

点赞数

分类专栏：论文阅读文章标签： transformer 深度学习自然语言处理 python3 人工智能

于 2022-03-14 00:10:00 首次发布

本文链接：https://blog.csdn.net/zhangyinhua1122/article/details/123469084

版权

论文阅读专栏收录该内容

7 篇文章 0 订阅

订阅专栏

这里记录的是我本人对Transformer 也就是 Attention is all you need 这篇文章的部分解析，这里仅为个人的看法和意见，欢迎纠正和改错。

首先为什么要用Transformer，与其他端到端的模型或者序列模型相比，Transformer 的优势在哪

作者在文章中提到，RNN、LSTM 和 GRU 网络已在序列模型、语言建模、机器翻译等应用中取得不错的效果。循环结构 (recurrent) 的语言模型和编码器 - 解码器体系结构取得了不错的进展。
但是，RNN 是顺序执行的，也就是上一个Token 进行计算之后，才能进行下一个Token 的计算，这对于一个长序列来说，需要耗费很长的时间。
另一方面，虽然也有使用CNN 作为端到端的基础模型的做法，且CNN可以实现并行计算，但是CNN 的计算次数随着序列长度的增加也会增加。
因此，作者提出了Transformer 这种结构，文章中采用的是6个encoder 和6个decoder。通过Selfattention 和 fully connected feed-forward network 这两个子层组成一个encoder 两个子层之间采用层正则和残差连结，详细模型可以查看其他文章。
decoder 与 encoder 类似，但是多了一个Masked self-attention。这里也是transformer 设计比较巧妙的地方，采用Masked self-attention 将当前位置之后的Token mask掉，避免在预测时提前看到答案。

那说了这么多，Transformer 的优点在哪？

Transforemr 由于没有采用RNN 和CNN 的结构，在进行encoder 的时，可以并行处理所有的Token，相比于RNN 和CNN 在序列长度较长的输入时，耗费的时间更短，这里作者也在文章中对复杂度进行了分析。
自注意力可以产生更具可解释性的模型。我们可以从模型中检查注意力分布。各个注意头 (attention head) 可以学会执行不同的任务。

Position embedding

这里需要注意的是，由于Transformer 没有采用类似RNN 和CNN 的结构，其并行计算时是会忽略掉位置特征的，而对于序列来讲，位置特征又是比较重要的部分，所以作者采用Position embedding 的方法。
关于 Position embedding 《Convolutional Sequence to Sequence》这篇文章里有提到，但是这篇文章的 Position embedding 是学习得到的。（具体细节之后有时间会再写一篇解析）
而Transformer 的则是采用三角函数 sin 和 cos，作者提到这两种方法的效果都差不多，但是作者这种方法在进行预测时可以处理在训练中没有见过的长度的序列。
形象的可以参考这篇文章 link
这里需要注意的是，将position embedding 的矩阵与输入矩阵相加的方法等于在输入矩阵后拼接一个 position 矩阵再做线性变化，所以相加和拼接基本类似。