Transformer全局概括
注意:
- Encoder和Decoder的个数可以自己决定,Encoder之间的结构是相同的,Decoder之间的结构是相同的,但是Encoder和Decoder之间的结构是不相同的
- Encoder之间的结构是完全相同的,但是参数是完全不同的,训练的时候是6个Encoder都在训练
Encoder
Decoder
位置编码
- Embedding
将输入的句子切分成字,每个字定义一个512维的字向量
- 位置编码
对于RNN的输入参数u,隐藏参数w,输出参数v,在所有的timestamps,RNN都共享一套参数,更新的时候也是更新整套参数。
RNN是串行化处理,Transformer可以并行化,所有单词可以一起处理,但是忽略了单词间的序列关系(先后关系),这个时候就需要位置编码
将位置编码(512维度)和字向量(512维度)相加,得到最终的Transformer的输入
多头注意力机制