——1——
Transformer模型架构
Transformer 由两个独立的模块组成,即Encoder和Decoder
Encoder
编码器是一个堆叠N个相同的层。每层由两个子层组成,第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络。论文的作者还使用了ADD&Norm的残差连接与归一化操作
Encoder
当然,输入数据需要经过word-embedding与位置编码后,然后再传递给多头注意力机制,当然关于位置编码与详细的word-embedding操作可以参考如下动画视频教程,使用矩阵变化动画来讲解位置编码与word-embedding
Decoder
解码器层与编码器类似,都是堆叠N个相同的层,但是解码器每层有三个子层组成