Transformer综述
Transformer 原理与代码的构建
首先看一下transformer的结构图:
接下来我们拆解下transformer的构造,逐个构建代码
第一部分:encoder
我们先实现encoder的第一部分:
多头自注意力机制:MultiHeadsSelfAttention
根据论文中的描述
注意力机制:
注意力机制可以被描述为
基于点积缩放的注意力机制:Scaled Dot-Product Attention
位置编码
LayerNormalize:
第二部分: decoder