【機器學習2021】Transformer(上)
Seq2seq的问题定义…
Encoder
有很多个block,每个block是好几个layer
block的图解结构,对应下面的各个步骤:
-
取self-attention
-
把self-attention得到的向量加上原向量
(residual connection思路,一种常用的网络架构)
-
取norm,这里是Layer Norm,类似batch norm的另一种norm。
Batch Norm是对于不同example的同一维度计算mean和standard