【機器學習2021】Transformer(上)
Seq2seq的问题定义…
Encoder
有很多个block,每个block是好几个layer
block的图解结构,对应下面的各个步骤:
-
取self-attention
-
把self-attention得到的向量加上原向量
(residual connection思路,一种常用的网络架构)
-
取norm,这里是Layer Norm,类似batch norm的另一种norm。
Batch Norm是对于不同example的同一维度计算mean和standard deviation;
Layer Norm是对一个example的各个不同维度计算mean和standard deviation。
-
norm完的向量进fully connected network
-
再次residual connection,把FC得到的向量加上原向量
-
再做一次Layer Norm,得到一个block的输出</