Transformer的改进
Transformer简介
Transformer的核心是self-attention,通过计算输入序列中元素与其他所有元素的相关性来获取加权得分。但是这一步骤需要 O ( n 2 ) O(n^2) O(n2)的时间和空间复杂度,因为需要两个矩阵之间的每一项进行计算。
标准Transformer结构如下,由编码器和解码器组成,其中最基本组成单位是Transformer-block.
Transformer-block可以由一下公式表达:
X 1 = L a y e r N o r m ( M u l t i S e l f A t t e n t i o n ( X ) ) + X X_1 = LayerNorm(MultiSelfAttention(X)) + X X1=LayerNo