Self-Attention with Relative Position Representations阅读笔记
一句话概括:在Transformer模型中加入相对位置表示,可以提升翻译结果的质量。Transformer:采用encoder-decoder框架encoder里面有多层,每一层包括两个子层 self-attention 和 FFN(a position-wise feed-forward layer),子层之间通过 layer normalization 连接,层与层之间通过 residual 连接。decoder里面同样可以定义多层。每一层包括三个子层 self-attention 、e
原创
2021-04-01 14:25:55 ·
496 阅读 ·
1 评论