目录 多头注意力 transformer的架构 逐位前馈网络 层归一化 计算过程 decoder中需要mask的原因 encoder和decoder是如何交互的 transformers学习资料: 1、最好的就是官方文档,地址:🤗 Transformers,需要科学上网 2、一本书的库https://github.com/nlp-with-transformers/notebooks Transformer是一个使用encoder-decoder架构,纯使用attention注意力机