有任何的书写错误、排版错误、概念错误等,希望大家包含指正。
在阅读本篇之前建议先学习:
【自然语言处理】Seq2Seq 讲解
【自然语言处理】Attention 讲解
Transformer
为了讲解更加清晰,约定“预测阶段”被称为“推断阶段”(inference),“预测”用于表示模型根据输入信息输出目标信息的抽象过程。
1. 简介
在 Transformer 出现之前,大部分序列转换(转录)模型是基于 RNNs 或 CNNs 的 Encoder-Decoder 结构。但是 RNNs 固有的顺序性质使得并行计算难以实现,即训练时当前时刻的隐藏状态与前一个时刻的隐藏状态有关,这意味着需要先计算出前一个时刻的状态才能计算下一个时刻的状态,这大大限制了 RNNs 的训练速度;CNNs 可以比较好的解决并行计算的问题,但是对于长序列 CNNs 难以建