https://new.qq.com/omn/20190130/20190130A0IPM1.html
https://blog.csdn.net/candy134834/article/details/86693757
https://blog.csdn.net/Magical_Bubble/article/details/89060213
- 模型特点
在 AI-Rfou 等人提出的vanilla Transformer上做了两点创新:
引入循环机制(Recurrence Mechanism)
相对位置编码(Relative Positional Encoding)
-
优点
在几种不同的数据集(大/小,字符级别/单词级别等)均实现了最先进的语言建模结果。
结合了深度学习的两个重要概念——循环机制和注意力机制,允许模型学习长期依赖性,且可能可以扩展到需要该能力的其他深度学习领域,例如音频分析(如每秒16k样本的语音数据)等。
在inference阶段非常快,比之前最先进的利用Transformer模型进行语言建模的方法快300~1800倍。
有详尽的源码!含TensorFlow和PyTorch版本的,并且有TensorFlow预训练好的模型及各个数据集上详尽的超参数设置。 -
不足
尚未在具体的NLP任务如情感分析、QA等上应用。
没有给出与其他的基于Transformer的模型,如BERT等,对比有何优势。
在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,对于我等渣机器党就只能玩玩base模式了。
Transformer-XL
Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positional Encoding),以克服vanilla Transformer的缺点。与vanilla Transformer相比,Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。