有任何的书写错误、排版错误、概念错误等,希望大家包含指正。
在阅读本篇之前建议先学习:
【自然语言处理】Seq2Seq 讲解
【自然语言处理】Attention 讲解
【自然语言处理】ELMo 讲解
【自然语言处理】Transformer 讲解
GPT 系列:GPT、GPT-2、GPT-3
对于 GPT 系列模型,重点在于理解思想,复现难度较大,且工程细节较多。
1. 简介
GPT 的论文作者没有给自己的模型起名为 GPT,这个名字来自于之后的学者。这也是论文插图中应该是 GPT 模型的地方都是用 Transformer 代替的原因。
根据发布时间和引用量可以看出,Transformer 无疑是 GP