前言
在之前的章节中,深入探究了预训练ELMo模型的架构与实现原理。通过采用双向LSTM架构在大规模文本数据上进行预训练,ELMo模型成功地为预训练模型时代的开启奠定了基础。继ELMo之后,OpenAI基于transformer架构发布了GPT(Generative Pre-training Transformer)模型,该模型同样采用预训练策略,进一步推动了自然语言处理领域的语言模型发展。在本章节,以GPT模型为起点,初步的学习ChatGPT等基于对话的AI模型背后的原理与技术演化。这将为读者深入理解当前模型在理解和生成自然语言方面的先进能力提供重要视角。鉴于Bert模型也是在GPT之后推出,为了保持学习的连贯性和理论发展的时间线顺序,本章节将优先探讨GPT模型。
一、GPT模型
按照惯例,首先对GPT下一个直白的定义。
GPT(Generative Pre-training Transformer)是由移除了交叉注意力(cross-attention)层的多层Transformer decoder构成的。</