引言
本文开始从零实现GPT1做一个小说续写器,即只需要给出一些文本,让模型帮你续写,主要内容包含:
- 模型编写
- 训练适配小说的中文分词器
- 将小说按固定大小拆分生成数据集
- 拆分训练/测试集
- 训练
- 体验小说续写效果
同时结合HuggingFace的transformers
,可以将处理好的数据集、训练好的分词器和模型上传到HuggingFace Hub。
上篇文章中介绍了模型实现的大部分内容,本文继续模型的输出层。然后探讨除模型实现外同样重要的训练分词器、数据集生成以及如何训练等过程。
输出层
输出层采用Transformers中Head的思想,我们定义一个LMHead:
class GPTLMHeadModel(GPTPreTrainedModel