动手实践：训练专属中文GPT2模型全攻略

最新推荐文章于 2024-08-13 15:39:38 发布

xziyuan

最新推荐文章于 2024-08-13 15:39:38 发布

阅读量739

点赞数 22

文章标签： java

本文链接：https://blog.csdn.net/xziyuan/article/details/139789011

版权

前言

这是我的github上的一个介绍，关于如何训练中文版本的gpt2的。
链接为:
https://github.com/yuanzhoulvpi2017/zero_nlp

介绍

本文，将介绍如何使用中文语料，训练一个gpt2
可以使用你自己的数据训练，用来：写新闻、写古诗、写对联等
我这里也训练了一个中文gpt2模型，使用了
612万
个样本，每个样本有512个tokens，总共相当于大约
31亿个tokens

⚠️安装包

需要准备好环境，也就是安装需要的包

pip install -r requirements.txt

像是
pytorch
这种基础的包肯定也是要安装的，就不提了。

数据

数据来源

获得数据:数据链接，关注公众号【
统计学人
】，然后回复【
gpt2
】即可获得。
获得我训练好的模型(使用了15GB的数据(
31亿个tokens
)，在一张3090上，训练了60多小时)

数据格式

数据其实就是一系列文件夹📁，然后每一个文件夹里面有大量的文件，每一个文件都是
.csv
格式的文件。其中有一列数据是
content
每一行的
content
就代表一句话,截图如下

3. 虽然数据有15GB那么大，但是处理起来一点也不复杂，使用
datasets

包，可以很轻松的处理大数据，而我只需要传递所有的文件路径即可，这个使用
glob
包就能完成。

代码

⚙️训练代码

train_chinese_gpt2.ipynb

⚠️注意

现在训练一个gpt2代码，其实很简单的。抛开处理数据问题，技术上就三点:
tokenizer
、
gpt2_model
、
Trainer
tokenizer
使用的是
bert-base-chinese

，然后再添加一下
bos_token
、
eos_token
、
pad_token
。
3. gpt2_model
使用的是
gpt2
，这里的gpt2我是从0开始训练的。而不是使用别人的预训练的
gpt2
模型。
4. Trainer
训练器使用的就是
transformers
的
Trainer
模块。（支撑多卡并行，tensorboard等，都写好的，直接调用就行了，非常好用）