该项目来自于GitHub上的开源项目
GitHub地址:https://github.com/yangjianxin1/GPT2-chitchat
一、环境搭建
该项目的虚拟环境创建在anaconda中,代码运行于pycharm
该项目的运行环境:python3.6、 transformers==4.2.0、pytorch==1.7.0
1.创建虚拟环境
打开命令窗口,输入conda create -n 环境名称 python=3.6,回车再输入y即可创建虚拟环境
在所有相关资源下载完毕之后,再输入命令conda activate 环境名称 即可激活所创建的虚拟环境
进入虚拟环境之后,便可以安装相对应的包
2.安装pytorch
所需的pytorch版本可在如下网址寻找:
https://pytorch.org/get-started/previous-versions/
对应的cuda版本可在命令窗口输入nvidia-smi命令即可查看
所使用的cuda版本只需要比自己的版本低即可使用
找到对应的版本之后,只需复制对应的命令输入命令窗口即可安装pytorch
如若没有GPU则使用下方CPU Only的命令
之后只需耐心等待安装完成即可
安装完成之后输入conda list即可查看该环境下安装过的所有包
由于之前安装过其他的包,所以以上有的包新安装的环境没有
之后找到pytorch查看版本是否对应
3.配置虚拟环境
之后即可进入pycharm打开GPT-2的代码文件,进入设置配置刚刚创建的虚拟环境,具体步骤如下:
当环境配置好之后进入主界面,打开命令窗口,输入命令pip install -r requirements.txt,安装其他的包
此处需要注意sklearn包安装时需要用命令pip install scikit-learn
当全部包安装完毕之后,后续运行程序出现错误时再根据相应的提示安装对应的包
二、数据预处理
将所需要训练的语料以如下的格式保存在data文件夹中
之后在命令窗口中输入以下命令,即可开始数据的预处理
python preprocess.py --train_path data/train.txt --save_path data/train.pkl
注:1.train_path后面的是语料的地址,train.txt可改为自己语料库的名称
2.save_path后面是处理好后的pkl文件
三、训练模型
命令窗口中输入以下命令,即可开始训练
python train.py --epochs 40 --batch_size 8 --device 0,1 --train_path data/train.pkl
注:1.epoch是训练的轮次,可以自己指定
2.batch_size是每次取的长度,也可自己指定
3.device是指定参与训练的GPU,一般用device 0
4.train_path是训练集的地址
四、人机交互
命令窗口中输入以下命令,即可开始人机交互
python interact.py --no_cuda --model_path model/path_to_your_model(训练出来的模型,可在model文件夹中查看,一般为epoch40) --max_history_len 3
五、语料库
语料库参照如下GitHub项目,里面有详细的介绍,此处不过多赘述
https://github.com/codemayq/chinese-chatbot-corpus
由于该项目最终生成的语料为tsv格式,因此为了满足上面的语料库要求,需要对其进行处理,因此写了如下代码,但因本人水平有限,所写代码只能满足基本的要求
path = "clean_chat_corpus/xiaohuangji.tsv" # 需要转换的tsv文件地址
out = 'data/small.txt' # 输出地址
fw = open(out, 'w', encoding='utf-8')
for line in open(path, 'r', encoding='utf-8').readlines():
# 将每一行按照'\t'进行分割
parts = line.split('\t')
# 对分割后的每个部分(从第二部分开始)进行处理
for one_sent in parts[1:]:
# 将每个部分中的空格去掉
one_sent = ''.join(one_sent.strip().split(' '))
two_sent = parts[:1]
two_sent = ''.join(two_sent)
# 将处理后的部分写入到输出文件中
fw.write(two_sent + '\n' + one_sent + '\n')
# 在每个部分后面添加一个换行符
fw.write('\n')
print("finish")
到此该项目完成,此篇文章是本人的学习过程的一个记录,再次分享给需要的人。