https://gitee.com/mindspore/community/issues/I5N0IZ
预热作业
如图,非常简单,这样就跑起来了。
我们顺利地把4个样例全部跑完了。
1、GPT
第一个pytest非常简单,运行就可以了
第二个跑脚本,需要注意几点,我们先用官网案例试一试
git clone https://gitee.com/mindspore/models.git
cd models/research/nlp/gpt2
可以参考这篇论文
https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
针对这次的作业,参考https://gitee.com/mindspore/transformer/blob/master/examples/preprocess/gptpreprocess/README.md
我们下载其中一部分数据后解压,
cd openwebtext
xz -dk *
我们看到,这是一些文本信息。
cd ..
python pre_process.py \
--input_glob=./openwebtext/* \
--dataset_type=openwebtext \
--output_file=./output/openwebtext.mindrecord
如果遇到了编码问题,请在代码中加上errors=‘ignore’
终于搞定了,
python -m transformer.train \
--config='./transformer/configs/gpt/gpt_base.yaml' \
--epoch_size=1 \
--data_url='./examples/preprocess/gptpreprocess/output/' \
--optimizer="adam" \
--seq_length=1024 \
--parallel_mode="stand_alone" \
--global_batch_size=4 \
--vocab_size=50257 \
--hidden_size=2048 \
--num_layers=24 \
--num_heads=16 \
--device_target="GPU" > standalone_train_gpu_log.txt 2>&1 &
显然,wsl这么跑是会崩掉的
那我们用启智openi跑一跑
这里bb了一句这样的话,我就不知道能否成功了,因此压缩后再上传一次。
不错子
但是这个元数据毕竟太大,我们可以采用其他的数据集训练,或者使用一些中文文本训练对话机器人
我们要创建自己的mindrecord
最后折腾了半天,也没有搞清楚官网的教程,迫不得已,自己写了一个。
以下是开源链接
最后可以达到这样的效果,也就训练了几分钟,勉勉强强