MindSpore GPT训练实践：从预处理到模型训练-CSDN博客

本文链接：https://blog.csdn.net/weixin_54227557/article/details/126754209

https://gitee.com/mindspore/community/issues/I5N0IZ
预热作业
如图，非常简单，这样就跑起来了。
在这里插入图片描述
我们顺利地把4个样例全部跑完了。

1、GPT
第一个pytest非常简单，运行就可以了
第二个跑脚本，需要注意几点，我们先用官网案例试一试

git clone https://gitee.com/mindspore/models.git
cd  models/research/nlp/gpt2

可以参考这篇论文
https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

针对这次的作业，参考https://gitee.com/mindspore/transformer/blob/master/examples/preprocess/gptpreprocess/README.md

我们下载其中一部分数据后解压，

cd openwebtext
xz -dk *

在这里插入图片描述
我们看到，这是一些文本信息。

cd ..
python pre_process.py \
--input_glob=./openwebtext/* \
--dataset_type=openwebtext \
--output_file=./output/openwebtext.mindrecord

如果遇到了编码问题，请在代码中加上errors=‘ignore’
在这里插入图片描述

在这里插入图片描述
终于搞定了，

python -m transformer.train \
--config='./transformer/configs/gpt/gpt_base.yaml' \
--epoch_size=1 \
--data_url='./examples/preprocess/gptpreprocess/output/' \
--optimizer="adam"  \
--seq_length=1024 \
--parallel_mode="stand_alone" \
--global_batch_size=4 \
--vocab_size=50257 \
--hidden_size=2048 \
--num_layers=24 \
--num_heads=16 \
--device_target="GPU" > standalone_train_gpu_log.txt 2>&1 &