大模型预训练实践

三月七꧁ ꧂

于 2024-07-30 09:34:04 发布

阅读量96

点赞数 6

分类专栏： LLM 文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140787696

版权

LLM 专栏收录该内容

25 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

- 参数量计算

本文是 LLMBox 和 YuLan-Chat 的预训练示例代码。此示例基于 Transformers 和 DeepSpeed 进行训练。在下面的示例代码中，train() 函数涵盖了预训练过程中的主要步骤，包括模型与分词器的初始化、训练数据的准备等；然后调用 Trainer 类来执行模型训练并保存训练状态。

参数量计算

1 from dataclasses import dataclass
2 from dataset.pt_dataset import PTDataset
3 from transformers import (
4 		AutoModelForCausalLM,
5		 AutoTokenizer,
6 		HfArgumentParser,
7 		TrainingArguments,
8 		Trainer,
9 )
10 from transformers.hf_argparser import HfArg
11
12
13 # 用户输入超参数
14 @dataclass
15 class Arguments(TrainingArguments):
16		 # 模型结构
17		 model_name_or_path: str = HfArg(
18				 default=None,
19				 help="The model name or path, e.g., `meta-llama/Llama-2-7b-hf`",
20		 )
21 		# 训练数据集
22		 dataset: str = HfArg(
23 				default="",
24 				help="Setting the names of data file.",
25		 )
26		 # 上下文窗口大小
27 		model_max_length: int = HfArg(
28 				default=2048,
29 				help&

了解本专栏

超级会员免费看

三月七꧁ ꧂

关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型预训练实践

其中，第一行的 nproc_per_node 参数用于指定训练的 GPU 数量，master_port 参数用于指定训练时通信的端口号。stage3_gather_16bit_weights_on_model_save 用于控制 ZeRO-3时存档点是否被分片，如果设置为 false 则保存时会分片，后续使用时需要使用里面脚本进行合并，否则在保存时不会分片，但在训练保存存档点的时间会变长。在下面的示例代码中，train() 函数涵盖了预训练过程中的主要步骤，包括模型与分词器的初始化、训练数据的准备等；
复制链接

扫一扫