为什么说大模型训练很难？聊聊预训练的一些经验

python_知世

于 2024-07-30 10:13:53 发布

阅读量427

点赞数 5

文章标签：大模型微调人工智能大模型训练大语言模型 AI ai大模型 LLM

本文链接：https://blog.csdn.net/zhishi0000/article/details/140789791

版权

自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。

接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。

大家都说大模型难，大模型训练除了集群调度麻烦，还难在哪里吗？

之前做过一部分预训练的工作，训的模型是7B，13B大小，分享一下个人的感受。

首先是训练方面，这两个量级的模型训练起来其实和小模型差不多，参数设置上有两个地方需要注意：一个是学习率需要略小，在e-5这个量级就可以，其次是global_batch需要比较大，一般在2-4M tokens，这样训练起来会比较稳定。

对于7B这个量级的模型，一般stage=2，tp=1，zero1=8，因为如果单卡能放下一份模型的参数和梯度就不需要用tp，不然会很慢，这样相当于一张80G卡存一份完整模型参数和部分优化器转态，模型参数占7 * 2 =14G，而优化器状态则分布在单节点的8张GPU内，平均每张卡占7 * (4+4+4+2)/8 =13G，这个就相当于在单节点内做8路数据并行，在seq_len=2048的情况下，单张卡的micro_batch大概可以到8左右。

如果不进行梯度累积，global_batch=2M的情况下至少需要128张卡（ 8 * 2048 * 128），24h大概能训30-40B tokens，1T tokens大概训一个月左右（凭印象写的，如果有错误欢迎指正），设置好后剩下的就交给时间了，每天上去看一下loss，如果没有机器故障，通常是可以一把从头训到尾的，不需要中间再去调各种参数。

而大到千亿这个级别的模型，难度就上来了，会出现一些数值计算/收敛稳定性等各方面的问题，除此之外，机器数量一多起来后故障率就非常高了，感兴趣可以解了一下GLM 130B训练的分享报告，或者Mate训OPT的logbook ，如Meta这种大厂调度千卡的故障也是非常多的，这是没法避免的。

我个人感觉在模型训练之外其实更重要的是数据，在同一scale下，数据质量直接决定了模型性能的上限。模型大家可能会开源，但数据，特别是有价值的数据一般是不会轻易开源的。英文语料数量很大，可以通过严格筛选来得到高质量的diversity语料，而且也已经有很多开源的现成可用的语料数据，比如c4，Pipe，RedPajam，refinedweb。中文早先开源的不多，现在大家也已经开始卷数据了，我了解的一些开源数据有：

• WuDaoCorpus[1]，200G中文
• TigerBot[2]，100G中英
• SkyPile-150B[3]，150B tokens
• WanJuan[4] ，文本1TGB，应该是目前开源最大的一个了
• CCI[5] ，104GB文本

但总体规模上比英文还是小很多，而且中文语料的质量也一言难尽，广告，AIGC内容，错误的内容，违反安全的内容等各种乱七八糟的数据也很多，所以数据这方面不是一个人两个人就能做的，得需要一个专门的数据团队来专项负责。

最后一点是，训大模型的试错成本非常高，时间、机器、人力搭进去了，但谁也没法保证训出来的模型效果就一定好，因为数据质量比较难以客观量化，所以炼丹前也很难判断这批数据训出来的模型效果到底如何，风险比较大，只能一边训一般观察模型的状态，如果没有达到预期，只能通过持续添加更高质量的数据来调整。

并且按照现在开源模型与日俱增的训练数据量来看，后续开源的基础模型估计都得2T tokens起步了，否则效果难以比肩（按照scaling law来看），开源出来也没太大意义，因为大家不会去用。不过后面开源的模型还是有一定的数据优势的，因为可以用更新的数据来训，而benchmark相对来说是旧的，所以刷分可能相对更容易一些，分不高没法做pr，但分高并不代表模型的水平。

所以综合来看，训大模型的难不是单点技术上的难，而是系统性的难，需要数据，炼丹师，框架，硬件等几方面人力间的紧密配合，并且围绕着炼丹师的需求来开展工作。这也是为什么创业公司往往更容易做出成果，因为大家目标比较专注一致，执行力就会比较强，而大公司由于各种原因就非常容易互相扯皮。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

python_知世

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
为什么说大模型训练很难？聊聊预训练的一些经验

自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。大家都说大模型难，大模型训练之前做过一部分预训练的工作，训的模型是7B，13B大小，分享一下个人的感受。首先是。
复制链接

扫一扫