大模型训练太难了！

AIGC莹子

于 2024-08-28 10:32:02 发布

阅读量125

点赞数 3

文章标签： python 人工智能深度学习开发语言数据挖掘架构机器学习

本文链接：https://blog.csdn.net/z551646/article/details/141634495

版权

这里大模型训练特指基座大模型的从0开始训练，不包括在2000条数据上SFT这样的小任务。

有人说大模型嘛，简单，给我卡就行，等到老板真给你买来了1000张卡你就知道有多难了，老板说，小王，卡买来了，三个月给我搞出来。

然后你发现，就算有人把正确的代码，数据，参数全告诉你，你也就够完整跑一次把它训练出来，万一中间服务器停电一次，完蛋交不了活儿了。

更别提你要自己写模型代码，调试，想办法评估模型，根据结果反馈调整实验方向，时间和资源完全不够！

大模型的训练有三大难点，1.消耗计算资源巨大。2.对数据的数量和数据的质量要求极高。3.很难用技术指标进行评估他的好坏。

大家在传统的DL时代热衷于对网络架构进行屎上雕花，喜欢排列组合和魔改，手动去做一些NAS（automl）的事情，然后到了大模型时代发现这个路子玩不转了。

以前一个实验，单卡V100上，顶多半天跑完。炼丹工程师在8个V100上同时试8个配方，然后炼制好丹咂摸咂摸味道，尝尝淡了还是咸了，再决定下一步配方调整的方向。

到了大模型时代，发现这个“直觉-魔改-实验-不work-改work”的路子根本行不通。

首先，做实验需要几百个A100 80GB，然后需要准备10TB数据，还得是好好清洗得到干净数据集的情况下，这亮点决定了做实验很慢，

另外，很关键的是，你很难想出一个metric去评价他的好坏！这就像捂着鼻子眼睛火柴炒菜，做成啥样不知道，两眼一黑。

以上三大难点，这决定了你的实验做的又慢又不靠谱，又费劲又不确定。

并且当一个事情的复杂度变高，试错成本变得奇高的时候，就脱离了手动炼丹可以掌控的程度了，进一步向大规模工业化炼丹发展。

我们看看META AI的Susan Zhang分享他们训练OPT-175B，也就是对应GPT-3的实现模型的经验教训。

5名工程师组成的小组训练了175B参数的LLM，使用了1024张A100（80G显存），总耗时大约三个月。

按照训练效率预估，在不发生错误和重启的情况下，在300B token数据集上训练需要花费33天。

第一轮：初步训练三次（这里的训练一次未必是跑完所有数据，只是启动和停止训练过程），先按照经验假定模型和训练超参数，并根据实际情况简单调整。如增加weight decay从0.01到0.1、设置全局梯度norm clipping为1.0、调整Adam的参数等。

这些调整都是基于对训练时每个batch的loss结果的观察做出的。但是其实都没什么意义，因为他们发现是自己的代码有bug（惨，前三次白跑），所以应该在小规模数据和模型参数上测试代码。

第二轮：超参数调整，根据观察反复确认哪些参数更有效果（最考验观察能力和经验）。

第三轮：确定了最终的超参数（实际上很多参数仍然是估计的），开始正式训练（已经过去了一个月）。训练过程中依然在观察loss曲线（有不少尖峰），并不断调整参数。尤其是Run11.6开始不断反复重新计算同一段batches，观察超参数不同对结果的影响。在Run11.10还换了激活函数Gelu->ReLU。

第四轮（“最后”一轮）：33天，175B参数，300B tokens，992张80G显存的A100卡。遇到了包括但不限于：GPU掉线等硬件问题、CUDA错误、任务挂起、NCCL错误、代码bug（检查点存储问题、损失函数问题等）、训练不稳定问题再次发生。所以，即使是有丰富经验、充足的数据集和庞大硬件资源，训练大模型依然是困难重重的。

就算是openAI在训练gpt4的时候也被极其困扰，他们用了一些meta learning的方式，用一些小模型的表现来预测更大的规模的表现，

虽然挺直观的，但这确实是没办法的办法。

为什么openAI在gpt一条路上走到黑，厚积薄发两年才给大家启了智，那都是实验喂出来的。

另外，在数据方面，中文有特有的难题，由于中文互联网众所周知的原因，导致中文优秀语料极其稀少，也有说这也是一种甩锅的说法，真相可能是技术差一点，openAI用公开爬去的中文数据也能搞好。

现状就算是国内厂商找数据上买了很多公开渠道难以爬取的数据，也远远被openAI甩开了一个身位。

大模型时代最宝贵的算法人才，就是这些拿钱和时间砸出来的实践经验，能总结一套训练方法论的人才，有实际经验跑过几百个实验的老师傅，普通人完全没条件没资源。相比设备钱，时间钱，人才的成本反而可以忽略不计了。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

AIGC莹子

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大模型训练太难了！

这里大模型训练特指基座大模型的从0开始训练，不包括在2000条数据上SFT这样的小任务。有人说大模型嘛，简单，给我卡就行，等到老板真给你买来了1000张卡你就知道有多难了，老板说，小王，卡买来了，三个月给我搞出来。然后你发现，就算有人把正确的代码，数据，参数全告诉你，你也就够完整跑一次把它训练出来，万一中间服务器停电一次，完蛋交不了活儿了。更别提你要自己写模型代码，调试，想办法评估模型，根据结果反馈调整实验方向，时间和资源完全不够！大模型的训练有三大难点，1.消耗计算资源巨大。
复制链接

扫一扫