为什么说大模型训练很难?聊聊预训练的一些经验

自从Bert网络模型产数量超过3亿规模,当时候只是觉得性能好,没想到GPT系列出来后,GPT-3直接用170B规模的参数量模型精度碾压竞品。

接着就是新一轮的竞争了,后面的事情就有点可怕了,Google推出万亿稀疏switch transformer,huawei推出2000亿稠密鹏程盘古大模型,微软推出Turing-NLG有1000亿参数,英伟达推出MegatronLM系列。

大家都说大模型难,大模型训练除了集群调度麻烦,还难在哪里吗?


之前做过一部分预训练的工作,训的模型是7B,13B大小,分享一下个人的感受。

首先是训练方面,这两个量级的模型训练起来其实和小模型差不多,参数设置上有两个地方需要注意:一个是学习率需要略小,在e-5这个量级就可以,其次是global_batch需要比较大,一般在2-4M tokens,这样训练起来会比较稳定。

对于7B这个量级的模型,一般stage=2,tp=1,zero1=8,因为如果单卡能放下一份模型的参数和梯度就不需要用tp,不然会很慢,这样相当于一张80G卡存一份完整模型参数和部分优化器转态,模型参数占7 * 2 =14G,而优化器状态则分布在单节点的8张GPU内,平均每张卡占7 * (4+4+4+2)/8 =13G,这个就相当于在单节点内做8路数据并行,在seq_len=2048的情况下,单张卡的micro_batch大概可以到8左右。

如果不进行梯度累积,global_batch=2M的情况下至少需要128张卡( 8 * 2048 * 128),24h大概能训30-40B tokens,1T tokens大概训一个月左右(凭印象写的,如果有错误欢迎指正),设置好后剩下的就交给时间了,每天上去看一下loss,如果没有机器故障,通常是可以一把从头训到尾的,不需要中间再去调各种参数。

大到千亿这个级别的模型,难度就上来了,会出现一些数值计算/收敛稳定性等各方面的问题,除此之外,机器数量一多起来后故障率就非常高了, 感兴趣可以解了一下GLM 130B训练的分享报告,或者Mate训OPT的logbook ,如Meta这种大厂调度千卡的故障也是非常多的,这是没法避免的。

我个人感觉在模型训练之外其实更重要的是数据,在同一scale下,数据质量直接决定了模型性能的上限。模型大家可能会开源,但数据,特别是有价值的数据一般是不会轻易开源的。英文语料数量很大,可以通过严格筛选来得到高质量的diversity语料,而且也已经有很多开源的现成可用的语料数据,比如c4,Pipe,RedPajam,refinedweb。中文早先开源的不多,现在大家也已经开始卷数据了,我了解的一些开源数据有:

  • • WuDaoCorpus[1],200G中文
  • • TigerBot[2],100G中英
  • • SkyPile-150B[3],150B tokens
  • • WanJuan[4] ,文本1TGB,应该是目前开源最大的一个了
  • • CCI[5] ,104GB文本

但总体规模上比英文还是小很多,而且中文语料的质量也一言难尽,广告,AIGC内容 ,错误的内容,违反安全的内容等各种乱七八糟的数据也很多,所以数据这方面不是一个人两个人就能做的,得需要一个专门的数据团队来专项负责。

最后一点是,训大模型的试错成本非常高,时间、机器、人力搭进去了,但谁也没法保证训出来的模型效果就一定好,因为数据质量比较难以客观量化,所以炼丹前也很难判断这批数据训出来的模型效果到底如何,风险比较大,只能一边训一般观察模型的状态,如果没有达到预期,只能通过持续添加更高质量的数据来调整。

并且按照现在开源模型与日俱增的训练数据量来看,后续开源的基础模型估计都得2T tokens起步了,否则效果难以比肩(按照scaling law来看),开源出来也没太大意义,因为大家不会去用。不过后面开源的模型还是有一定的数据优势的,因为可以用更新的数据来训,而benchmark相对来说是旧的,所以刷分可能相对更容易一些,分不高没法做pr,但分高并不代表模型的水平。

所以综合来看,训大模型的难不是单点技术上的难,而是系统性的难,需要数据,炼丹师,框架,硬件等几方面人力间的紧密配合,并且围绕着炼丹师的需求来开展工作。这也是为什么创业公司往往更容易做出成果,因为大家目标比较专注一致,执行力就会比较强,而大公司由于各种原因就非常容易互相扯皮。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值