1、学习总结:
长达半年的一个鹏程脑海200G大模型的训练过程,是人工智能界的又一宏大壮观的景象!该项目旨在打造NLP(自然语言处理)预训练大模型的底座,实现2个亿参数的稠密性人工智能大模型,将是对国内人工智能技术和国内人工智能训练芯片的一次巨大挑战!
2、学习心得:
【1】通过自己的使用发现,同样的参数的英伟达和昇腾芯片,昇腾可以表现出更加优越的性能,国产芯片昇腾也不弱!
【2】人工智能网络云训练平台ModelArts优点也是非常明显,远程操控,让更多热爱人工智能的人也可以实现更加优越的存储性能和训练速度,实现一个超群的精度计算。
【3】盘古大模型:21年4月实现了第一个版本的α版本,与家喻户晓的GPT-3相比,网络结构更加简单轻便,少了32层网络,训练时设置了更小的Batch Size和更小的学习率,在昇腾910芯片上采取数据、模型、流水线、优化器多种并行方式训练实现了不错的性能。
- 数据集处理:训练数据收集了百科类文章、电子书、网页数据等多样化的中文数据;采取了四个阶段的数据清洗策略,其中使用了fastText模型过滤、hash去重、n-gram算法以及ppl数据过滤等多种技术手段,大大提高训练效率;语料清洗包括敏感&文本过滤器,广告词过滤器、质量评估器三个模块;
- 训练过程细节:处理好的数据需要经过数据清洗任务、数据脱敏任务、数据去重任务、数据质量评估任务四项任务的处理和检验工作。
【4】鹏程·脑海200B模型使用更加强大的硬件(3456张卡)更加先进的优化器并行训练,训练效率逐渐上升,通过细粒度重算的优化方式8月25日达到了每天更新了15.53B token,大大提高模型训练效率最有达到每个step 耗费10.842s,视频中对如何并行使用细粒度重算提高训练效率做了详细的解释。
【5】鹏程·脑海200B模型针对大模型不稳定的情况,他们经历了从原始版+人工查看向自动监控+临终遗言的转变,最终进化成为自动监控+临终遗言+编译优化,真正实现了大模型集群训练的高稳定性。
【6】鹏程·脑海200B模型业务全流程主要包括数据预处理、模型与训练、微调(SFT)、对齐(RLHF)、模型部署以及模型应用。
【7】鹏城·脑海开源创新2023年9月21日正式启程;鹏城·脑海”大模型开源链接(Openl - 启智AI开源社区提供普惠算力!)https://openi.pcl.ac.cn/extension/mind
3、经验分享:
【1】通过基于增强学习的大模型微调技术,能够持续演进、快速迭代更新、且输出内容更加符合中文价值观;
【2】“工欲善其事,必先利其器”,该项目在硬件方面使用了鹏程探索(C2NET-0.1),其中包括中国算力网,智能网络板块等大型算力网络集群,以“鹏城云脑”E级智算平台为核心节点,跨域高效纳管调度华为NPU、寒武纪MLU、英伟达GPU等20余个异构算力集群,汇聚算力规模超过3EOps@FP16。
【3】三大模型过程:Pangu-α模型、GPT-3模型、鹏程·脑海200B模型,当然这次的主角当然是最后一个啦,感兴趣的也可以上网查阅其他两个模型的技术细节。
【4】对于人工智能模型训练过程可以使用细粒度重算机制来提高训练效率,加快精确度提升以及提高模型的训练质量。
4、课程反馈:
课程讲解非常细致,可以将模糊化的课程材料放在评论区大家可以边上课边在ppt上做笔记,对训练细节可以更加形象生动一点。
5、使用MindSpore昇思的体验和反馈:
Mindspore发展迅速,迭代更新速度极快,易上手,是非常好的国内人工智能框架,建议持续优化框架算子使用指南和使用案例。
6、未来展望:
课程可以先将这节课的主要内容对以后得应用进行讲解,引起读者的兴趣,然后在进行深入的讲解,采取倒序的方式进行对模型的准备、训练、测试以及应用进行由浅入深的讲解。