超大模型——“悟道”与“盘古”介绍

OpenI启智社区

于 2021-09-06 20:31:29 发布

阅读量2.1k

点赞数 2

分类专栏：启智社区文章标签：人工智能自然语言处理 big data

本文链接：https://blog.csdn.net/weixin_51161651/article/details/120140538

版权

启智社区专栏收录该内容

14 篇文章

订阅专栏

OpenI启智社区开源项目系列介绍

继基于数据的互联网时代、基于算力的云计算时代之后，人工智能的大模型时代正在到来。超大数据+超大算力+超大模型, 将如”电网”一般，成为变革性产业基础建设设施，与驱动信息产业应用发展的核心动力。

作为OpenI启智社区开源项目介绍的首期内容，本期将介绍两个超大规模预训练模型——“悟道”、“鹏程·盘古”。

鹏程·盘古

源代码仓库：https://git.openi.org.cn/PCL-Platform.Intelligence/PanGu-Alpha

由鹏城实验室联合有关单位技术团队组建的中文超大规模预训练语言「鹏程·盘古α」联合攻关团队，首次基于“鹏城云脑Ⅱ”和MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练，训练出业界首个2000亿超大参数中文预训练模型“鹏程·盘古”。盘古训练代码、模型、部分数据、在线功能体验、模型压缩及跨平台微调推理已同步在OpenI 启智社区全部开源开放。

高质量语料大数据处理分析平台

海量语料是预训练模型研究的基础，联合团队从开源开放数据集、common crawl网页数据、电子书等收集了近80TB原始数据。搭建了面向大型语料库预处理的分布式集群，通过数据清洗过滤、去重、质量评估等处理流程，构建了一个约1.1TB的高质量中文语料数据集，经统计Token数量约为250B规模。通过对不同的开源数据集独立进行处理，完全清除了跟下游任务相关的标签信息，以保证源数据的无偏性。通过“人工精细化评估+鹏程·盘古小模型快速批量验证”不仅保障清理和抽取出各类异构源数据的质量，而且全面验证分析各类数据集、BPE与BBPE编码选择、Sequence长度选择、数据集抽样策略等因素对训练模型质量的影响。

业界首创的随机词序自回归预训练语言模型

在transformer层之上引入包含位置信息的 Query 层，可增强模型位置感知能力，提升模型的生成效果。模型引入随机词序生成，增加预训练难度，提升模型能力。引入预测模块（Predictor），预训练阶段通过位置向量诱导输出。同时支持理解和生成任务，相比于GPT，盘古α模型设计阶段就考虑了其持续学习演化的能力，一是为了节省计算资源，还支持从顺序自回归模型过渡到随机词序自回归模型的增量训练，不同阶段的持续学习能力让模型具备随机词序的生成，具备更强的NLU能力。

万亿参数超大模型全国产并行训练平台

全国产超大集群下高效训练千亿至万亿参数模型，用户需要综合考虑参数量、计算量、计算类型、集群带宽拓扑和样本数量等才能设计出性能较优的并行切分策略，模型编码出来考虑算法以外，还需要编写大量并行切分和通信代码。MindSpore是业界首个支持全自动并行的框架，MindSpore多维度自动并行，通过数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行、异构并行、重计算、高效内存复用，及拓扑感知调度，实现整体迭代时间最小（计算时间+通信时间）。编程接口高效易用，实现了算法逻辑和并行逻辑解耦，串行代码自动分布式并行。

全面开源开放应用生态

鹏程·盘古团队一直致力于构建大模型全面开源开放应用生态，为了适配各类应用和迁移各类领域，在模型压缩、兼容异构框架的模型移植、在线增量推理、小样本学习、可持续学习等方面做了大量研发工作，支持对话机器人、新闻写作助手、多语言翻译、知识问答、专利辅助生成等传统AI应用场景，也支持探索歌词创作、歌曲或音乐自动生成等科学+艺术的跨界应用领域。

欢迎对鹏程·盘古大模型感兴趣的同仁关注并加入我们，为国家AI集智创新战略做贡献。

悟道

OpenI社区源代码仓库：https://git.openi.org.cn/BAAI/WuDao-Model

2021年6月，北京智源人工智能研究院发布了“悟道2.0”系列模型，其中核心推出了中国首个全球最大的双语多模态预训练模型，规模达到1.75万亿参数，超过之前由谷歌发布的Switch Transformer；目前“悟道”系列的部分源码与模型于8月在OpenI启智社区开源运营。

9项顶尖智能能力，创新性的通用精准智能

“悟道2.0”一举在世界公认的9项Benchmark上获得了第一的成绩，达到了精准水平。

全球最大万亿参数，新一代FastMoE补齐万亿模型最后一块短板

开创性的研发FastMoE技术，是打破国外技术瓶颈，实现“万亿模型”基石的关键。以往，由于Google万亿模型的核心技术MoE（Mixture of Experts）与其分布式训练框架和其定制硬件强绑定，绝大多数人无法得到使用与研究的机会。“悟道”团队研究并开源的FastMoE是首个支持PyTorch框架的MoE系统，具有简单易用、灵活、高性能等特点，并且支持大规模并行训练。新一代FastMoE，支持Switch、GShard等复杂均衡策略，支持不同专家不同模型，为万亿模型实现方案补上了最后一块短板，让梦想终成现实。

尤其值得一提的是，这个世界上最大的万亿模型，完全基于国产超算平台打造，其基础算法是在中国的超威超算上完成模型训练，实现了100%国产代码。

建设全球最大的语料数据库WuDaoCorpora2.0，提出自然语言评测新标准“智源指数”

“悟道”模型研发过程中，智源研究院建设了全球最大的语料数据库WuDaoCorpora2.0，包含全球最大的中文文本数据集（3TB）、全球最大的多模态数据集(90TB)、全球最大的中文对话数据集(181G)，为行业内大规模智能模型的研发提供了丰富的数据支撑。为了促进中国预训练模型的科研研究，智源研究院开放了200G中文文本数据集。