源2.0开源千亿参数模型，性能优越，商用友好

最新推荐文章于 2024-08-26 18:56:03 发布

始智AI wisemodel

最新推荐文章于 2024-08-26 18:56:03 发布

阅读量489

点赞数 5

文章标签：人工智能语言模型开源

本文链接：https://blog.csdn.net/wisemodel/article/details/135879850

版权

浪潮信息在始智AIwisemodel.cn开源社区开源了源2.0大模型，提供2B、51B和102B版本，提升了数理逻辑、代码生成能力，尤其在基准测试中的表现优于ChatGPT，接近GPT-4水平。模型支持免费商用，得益于LFA结构、高质量数据和并行计算策略的优化。

摘要由CSDN通过智能技术生成

浪潮信息最近在始智AI wisemodel.cn开源社区发布了源2.0大模型，包括2B、51B和102B不同版本的模型。源2.0大模型在数理逻辑、数学计算、代码生成能力方面大幅提升，且在HumanEval、AGIEval、GMS-8K等知名评测集上的表现，超过了ChatGPT的精度，接近GPT-4的精度。源2.0模型支持无需申请即可免费商用。

https://wisemodel.cn/organization/IEIT-Yuan（模型地址）

模型表现

源2.0模型在代码、数学、事实问答等方面进行了能力测试，在公开的基准测试集上取得成绩如下表所示。从结果来看，源2.0模型的表现还是相当不错。源2.0的突出表现离不开算法、数据、计算三方面的努力。

模型结构

源2.0在模型结构上有所调整和更新，采用了一种局部注意力过滤增强机制（LFA，Localized Filtering-based Attention），学习输入内容之间的关系时，分词过程中会优先考虑自然语言之间的局部关系。

LFA结构引入了两个嵌套卷积结构，输入序列通过卷积增强局部依赖关系，然后进行两两之间关联性学习，使得模型能同时掌握输入内容的全局性和局部性关系。通过强化相邻词之间的关联，然后再计算全局关联，能更好处理自然语言的语序排列问题，对中文语境的关联语义理解更准确。

经过工程化验证，LFA算法在提升模型精度的同时，有效降低了模型参数量，进而减小内存开销，实现降本增效。基于LFA的模型结构，源2.0-102B模型训练288B的Tokens，最终Training Loss为1.18。

提升数据质量

源2.0模型的训练过程中，降低了互联网数据的比例，增加了百科、书籍、期刊数据，并引入了代码和数学数据。为了能更高效地获得高质量的代码数据集，还基于主题词或Q&A问答对使用大模型自动生成了编程题目和答案的数据，提高了数据集问题的多样性和随机性。

并行计算策略优化

源2.0进行分布式训练时，结合了非均匀流水线并行、数据并行和优化器并行多种不同的计算策略，有效减少节点间通信带宽的需求，提高训练性能。张量并行需要大量的全局集体通信（如AllReduce），这会增加带宽需求，可能成为LLMs训练的性能瓶颈，源2.0训练中没有采用张量并行策略。在流水线并行策略中，提出了一种非均匀的划分方法，即将模型层非均匀地分配到各个设备上，而不是均匀划分，可以降低内存需求，进一步减少通信开销。

模型示例

更多详细内容可以参考：

https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf

始智AI wisemodel

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
源2.0开源千亿参数模型，性能优越，商用友好

源2.0大模型在数理逻辑、数学计算、代码生成能力方面大幅提升，且在HumanEval、AGIEval、GMS-8K等知名评测集上的表现，超过了ChatGPT的精度，接近GPT-4的精度。源2.0模型的训练过程中，降低了互联网数据的比例，增加了百科、书籍、期刊数据，并引入了代码和数学数据。源2.0在模型结构上有所调整和更新，采用了一种局部注意力过滤增强机制（LFA，Localized Filtering-based Attention），学习输入内容之间的关系时，分词过程中会优先考虑自然语言之间的局部关系。
复制链接

扫一扫