源2.0开源千亿参数模型,性能优越,商用友好

浪潮信息在始智AIwisemodel.cn开源社区开源了源2.0大模型,提供2B、51B和102B版本,提升了数理逻辑、代码生成能力,尤其在基准测试中的表现优于ChatGPT,接近GPT-4水平。模型支持免费商用,得益于LFA结构、高质量数据和并行计算策略的优化。
摘要由CSDN通过智能技术生成

浪潮信息最近在始智AI wisemodel.cn开源社区发布了源2.0大模型,包括2B、51B和102B不同版本的模型。源2.0大模型在数理逻辑、数学计算、代码生成能力方面大幅提升,且在HumanEval、AGIEval、GMS-8K等知名评测集上的表现,超过了ChatGPT的精度,接近GPT-4的精度。源2.0模型支持无需申请即可免费商用。

图片

https://wisemodel.cn/organization/IEIT-Yuan(模型地址)

模型表现

源2.0模型在代码、数学、事实问答等方面进行了能力测试,在公开的基准测试集上取得成绩如下表所示。从结果来看,源2.0模型的表现还是相当不错。源2.0的突出表现离不开算法、数据、计算三方面的努力。

图片

模型结构

源2.0在模型结构上有所调整和更新,采用了一种局部注意力过滤增强机制(LFA,Localized Filtering-based Attention),学习输入内容之间的关系时,分词过程中会优先考虑自然语言之间的局部关系。

图片

LFA结构引入了两个嵌套卷积结构,输入序列通过卷积增强局部依赖关系,然后进行两两之间关联性学习,使得模型能同时掌握输入内容的全局性和局部性关系。通过强化相邻词之间的关联,然后再计算全局关联,能更好处理自然语言的语序排列问题,对中文语境的关联语义理解更准确。

经过工程化验证,LFA算法在提升模型精度的同时,有效降低了模型参数量,进而减小内存开销,实现降本增效。基于LFA的模型结构,源2.0-102B模型训练288B的Tokens,最终Training Loss为1.18。

图片

提升数据质量

源2.0模型的训练过程中,降低了互联网数据的比例,增加了百科、书籍、期刊数据,并引入了代码和数学数据。为了能更高效地获得高质量的代码数据集,还基于主题词或Q&A问答对使用大模型自动生成了编程题目和答案的数据,提高了数据集问题的多样性和随机性。

图片

并行计算策略优化

源2.0进行分布式训练时,结合了非均匀流水线并行、数据并行和优化器并行多种不同的计算策略,有效减少节点间通信带宽的需求,提高训练性能。张量并行需要大量的全局集体通信(如AllReduce),这会增加带宽需求,可能成为LLMs训练的性能瓶颈,源2.0训练中没有采用张量并行策略。在流水线并行策略中,提出了一种非均匀的划分方法,即将模型层非均匀地分配到各个设备上,而不是均匀划分,可以降低内存需求,进一步减少通信开销。

图片

模型示例

图片

图片

图片

更多详细内容可以参考:

https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值