浦语Camp3:基础1-书生大模型全链路开源体系

最新推荐文章于 2024-10-02 14:57:37 发布

灵敏电流表吖

最新推荐文章于 2024-10-02 14:57:37 发布

阅读量791

点赞数 15

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46610879/article/details/141369421

版权

书生·浦语从去年开源免费商用的 InternLM-7B，模型,并发布全链路开源工具体系，再到后来的 InternLM-20B 以及 InternLM2、InternLM2.5。不断刷新开源模型的性能上限。

书生·浦语2.5

InternLM2.5 模型的推理能力相比 InternLM2 提升 20%，并且支持了100万字的上下文，相比之下 GPT4O 也仅仅 128K 的上下文长度。并且还具备了自主规划能力，能够完成复杂任务。

核心方式时使用模型参与自身迭代，提升自己的能力。通过当前的模型进行数据过滤和评估预训练数据，并通过指令生成对齐数据，生成更好的训练数据，来训练出更好的模型。

核心是创造出更好的数据。

合成高质量的数据包含以下方式：

基于规则的数据构造，通过添加代码、公式、函数和数学题解等数据，提高数据质量
基于模型的数据扩充，使用模型生成新的数据
基于反馈的数据生成，使用模型生成多条数据，并根据模型的响应选择高质量的数据，人类进行满意度排序，痛点：标注

模型性能

推理能力强

推理能力相比上一代大幅提升，并领先同量级的开源模型

支持100万 Token 上下文

支持100万 Token 上下文，在大海捞针测试中展现出强大的性能。

能够规划和搜索解决复杂问题

InternLM2.5 能够理解用户的需求，分析用户的问题，将问题进行拆解，使用搜索引擎得到各部分的结果，筛选精读进行内容整合，得到准确的结果。

书生·浦语开源模型体系

书生·浦语系列模型包含语言模型、多模态模型，垂直领域模型等。

语言模型有 1.8B 大小的模型，适合开发者学习上手。7B 大小的模型可以提供轻量级的研究和应用。20B 大小的模型可以支持复杂的应用场景，有涌现现象（没见过的数据也能表现不错）。102B 大小的模型可以匹配 GPT4。

InternLM-XComposer 模型可以实现图文理解。InternLM-Math、InternLM-WQX 等模型在垂直领域也有很好的表现。

开源数据

openxlab 上拥有30多种模态的数据，7700多个数据集，总数据大小达到180TB，包含了数十亿张图片，万亿Token等数据集。

openxlab 还支持灵活的数据检索，帮助开发者更容易找到需要的数据。并且提供高速下载。

开源数据处理工具箱

书生·浦语开源了多种数据标注工具。比如能够高质量提取pdf数据的 Miner U，可以智能标注对话数据的 Label LLM，以及标注图片数据的 Label U。

InternEvo

InternEvo 是一个大模型预训练框架。可以支持千卡规模的训练，支持 4D并行，可以提供极致的性能优化，提高硬件的利用率。软件生态兼容 HuggingFace，方便训练其他模型。硬件方面支持 Nvidia 和 910B 等集群。支持预训练、微调和RLHF模型训练。

XTuner

训练方案覆盖 Nvidia 20 系以上所有显卡。

最低只需要 8GB 显存即可微调 7B 模型。

OpenCompass

LMDeploy

LMDeploy 推理性能领先于 vLLM。

Lagent

大模型本身有以下局限性，比如无法获取最新的信息和知识、回复不可靠、无法使用工具等。因此需要使用工具增强模型的性能。

HuixiangDou

HuixiangDou 是一个基于 RAG 的群聊 LLM 知识助手，可以应用于即时通讯群聊场景。

使用 RAG 检索获取准确的回应。

它可以实现无关问题不回复，回答时直接明确，不违背核心价值观。

视频教程：【书生·浦语大模型全链路开源开放体系】 https://www.bilibili.com/video/BV18142187g5/?share_source=copy_web&vd_source=9fc5c49a6470dd2ac4fd8335b980678b

灵敏电流表吖

关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。