浦语Camp3:基础1-书生大模型全链路开源体系

书生·浦语从去年开源免费商用的 InternLM-7B,模型,并发布全链路开源工具体系,再到后来的 InternLM-20B 以及 InternLM2、InternLM2.5。不断刷新开源模型的性能上限。

书生·浦语2.5

InternLM2.5 模型的推理能力相比 InternLM2 提升 20%,并且支持了100万字的上下文,相比之下 GPT4O 也仅仅 128K 的上下文长度。并且还具备了自主规划能力,能够完成复杂任务。

核心方式时使用模型参与自身迭代,提升自己的能力。通过当前的模型进行数据过滤和评估预训练数据,并通过指令生成对齐数据,生成更好的训练数据,来训练出更好的模型。

核心是创造出更好的数据。

合成高质量的数据包含以下方式:

  • 基于规则的数据构造,通过添加代码、公式、函数和数学题解等数据,提高数据质量
  • 基于模型的数据扩充,使用模型生成新的数据
  • 基于反馈的数据生成,使用模型生成多条数据,并根据模型的响应选择高质量的数据,人类进行满意度排序,痛点:标注

模型性能

推理能力强

推理能力相比上一代大幅提升,并领先同量级的开源模型

支持100万 Token 上下文

支持100万 Token 上下文,在大海捞针测试中展现出强大的性能。

能够规划和搜索解决复杂问题

InternLM2.5 能够理解用户的需求,分析用户的问题,将问题进行拆解,使用搜索引擎得到各部分的结果,筛选精读进行内容整合,得到准确的结果。

书生·浦语开源模型体系

书生·浦语系列模型包含语言模型、多模态模型,垂直领域模型等。

语言模型有 1.8B 大小的模型,适合开发者学习上手。7B 大小的模型可以提供轻量级的研究和应用。20B 大小的模型可以支持复杂的应用场景,有涌现现象(没见过的数据也能表现不错)。102B 大小的模型可以匹配 GPT4。

InternLM-XComposer 模型可以实现图文理解。InternLM-Math、InternLM-WQX 等模型在垂直领域也有很好的表现。

开源数据

openxlab 上拥有30多种模态的数据,7700多个数据集,总数据大小达到180TB,包含了数十亿张图片,万亿Token等数据集。

openxlab 还支持灵活的数据检索,帮助开发者更容易找到需要的数据。并且提供高速下载。

开源数据处理工具箱

书生·浦语开源了多种数据标注工具。比如能够高质量提取pdf数据的 Miner U,可以智能标注对话数据的 Label LLM,以及标注图片数据的 Label U。

InternEvo

InternEvo 是一个大模型预训练框架。可以支持千卡规模的训练,支持 4D并行,可以提供极致的性能优化,提高硬件的利用率。软件生态兼容 HuggingFace,方便训练其他模型。硬件方面支持 Nvidia 和 910B 等集群。支持预训练、微调和RLHF模型训练。

XTuner

训练方案覆盖 Nvidia 20 系以上所有显卡。

最低只需要 8GB 显存即可微调 7B 模型。

OpenCompass

LMDeploy

LMDeploy 推理性能领先于 vLLM。

Lagent

大模型本身有以下局限性,比如无法获取最新的信息和知识、回复不可靠、无法使用工具等。因此需要使用工具增强模型的性能。

HuixiangDou

HuixiangDou 是一个基于 RAG 的群聊 LLM 知识助手,可以应用于即时通讯群聊场景。

使用 RAG 检索获取准确的回应。

它可以实现无关问题不回复,回答时直接明确,不违背核心价值观。

视频教程:【书生·浦语大模型全链路开源开放体系】 https://www.bilibili.com/video/BV18142187g5/?share_source=copy_web&vd_source=9fc5c49a6470dd2ac4fd8335b980678b

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值