书生·浦语大模型全链路开源体系
只记录了本人感兴趣且认为比较重要的内容,想了解更多点击上方链接即可。
InternLM2-Base
高质量和具有很强可塑性的模型基座是模型进行深度领域适配的高质量起点
InternLM2
在 Base 基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座
InternLM2-Chat
在 Base 基础上,经过SFT 和 RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等的能力
-
SFT(Supervised Fine-Tuning)“有监督微调”意味着使用有标签的数据来调整一个已预训练好的语言模型(LLM),使其更适应某一特定任务。通常LLM的预训练是无监督的,但微调过程往往是有监督的。
当进行有监督微调时,模型权重会根据与真实标签的差异进行调整。通过这个微调过程,模型能够捕捉到标签数据中特定于某一任务的模式和特点。使得模型更加精确,更好地适应某一特定任务。
以一个简单的例子来说,你有一个已经预训练好的LLM。当输入“我不能登录我的账号,我该怎么办?”时,它可能简单地回答:“尝试使用‘忘记密码’功能来重置你的密码。” -
RLHF (Reinforcement Learning from Human Feedback),即以强化学习方式依据人类反馈优化语言模型。
分三步
- 预训练一个语言模型 (LM) ;
- 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ;
- 用强化学习 (RL) 方式微调 LM。
InternLM2升级了模型的工具(搜索、计算、代码解释器)调用能力,能够更稳定地进行工具筛选和多步骤规划、完成复杂任务。
书生·浦语全链条开源开放体系
数据:2TB数据,涵盖多种模态与任务
预训练:并行训练
微调:XTuner支持全参数微调支持LoRA等低成本微调
部署:LMDeploy,全链路部署性能领先
评测:OpenCompass,全方位测评,性能可复现,100套评测集,50w道题目
应用:支持多种智能体,支持代码解释器等多种工具
轻量级智能体框架:Lagent