书生·浦语训练营：第一讲全链路开源开放体系笔记

yidao0618

已于 2024-04-24 15:02:33 修改

阅读量780

点赞数 11

文章标签：开源

于 2024-03-31 15:39:24 首次发布

本文链接：https://blog.csdn.net/yidao0618/article/details/137200941

版权

文章介绍了InternLM2的开源全链路体系，包括7B和20B模型的三个版本，强调其在超长上下文处理、综合性能提升、对话创作和工具调用方面的优势。体系涵盖了模型选择、微调、评测到应用的完整流程，以及COOLRLHF等创新强化学习训练方法。

摘要由CSDN通过智能技术生成

视频部分笔记

视频地址：书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili

近些年，大模型成为发展通用人工智能的重要路径。

专用模型：解决某一特定问题，例如：语音识别、人脸识别、围棋比赛、蛋白质结构预测等等。
通用大模型：一个模型可以解决多种任务、多种模态任务。

InternLM2体系

InternLM2开源了7B和20B模型，每个模型面对不同的使用需求包括了三个模型版本。

InternLM2-Base：高质量和具有很强可塑性的模型基座，是模型进行深度领域适配的高质量起点。
internLM2：在Base的基础上，在多个能力方向进行了强化，在评测中成绩优异，同时保持了很好的通用语言能力。
InternLM2-Chat：在Base基础上经过SFT和RLHF，面相对话交互进行了优化，具有很好的指令遵循、共情聊天和调用工具的能力。

InternLM2的主要亮点

超长上下文：模型在20万token上下文中几乎完美实现大海捞针。
综合性能全面提升：推理、数学、代码能力提升显著。
对话和创作体验更加优秀：实现了精准指令跟随、丰富的结构化创作、在AlpacaEval2超越GPT-3.5和Gemini Pro。
工具调用能力整体升级：支持工具多轮调用，复杂智能体构建
数理能力以及数据分析能力增强：具有强大的内生计算能力，并加入了代码解释，在GSM8K和MATH达到和GPT-4相仿的水平。

从模型到应用典型流程

首先进行模型选型，根据业务场景是否复杂选择是否进行微调；如果选择微调，根据算力条件选择全参数微调或部分参数微调；根据是否需要与环境交互选择是否构建智能体，然后进行模型评测并部署模型。

书生·浦语全链条开源开放体系

包含了数据、预训练、微调、部署、评测、应用。

数据：书生·万卷

书生万卷1.0 2TB
书生万卷CC 400GB
开源数据集平台OpenDataLab：OpenDataLab

预训练：InternLM-Train

支持从8卡到千卡扩展
Hybrid Zero+优化提速50%
无缝接入HuggingFace
开箱即用

微调：XTuner

适配多种生态
- 多种微调算法：LoRA、QLoRA、全量参数微调等
- 适配多种开源生态：支持加载HuggingFace、ModelScope模型或数据集
- 自动优化加速
适配多种硬件
- 适配NVIDIA 20系以上所有显卡
- 最低只需8GB显存即可微调8B模型

评测：OpenCompass

CompassKit：大模型评测全栈工具链
CompassHub：高质量评测基准社区
OpenCompass：综合性客观评测年度榜单

部署：LMDeploy

提供大模型在GPU上部署的全流程解决方案，包括模型的轻量化、推理和服务。

智能体：AgentLego

提供了大量视觉、多模态相关领域的前沿算法功能
支持多个主流智能体系统，如：LangChain、Transformers Agent，lagent等
多模态工具调用接口灵活，支持各类输入输出格式的工具函数
一键式远程工具部署、轻松使用和调试大模型智能体。

技术报告部分

技术报告地址：InternLM2 技术报告

InternLM2在 6 个维度和 30 个基准的综合评估、长期上下文建模和开放式主观评估方面表现优秀。InternLM2 的预训练过程包括文本、代码和长上下文数据。InternLM2 有效地捕获了长期依赖关系，最初在 4k tokens上训练，然后在预训练和微调阶段推进到 32k tokens，在 200k“大海捞针”测试中表现出出色的性能。InternLM2 使用监督微调（SFT）和一种COOL RLHF 策略进一步调整，该策略解决了相互冲突的人类偏好和reward hacking攻击。

大语言模型LLM的开发包括几个阶段：预训练、有监督微调SFT、基于人类反馈的强化学习RLHF。

预训练：用大量的数据训练，使LLM学习到基本的技能以及大量的知识。数据的质量对于预训练阶段至关重要。internLM2使用了GQA Group Query Attention有效的扩展了LLM上下文长度。预训练阶段先使用4k的上下文文本然后迁移到32k文本继续训练，然后通过positional encoding extrapolation到200k上下文。

SFT、RLHF：有监督微调和基于人类反馈的强化学习将模型进行对齐，确保遵循人类指令以及符合人类价值观。InternLM2中使用了COditional OnLine RLHF(COOL RLHF)使用了有条件的奖励模型调和相互冲突的人类偏好，并且在多个回合中执行PPO算法，从而减轻每个阶段中出现的reward hacking。

InternLM2的贡献：1、开源。2、设计了200k的上下文窗口；3、全面的数据准备指南；4、创新了RLHF训练技巧，提出COOL RLHF