视频部分笔记
视频地址:书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili
近些年,大模型成为发展通用人工智能的重要路径。
- 专用模型:解决某一特定问题,例如:语音识别、人脸识别、围棋比赛、蛋白质结构预测等等。
- 通用大模型:一个模型可以解决多种任务、多种模态任务。
InternLM2体系
InternLM2开源了7B和20B模型,每个模型面对不同的使用需求包括了三个模型版本。
- InternLM2-Base:高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点。
- internLM2:在Base的基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力。
- InternLM2-Chat:在Base基础上经过SFT和RLHF,面相对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具的能力。
InternLM2的主要亮点
- 超长上下文:模型在20万token上下文中几乎完美实现大海捞针。
- 综合性能全面提升:推理、数学、代码能力提升显著。
- 对话和创作体验更加优秀:实现了精准指令跟随、丰富的结构化创作、在AlpacaEval2超越GPT-3.5和Gemini Pro。
- 工具调用能力整体升级:支持工具多轮调用,复杂智能体构建
- 数理能力以及数据分析能力增强:具有强大的内生计算能力,并加入了代码解释,在GSM8K和MATH达到和GPT-4相仿的水平。
从模型到应用典型流程
首先进行模型选型,根据业务场景是否复杂选择是否进行微调;如果选择微调,根据算力条件选择全参数微调或部分参数微调;根据是否需要与环境交互选择是否构建智能体,然后进行模型评测并部署模型。
书生·浦语全链条开源开放体系
包含了数据、预训练、微调、部署、评测、应用。
数据:书生·万卷
- 书生万卷1.0 2TB
- 书生万卷CC 400GB
- 开源数据集平台OpenDataLab:OpenDataLab
预训练:InternLM-Train
- 支持从8卡到千卡扩展
- Hybrid Zero+优化提速50%
- 无缝接入HuggingFace
- 开箱即用
微调:XTuner
- 适配多种生态
- 多种微调算法:LoRA、QLoRA、全量参数微调等
- 适配多种开源生态:支持加载HuggingFace、ModelScope模型或数据集
- 自动优化加速
- 适配多种硬件
- 适配NVIDIA 20系以上所有显卡
- 最低只需8GB显存即可微调8B模型
评测:OpenCompass
- CompassKit:大模型评测全栈工具链
- CompassHub:高质量评测基准社区
- OpenCompass:综合性客观评测年度榜单
部署:LMDeploy
- 提供大模型在GPU上部署的全流程解决方案,包括模型的轻量化、推理和服务。
智能体:AgentLego
- 提供了大量视觉、多模态相关领域的前沿算法功能
- 支持多个主流智能体系统,如:LangChain、Transformers Agent,lagent等
- 多模态工具调用接口灵活,支持各类输入输出格式的工具函数
- 一键式远程工具部署、轻松使用和调试大模型智能体。
技术报告部分
技术报告地址:InternLM2 技术报告
InternLM2在 6 个维度和 30 个基准的综合评估、长期上下文建模和开放式主观评估方面表现优秀。InternLM2 的预训练过程包括文本、代码和长上下文数据。InternLM2 有效地捕获了长期依赖关系,最初在 4k tokens上训练,然后在预训练和微调阶段推进到 32k tokens,在 200k“大海捞针”测试中表现出出色的性能。InternLM2 使用监督微调 (SFT) 和一种COOL RLHF 策略进一步调整,该策略解决了相互冲突的人类偏好和reward hacking攻击。
大语言模型LLM的开发包括几个阶段:预训练、有监督微调SFT、基于人类反馈的强化学习RLHF。
预训练:用大量的数据训练,使LLM学习到基本的技能以及大量的知识。数据的质量对于预训练阶段至关重要。internLM2使用了GQA Group Query Attention有效的扩展了LLM上下文长度。预训练阶段先使用4k的上下文文本然后迁移到32k文本继续训练,然后通过positional encoding extrapolation到200k上下文。
SFT、RLHF:有监督微调和基于人类反馈的强化学习将模型进行对齐,确保遵循人类指令以及符合人类价值观。InternLM2中使用了COditional OnLine RLHF(COOL RLHF)使用了有条件的奖励模型调和相互冲突的人类偏好,并且在多个回合中执行PPO算法,从而减轻每个阶段中出现的reward hacking。
InternLM2的贡献:1、开源。2、设计了200k的上下文窗口;3、全面的数据准备指南;4、创新了RLHF训练技巧,提出COOL RLHF