书生·浦语大模型全链路开源体系第一课课程笔记

嘻嘻嘻577

已于 2024-06-18 15:39:06 修改

阅读量772

点赞数 16

文章标签：笔记

于 2024-06-05 22:49:47 首次发布

本文链接：https://blog.csdn.net/weixin_62638966/article/details/139456027

版权

大模型发展方向

大模型成为发展通用人工智能的重要途径

从专用模型（针对特定任务）→ 通用大模型（多种任务、多种模态通用）

语言模型 → 智能体

语言模型的发展与演进

书生·浦语大模型开源历程

书生·浦语2·0（InternLM2）的体系

2种规格：

7B参数：为轻量级研究和应用提供了一个轻便但性能不俗的模型，性价比高
20B参数：综合性能更强，支持更复杂的实用场景

每个规格都包含3个模型版本

InternLM2-Base模型基座：具有很强可塑性的模型基座，进行深度领域适配的高质量起点
InternLM2：Base基础上，强化了多个能力方向，评测成绩优异，同时保持了很好的通用语言能力，大部分应用中推荐考虑选用
InternLM2-Chat：Base基础上，经过SFT和RLHF，面向对话交互进行了优化，具有很好的指令遵循、共情聊天和调用工具等的能力

回归语言建模的本质

大语言模型的本质是语言建模，context预测token

InternLM系列采用新一代的数据清洗过滤技术：

多维度数据价值评估 → 高质量语料 → 驱动进行数据富集 → 针对性的数据补齐（强化核心能力）

InternLM2模型的主要亮点

1、输入：支持超长上下文，20万字长输入中完美实现“大海捞针”

2、性能：综合性能全面提升。尤其是推理、数学、代码等方面能力提升显著，综合性能达到同量级开源模型的领先水平，在重点能力评测上InternLM2-Chat-20B甚至比肩ChatGPT-3.5水平

3、优秀的对话和创作体验

4、工具调用能力整体升级，极大拓展能力边界。通过搜索、计算、代码解释器等获取最新的知识并处理更复杂的问题。InternLM2能更稳定地进行工具筛选和多步骤规划，完成复杂问题。

5、实用性，更贴近用户使用场景：突出的数理能力、实用的数据分析功能。

①强大的内生计算能力：预训练阶段吸收丰富的数学相关语料，并在微调阶段全面学习各学段各类知识题目。
②代码解释器：能编写代码进行更复杂的计算，或对推理的结果进行形式化验证，解决计算要求更高或演算过程更复杂的问题。
③数据分析和可视化，进一步贴近用户使用场景：基于计算和工具调用方面的强大基础能力，InternLM语言模型中具备了数据分析和可视化实用能力。

从模型到应用的典型流程

关键节点：

模型选型（评测）、业务场景是否复杂、算力足够否 → 微调方式（部分/全参数/续训） → 是否需要与环境交互（与环境交互→构建智能体）、模型评测、模型部署

书生·浦语全链条开源开放体系

全链路：数据(书生·万卷) → 预训练InternLM-Train → 微调XTuner → 部署LMDeploy → 评测OpenCompass → 应用Lagent AgentLego

数据(书生·万卷)：2TB数据，涵盖多种模态与任务。
预训练InternLM-Train：并行训练，极致优化，速度达到3600 tokens/sec/gpu
微调XTuner：支持全参数微调，支持LoRA等低成本微调
部署LMDeploy：全链路部署，每秒生成2000+ tokens，性能领先
评测OpenCompass：全方位评测，性能可复现。
应用Lagent AgentLego：支持多种智能体，支持代码解释器等多种工具

开放高质量语料数据

数据集获取：OpenDataLab

书生·万卷1.0（总数据量2TB）、书生·万卷CC（总数据量400G）

高质量体现：多模态融合、时间跨度长、来源丰富多样、尤其是安全密度高、四重“”萃取“高质量数据、价值观对齐、精细化处理

预训练

高可扩展
极致性能优化
兼用主流（无缝接入HuggingFace等技术生态，支持各类轻量化技术）
开箱即用（支持多种规格语言模型，修改配置即可训练）

微调

下游应用中，微调常用增量续训和有监督微调，计算资源使用上更有性价比

1、增量续训

"增量续训"（Incremental Training）指的是在模型已经训练好的基础上，继续添加新的数据进行训练，以提高模型的性能或适应新的数据分布。适用于大语言模型，因为它们需要处理大量的文本数据，并且随着时间的推移，语言的使用方式可能会发生变化。

增量续训的特性：

持续学习：增量续训允许模型持续学习，适应新的语言趋势和更新最新数据，保持相关性和准确性，帮助避免模型变得过时。
避免遗忘：模型可以避免由于长时间不训练而遗忘旧知识（灾难性遗忘）。
计算资源效率高：相比于从头开始训练一个全新的模型，增量续训通常只需要较少的计算资源。
微调：通常与微调相结合，在特定垂类任务上对模型进行额外的训练，以提高在该任务上的性能。模型维护：对于大型语言模型，定期的增量续训是维护模型性能和相关性的重要手段。
数据多样性提高泛化能力：增量续训可以帮助模型更好地理解和处理多样化的数据，提高其泛化能力。

使用场景：让模型基座学习新知识，如某垂类领域知识，语言变化等。

训练数据为文章、书籍、代码等。