1.书生·浦语大模型全链路开源开放体系
学习视频链接:https://www.bilibili.com/video/BV1Vx421X72D/
InternLM2 技术报告:https://arxiv.org/pdf/2403.17297.pdf
社区翻译版:InternLM2 技术报告——社区翻译版_agieval 5 shot-CSDN博客
视频笔记
大模型发展趋势:
书生的发展历程
书生的三个版本(面向不同的需求)
语言建模的本质
(随着语料提升,整体质量在增强)
书生浦语2.0的主要亮点:
1.超长上下文
2.综合性能全面提升
3.优秀的对话和创作体验
4.工具调用能力整体提升
5.突出的数理能力和实用的数据分析功能
性能比较:
应用:
1.贴心可靠的AI助手
2.充满人文关怀的对话
3.富有想象力的创作
4.工具调用能力提升(路线规划、餐厅预订)
5.强大的内生计算能力(1000以内求和,微积分有可能作对,模型内生能力)
6.带上代码解释器,效果更好(典型数学评测集:GSM8K和MATH)
7.数据分析(上传表格,可以写概述,使用matlab画一些统计图,结合机器学习算法完成预测工作)
从模型——>应用
流程图:
开放体系:
开源高质量语料数据:
预训练:
微调(增量续训、有监督微调):
评测OpenCompass司南:(国产、开源)
社区(CompassHub)
opencompass(循环评测,百分制基准评测)
国内模型在中文场景具有性能优势
部署:
智能体(给如何进一步使用、开发大模型更多可能性):
论文笔记
社区翻译版:InternLM2 技术报告——社区翻译版_agieval 5 shot-CSDN博客
大框
- 引言
- 介绍了大型语言模型(LLMs)的发展历程以及InternLM2的概述。
- 基础设施
- 2.1 InternEvo:介绍了用于模型训练的高效轻量级预训练框架。
- 2.2 模型结构:讨论了InternLM2的模型架构设计。
- 预训练
- 3.1 预训练数据:详细描述了预训练数据的准备过程,包括文本数据、代码数据和长文本数据。
- 3.2 预训练设置:介绍了令牌化和预训练超参数。
- 3.3 预训练阶段:分为4k上下文训练、长上下文训练和特定能力增强训练三个阶段。
- 对齐
- 4.1 监督式微调(SFT):介绍了如何通过高质量的指令数据进行模型微调。
- 4.2 基于人类反馈的COOL在线强化学习(COOL RLHF):提出了一种新的条件奖励模型和多轮在线RLHF策略。
- 4.3 长上下文微调:讨论了如何在SFT和RLHF阶段保持LLMs的长上下文能力。
- 4.4 工具辅助的LLMs:介绍了如何提高LLMs的工具使用能力。
- 评估与分析
- 5.1 概述:提供了评估的总体结构。
- 5.2 下游任务上的表现:包括综合考试、语言和知识、推理和数学、多编程语言编码、长文本建模和工具使用等方面的性能评估。
- 5.3 对齐上的表现:评估了模型在不同对齐任务上的表现,包括英语和中文的主观评估、指令跟随评估和条件奖励模型的消融研究。
- 5.4 数据污染讨论:讨论了数据污染问题及其对模型性能和可靠性的影响。
- 结论
- 总结了InternLM2的主要贡献和优势。
附录A
- A.1 致谢:感谢对InternLM项目做出贡献的个人。
- A.2 评估提示:提供了用于评估的提示示例。
SFT
SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。
RLHF
RLHF(Reinforcement Learning from Human Feedback)就是基于人类反馈(Human Feedback)对语言模型进行强化学习(Reinforcement Learning),和一般的fine-tune过程乃至prompt tuning自然也不同。