1.书生·浦语大模型全链路开源开放体系

最新推荐文章于 2024-07-08 20:01:43 发布

三水的二水

最新推荐文章于 2024-07-08 20:01:43 发布

阅读量922

点赞数 23

分类专栏：书生浦语文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/wht0422/article/details/139613329

版权

书生浦语专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.书生·浦语大模型全链路开源开放体系

学习视频链接：https://www.bilibili.com/video/BV1Vx421X72D/

InternLM2 技术报告：https://arxiv.org/pdf/2403.17297.pdf

社区翻译版：InternLM2 技术报告——社区翻译版_agieval 5 shot-CSDN博客

视频笔记

大模型发展趋势：

在这里插入图片描述

书生的发展历程

在这里插入图片描述

书生的三个版本（面向不同的需求）

在这里插入图片描述

语言建模的本质

在这里插入图片描述

（随着语料提升，整体质量在增强）

书生浦语2.0的主要亮点：

1.超长上下文

2.综合性能全面提升

3.优秀的对话和创作体验

4.工具调用能力整体提升

5.突出的数理能力和实用的数据分析功能

在这里插入图片描述

性能比较：

在这里插入图片描述

应用：

1.贴心可靠的AI助手

2.充满人文关怀的对话

3.富有想象力的创作

4.工具调用能力提升（路线规划、餐厅预订）

5.强大的内生计算能力（1000以内求和，微积分有可能作对，模型内生能力）

6.带上代码解释器，效果更好（典型数学评测集：GSM8K和MATH）

在这里插入图片描述

7.数据分析（上传表格，可以写概述，使用matlab画一些统计图，结合机器学习算法完成预测工作）

从模型——>应用

流程图：

在这里插入图片描述

开放体系：

在这里插入图片描述

开源高质量语料数据：

在这里插入图片描述

预训练：

在这里插入图片描述

微调（增量续训、有监督微调）：

在这里插入图片描述

评测OpenCompass司南：（国产、开源）

在这里插入图片描述

社区（CompassHub）

opencompass（循环评测，百分制基准评测）

国内模型在中文场景具有性能优势

在这里插入图片描述

部署：

在这里插入图片描述

智能体（给如何进一步使用、开发大模型更多可能性）：

在这里插入图片描述

论文笔记

社区翻译版：InternLM2 技术报告——社区翻译版_agieval 5 shot-CSDN博客

大框

引言
- 介绍了大型语言模型（LLMs）的发展历程以及InternLM2的概述。
基础设施
- 2.1 InternEvo：介绍了用于模型训练的高效轻量级预训练框架。
- 2.2 模型结构：讨论了InternLM2的模型架构设计。
预训练
- 3.1 预训练数据：详细描述了预训练数据的准备过程，包括文本数据、代码数据和长文本数据。
- 3.2 预训练设置：介绍了令牌化和预训练超参数。
- 3.3 预训练阶段：分为4k上下文训练、长上下文训练和特定能力增强训练三个阶段。
对齐
- 4.1 监督式微调（SFT）：介绍了如何通过高质量的指令数据进行模型微调。
- 4.2 基于人类反馈的COOL在线强化学习（COOL RLHF）：提出了一种新的条件奖励模型和多轮在线RLHF策略。
- 4.3 长上下文微调：讨论了如何在SFT和RLHF阶段保持LLMs的长上下文能力。
- 4.4 工具辅助的LLMs：介绍了如何提高LLMs的工具使用能力。
评估与分析
- 5.1 概述：提供了评估的总体结构。
- 5.2 下游任务上的表现：包括综合考试、语言和知识、推理和数学、多编程语言编码、长文本建模和工具使用等方面的性能评估。
- 5.3 对齐上的表现：评估了模型在不同对齐任务上的表现，包括英语和中文的主观评估、指令跟随评估和条件奖励模型的消融研究。
- 5.4 数据污染讨论：讨论了数据污染问题及其对模型性能和可靠性的影响。
结论
- 总结了InternLM2的主要贡献和优势。

附录A

A.1 致谢：感谢对InternLM项目做出贡献的个人。
A.2 评估提示：提供了用于评估的提示示例。

SFT

SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。微调时，为目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化该层的模型参数。在目标数据集上训练目标模型时，将从头训练到输出层，其余层的参数都基于源模型的参数微调得到。

RLHF

RLHF（Reinforcement Learning from Human Feedback）就是基于人类反馈（Human Feedback）对语言模型进行强化学习（Reinforcement Learning），和一般的fine-tune过程乃至prompt tuning自然也不同。

三水的二水

关注

23
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
1.书生·浦语大模型全链路开源开放体系

学习视频链接：https://www.bilibili.com/video/BV1Vx421X72D/InternLM2 技术报告：https://arxiv.org/pdf/2403.17297.pdf。
复制链接

扫一扫