1.书生·浦语大模型全链路开源开放体系

1.书生·浦语大模型全链路开源开放体系

学习视频链接:https://www.bilibili.com/video/BV1Vx421X72D/

InternLM2 技术报告:https://arxiv.org/pdf/2403.17297.pdf

社区翻译版:InternLM2 技术报告——社区翻译版_agieval 5 shot-CSDN博客

视频笔记

大模型发展趋势:

在这里插入图片描述

书生的发展历程

在这里插入图片描述

书生的三个版本(面向不同的需求)

在这里插入图片描述

语言建模的本质

在这里插入图片描述

(随着语料提升,整体质量在增强)

书生浦语2.0的主要亮点:

1.超长上下文

2.综合性能全面提升

3.优秀的对话和创作体验

4.工具调用能力整体提升

5.突出的数理能力和实用的数据分析功能

在这里插入图片描述

性能比较:

在这里插入图片描述

应用:

1.贴心可靠的AI助手

2.充满人文关怀的对话

3.富有想象力的创作

4.工具调用能力提升(路线规划、餐厅预订)

5.强大的内生计算能力(1000以内求和,微积分有可能作对,模型内生能力)

6.带上代码解释器,效果更好(典型数学评测集:GSM8K和MATH)

在这里插入图片描述

7.数据分析(上传表格,可以写概述,使用matlab画一些统计图,结合机器学习算法完成预测工作)

从模型——>应用

流程图:

在这里插入图片描述

开放体系:

在这里插入图片描述

开源高质量语料数据:

在这里插入图片描述

预训练:

在这里插入图片描述

微调(增量续训、有监督微调):

在这里插入图片描述
在这里插入图片描述

评测OpenCompass司南:(国产、开源)

在这里插入图片描述

社区(CompassHub)

opencompass(循环评测,百分制基准评测)

国内模型在中文场景具有性能优势

在这里插入图片描述

部署:

在这里插入图片描述

智能体(给如何进一步使用、开发大模型更多可能性):

在这里插入图片描述
在这里插入图片描述

论文笔记

社区翻译版:InternLM2 技术报告——社区翻译版_agieval 5 shot-CSDN博客

大框

  1. 引言
    • 介绍了大型语言模型(LLMs)的发展历程以及InternLM2的概述。
  2. 基础设施
    • 2.1 InternEvo:介绍了用于模型训练的高效轻量级预训练框架。
    • 2.2 模型结构:讨论了InternLM2的模型架构设计。
  3. 预训练
    • 3.1 预训练数据:详细描述了预训练数据的准备过程,包括文本数据、代码数据和长文本数据。
    • 3.2 预训练设置:介绍了令牌化和预训练超参数。
    • 3.3 预训练阶段:分为4k上下文训练、长上下文训练和特定能力增强训练三个阶段。
  4. 对齐
    • 4.1 监督式微调(SFT):介绍了如何通过高质量的指令数据进行模型微调。
    • 4.2 基于人类反馈的COOL在线强化学习(COOL RLHF):提出了一种新的条件奖励模型和多轮在线RLHF策略。
    • 4.3 长上下文微调:讨论了如何在SFT和RLHF阶段保持LLMs的长上下文能力。
    • 4.4 工具辅助的LLMs:介绍了如何提高LLMs的工具使用能力。
  5. 评估与分析
    • 5.1 概述:提供了评估的总体结构。
    • 5.2 下游任务上的表现:包括综合考试、语言和知识、推理和数学、多编程语言编码、长文本建模和工具使用等方面的性能评估。
    • 5.3 对齐上的表现:评估了模型在不同对齐任务上的表现,包括英语和中文的主观评估、指令跟随评估和条件奖励模型的消融研究。
    • 5.4 数据污染讨论:讨论了数据污染问题及其对模型性能和可靠性的影响。
  6. 结论
    • 总结了InternLM2的主要贡献和优势。

附录A

  • A.1 致谢:感谢对InternLM项目做出贡献的个人。
  • A.2 评估提示:提供了用于评估的提示示例。

SFT

SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。

RLHF

RLHF(Reinforcement Learning from Human Feedback)就是基于人类反馈(Human Feedback)对语言模型进行强化学习(Reinforcement Learning),和一般的fine-tune过程乃至prompt tuning自然也不同。

  • 23
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值