第三期书生大模型实战营——L1(书生大模型全链路开源体系)

参考https://github.com/Dstarjohn/SSPY-InternLM2-Notes
这位佬补充了很多知识

深度置信网络(Deep Belief Networks,DBN)是一种生成式概率图模型,它由多层隐层构成,其中每两层隐层之间的连接形成一个受限玻尔兹曼机(RBM)。深度置信网络的几个关键点的解释:

1.层次结构模型:深度置信网络不同于贝叶斯网络(Bayesian networks),后者是一种有向无环图,用于表示变量间的概率依赖关系。而DBN是由多个RBM堆叠而成的,每个RBM都是一个无向图模型,用于学习数据的概率分布。
2.生成式模型:深度置信网络可以视为一个强大的生成式模型,它能够学习到数据的高阶结构。这意味着一旦训练完成,DBN可以通过其多层结构生成新的数据样本。
3.逐层训练:DBN的训练过程是逐层进行的。首先训练最底层的RBM,使其学习到输入数据的特征;然后,将这些特征作为第二层RBM的输入进行训练,依此类推。每一个RBM的隐藏层都作为下一层RBM的可见层。
4.数据表示的抽象:深度置信网络的基本思想是通过每层RBM学习数据的不同层次的表示。底层RBM可能捕捉到数据的低级特征,如边缘或角点;而上层RBM则能够学习到这些特征的组合,形成更高级的抽象概念。
总结来说,深度置信网络是一种复杂的模型,它通过堆叠RBM并逐层训练来学习数据的深层特征,并能够生成新的数据样本,从而在许多机器学习任务中发挥重要作用。请添加图片描述
回到语言建模的本质,我们都知道大模型它本质上在做语言建模这件事情,也就是说我们通过给定的Context,预测接下来的Token,这里面最关键的就是我们要有高质量的语料,让模型能够学会更好的建模能力。
数据集:https://opendatalab.org.cn
微调框架:https://github.com/InternLM/xtuner
请添加图片描述
InternLM2技术报告:
1.背景

InternLM2是由上海人工智能实验室、商汤(SenseTim)集团、香港中文大学和复旦大学共同开发的一款开源大型语言模型(LLM)。该模型在多个方面超越了其前身,包括在六个维度和30个基准测试中的全面评估、长文本建模和开放式主观评估中的性能表现。InternLM2采用了创新的预训练和优化技术,以实现卓越的性能。

重点介绍了InternLM2这个开源大语言模型在6个维度和30个基准的全面评估下超越了其前身,InternLM2有效捕捉长期依赖,预训练的Token从4K扩展到32K,并且通过有监督微调(SFT)和一种基于人类反馈的新型条件在线强化学习方法(COOL RLHF)策略进一步校准,以解决人类偏好冲突和奖励策略滥用问题。

2.特点

大模型的发展包括预训练、监督微调(SFT)和基于人类反馈强化学习(RLHF)等主要阶段。关键点包括

InternLM2开源且展示卓越性能
长序列任务表现出色,设计了带有200k的上下文窗口
提供丰富且全面的综合数据准备指导,有助于社区更方便的训练LLM
引入新的RLHF训练技术,显著提高InternLM2在各种主观对话评估中的表现。
模型使用了轻量级的高效预训练框架InternEvo进行训练,该框架使我们能在签个GPU扩展模型训练,是用过数据,张量,序列和管道并行技术实现这一点。显著较少的训练时的内存占用;减少通信开销;通信-计算重叠优化整体系统性能;长序列训练;容错性等特点。

模型结构采用的是在Transformer架构基础改进的版本LLama结构,就是将原始的LayerNorm替换为RMSNorm,并且采用SwiGLU作为激活函数,从而提高训练效率和性能。

tips:

LayerNorm(层归一化)和RMSNorm(均方根层归一化)的公式及相关解释说明。LayerNorm 的关键思想是对单个样本中的所有激活值进行归一化,不是在整个批次中进行归一化,有助于减少不同层输出分布的变化,从而有助于稳定训练.

LayerNorm公式如下:
L N ( x ) = x − μ σ ∗ λ + β LN(x)=\frac{x-\mu}{\sigma}*\lambda+\beta LN(x)=σxμλ+β
x x x是网络层的输入。
μ \mu μ 是输入特征的均值。
σ \sigma σ是输入特征的标准差。
λ \lambda λ β \beta β是可学习的参数,分别用于缩放和平移归一化后的数据。

RMSNorm公式如下:
R M S N o r m ( x ) = x 1 N Σ i = 1 N x i 2 ∗ λ RMSNorm(x)=\frac{x}{\sqrt{\frac{1}{N}\Sigma_{i=1}^Nx_i^2}}*\lambda RMSNorm(x)=N1Σi=1Nxi2 xλ

x x x是网络层的输入
N N N是输入特征的数量
x i x_i xi是输入特征向量中的第 i i i个元素
λ \lambda λ是一个可学习的缩放参数

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值