第三期书生大模型实战营——L1(书生大模型全链路开源体系)

最新推荐文章于 2024-07-31 13:07:33 发布

发光的呆毛君

最新推荐文章于 2024-07-31 13:07:33 发布

阅读量551

点赞数 8

文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_43823154/article/details/140780763

版权

参考https://github.com/Dstarjohn/SSPY-InternLM2-Notes
这位佬补充了很多知识

深度置信网络（Deep Belief Networks，DBN）是一种生成式概率图模型，它由多层隐层构成，其中每两层隐层之间的连接形成一个受限玻尔兹曼机（RBM）。深度置信网络的几个关键点的解释：

1.层次结构模型：深度置信网络不同于贝叶斯网络（Bayesian networks），后者是一种有向无环图，用于表示变量间的概率依赖关系。而DBN是由多个RBM堆叠而成的，每个RBM都是一个无向图模型，用于学习数据的概率分布。
2.生成式模型：深度置信网络可以视为一个强大的生成式模型，它能够学习到数据的高阶结构。这意味着一旦训练完成，DBN可以通过其多层结构生成新的数据样本。
3.逐层训练：DBN的训练过程是逐层进行的。首先训练最底层的RBM，使其学习到输入数据的特征；然后，将这些特征作为第二层RBM的输入进行训练，依此类推。每一个RBM的隐藏层都作为下一层RBM的可见层。
4.数据表示的抽象：深度置信网络的基本思想是通过每层RBM学习数据的不同层次的表示。底层RBM可能捕捉到数据的低级特征，如边缘或角点；而上层RBM则能够学习到这些特征的组合，形成更高级的抽象概念。
总结来说，深度置信网络是一种复杂的模型，它通过堆叠RBM并逐层训练来学习数据的深层特征，并能够生成新的数据样本，从而在许多机器学习任务中发挥重要作用。请添加图片描述
回到语言建模的本质，我们都知道大模型它本质上在做语言建模这件事情，也就是说我们通过给定的Context，预测接下来的Token，这里面最关键的就是我们要有高质量的语料，让模型能够学会更好的建模能力。
数据集：https://opendatalab.org.cn
微调框架：https://github.com/InternLM/xtuner
请添加图片描述
InternLM2技术报告：
1.背景

InternLM2是由上海人工智能实验室、商汤（SenseTim）集团、香港中文大学和复旦大学共同开发的一款开源大型语言模型（LLM）。该模型在多个方面超越了其前身，包括在六个维度和30个基准测试中的全面评估、长文本建模和开放式主观评估中的性能表现。InternLM2采用了创新的预训练和优化技术，以实现卓越的性能。

重点介绍了InternLM2这个开源大语言模型在6个维度和30个基准的全面评估下超越了其前身，InternLM2有效捕捉长期依赖，预训练的Token从4K扩展到32K，并且通过有监督微调（SFT）和一种基于人类反馈的新型条件在线强化学习方法（COOL RLHF）策略进一步校准，以解决人类偏好冲突和奖励策略滥用问题。

2.特点

大模型的发展包括预训练、监督微调（SFT）和基于人类反馈强化学习（RLHF）等主要阶段。关键点包括

InternLM2开源且展示卓越性能
长序列任务表现出色，设计了带有200k的上下文窗口
提供丰富且全面的综合数据准备指导，有助于社区更方便的训练LLM
引入新的RLHF训练技术，显著提高InternLM2在各种主观对话评估中的表现。
模型使用了轻量级的高效预训练框架InternEvo进行训练，该框架使我们能在签个GPU扩展模型训练，是用过数据，张量，序列和管道并行技术实现这一点。显著较少的训练时的内存占用；减少通信开销；通信-计算重叠优化整体系统性能；长序列训练；容错性等特点。

模型结构采用的是在Transformer架构基础改进的版本LLama结构，就是将原始的LayerNorm替换为RMSNorm，并且采用SwiGLU作为激活函数，从而提高训练效率和性能。

tips：

LayerNorm（层归一化）和RMSNorm（均方根层归一化）的公式及相关解释说明。LayerNorm 的关键思想是对单个样本中的所有激活值进行归一化，不是在整个批次中进行归一化,有助于减少不同层输出分布的变化，从而有助于稳定训练.

LayerNorm公式如下:
$LN(x)=\frac{x-\mu}{\sigma}*\lambda+\beta$
$x$ 是网络层的输入。
$\mu$ 是输入特征的均值。
$\sigma$ 是输入特征的标准差。
$\lambda$ 和 $\beta$ 是可学习的参数，分别用于缩放和平移归一化后的数据。

RMSNorm公式如下：
$RMSNorm(x)=\frac{x}{\sqrt{\frac{1}{N}\Sigma_{i=1}^Nx_i^2}}*\lambda$

$x$ 是网络层的输入
$N$ 是输入特征的数量
$x_i$ 是输入特征向量中的第 $i$ 个元素
$\lambda$ 是一个可学习的缩放参数

发光的呆毛君

关注

8
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
第三期书生大模型实战营——L1(书生大模型全链路开源体系)

模型使用了轻量级的高效预训练框架InternEvo进行训练，该框架使我们能在签个GPU扩展模型训练，是用过数据，张量，序列和管道并行技术实现这一点。回到语言建模的本质，我们都知道大模型它本质上在做语言建模这件事情，也就是说我们通过给定的Context，预测接下来的Token，这里面最关键的就是我们要有高质量的语料，让模型能够学会更好的建模能力。总结来说，深度置信网络是一种复杂的模型，它通过堆叠RBM并逐层训练来学习数据的深层特征，并能够生成新的数据样本，从而在许多机器学习任务中发挥重要作用。
复制链接

扫一扫