书生·浦语大模型全链路开源体系

Hers594

于 2024-08-04 15:45:46 发布

阅读量289

点赞数 5

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_63458020/article/details/140906882

版权

大模型发展经历

近几年，大模型成为热门关键词，由专用模型发展到通用模型，InternLM-7B轻量级70亿模型参数
，社区低成本InternLM-20B中量级，200亿模型参数商业小规模高精度，InternLM-123B重量级，1230亿模型参数通用大模型，从模型到应用

训练框架InternEvo

模型在预训练、SFT 、 RLHF 中使用的训练框架为 InternEvo。

模型使用高效的轻量级预训练框架InternEvo进行模型训练，框架使我们能够在数千个GPU上扩展模型训练，通过数据、张量、序列和管道并行技术来实现，为了进一步提高GPU内存效率InternEvo集成了各种Zero Redundancy Optimizer策略，显著减少了训练所需的内存占用。为了提高硬件利用率，模型引入了FlashAttention技术和混合精度训练，使用BF16。

当在数千个GPU上训练InternLM时，InternEvo展现出强大的扩展性能。使用8个GPU，全局批次大小为400万个令牌训练InternLM-7B时，InternEvo实现了64%的模型计算量利用率（MFU），当扩展到1024个GPU时，尽管保持相同的全局批次大小， InternEvo仍能维持惊人的53% MFU，这种级别的扩展性能尤其具有挑战性，因为批次大小保持不变，而随着GPU数量的增加，计算与通信的比例会降低，相比之下，DeepSpeed在使用ZeRO-1和MiCS在1024个GPU上训练InternLM-7B时，只能达到大约36%的MFU。 InternEvo在序列长度方面也表现出强大的扩展性，支持训练不同规模的LLM，例如在256,000个令牌的序列长度下训练InternLM-7B，可以达到接近88%的MFU。相比之下，eepSpeed-Ulysses和Megatron-LM只能达到大约65%的MFU。对于更大规模的LLM，如300亿或700亿参数的模型，训练性能的提升也同样明显。

从模型到应用

InternLM2在主观和客观评测中都表现出色，在基于超过2T的高质量预训练数据进行训练，涵盖了1.8B、7B和20B参数的模型规模，适用于多种场景。为了更好地支持长文本处理，InternLM2采用了GQA来降低推理成本，并额外训练在多达32000个上下文中。除了开源模型本身，我们还提供了训练过程中的多个阶段检查点，以便利于后续研究者的研究。

除开源模型，我们还详细阐述了InternLM2的训练过程，包括训练框架、预训练文本数据、预训练代码数据、预训练长文本数据和对齐数据。此外，针对强化学习后训练（RLHF）过程中遇到的偏好冲突，报告还提出了条件在线RLHF方法，以协调不同的偏好。这些信息对于理解如何准备预训练数据以及如何更有效地训练大型模型具有参考价值。

Hers594

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语大模型全链路开源体系

近几年，大模型成为热门关键词，由专用模型发展到通用模型，InternLM-7B轻量级70亿模型参数，社区低成本InternLM-20B中量级，200亿模型参数商业小规模高精度，InternLM-123B重量级，1230亿模型参数通用大模型，从模型到应用。
复制链接

扫一扫