大模型可扩展的训练技术

三月七꧁ ꧂

于 2024-07-22 15:17:06 发布

阅读量236

点赞数 6

分类专栏： LLM 文章标签：人工智能语言模型 prompt embedding AIGC 文心一言 gpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140610262

版权

LLM 专栏收录该内容

56 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

随着模型参数规模与数据规模的不断扩展，如何在有限的计算资源下高效地训练模型已经成为制约大语言模型研发的关键技术挑战。其中，主要面临着两个技术问题：一是如何提高训练效率；二是如何将庞大的模型有效地加载到不同的处理器中。

3D 并行训练

3D 并行策略实际上是三种常用的并行训练技术的组合，即数据并行（Data Parallelism）、流水线并行（Pipeline Parallelism）和张量并行（Tensor Parallelism）。有的工作也会使用模型并行一词，它同时包括了张量并行和流水线并行。

图片名称 — 数据并行、ZeRO、张量并行和流水线并行的模型分布情况示意图

数据并行，数据并行是一种提高训练吞吐量的方法，它将模型参数和优化器状态复制到多个 GPU 上，然后将训练数据平均分配到这些 GPU 上。这样，每个 GPU 只需要处理分配给它的数据，然后执行前向传播和反向传播以获取梯度。当所有 GPU 都执行完毕后&#

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

三月七꧁ ꧂ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。