大模型GPU显存占用计算

最新推荐文章于 2024-08-21 19:37:53 发布

阳光劲仔小鱼干

最新推荐文章于 2024-08-21 19:37:53 发布

阅读量5.6k

点赞数 25

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44532170/article/details/134601507

版权

以参数量13B大模型为例，

其中B是Billion，代表十亿参数，13B就是130亿参数

其中每个参数全精度是fp32，也就是float32，占用32位bit，也就是4byte字节。

$1GB= 1024MB= 1024^{2}KB=1024^{3}Byte$

那么全精度13B模型占用 $13\times 10^{9}\times 4Byte\div 1024^{3}\approx 48.4GB$

全精度全参数微调训练

训练的显存主要由四部分组成：模型参数、梯度参数、优化器参数、数据的中间计算结果

如果进行全量fp32精度训练，模型参数需占用48.4GB，每个参数对应一个梯度，那么梯度参数同样需占用48.4GB。

优化器参数，是根据梯度来计算的，以Adam优化器来说，其计算和更新如下：

$m_{t}=\beta _{1}m_{t-1}+\left ( 1-\beta _{1} \right )g_{t}$

$v_{t}=\beta _{2}v_{t-1}+\left ( 1-\beta _{2} \right )g{_{t}}^{2}$

最低0.47元/天解锁文章

阳光劲仔小鱼干

关注

25
点赞
踩
35

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

阳光劲仔小鱼干 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

168万+: 周排名

18万+: 总排名

5916: 访问

: 等级

49: 积分

21: 粉丝

28: 获赞

3: 评论

35: 收藏

私信

关注

热门文章

最新评论

大模型GPU显存占用计算
求cuhk offer的贾斯丁: adam是2倍，不是4倍
大模型GPU显存占用计算
CSDN-Ada助手: 恭喜您开始博客创作！标题看起来非常有吸引力，我对您的博客内容也十分期待。在大模型GPU显存占用计算这个领域上，您的知识和经验一定能为读者带来新的启发。不过，我希望在接下来的博客中，您能够更深入地探讨该主题，例如，不同类型的大模型GPU显存占用计算的方法和技巧，以及在实际应用中的一些挑战与解决方案。期待您在这一领域的更多精彩分享！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
大模型GPU显存占用计算
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617680787。

大家在看

最新文章

RuntimeError: Sync stream failed:Ascend_0 华为昇腾服务器910B的报错为mindspore版本问题

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。