大模型GPU显存占用计算

以参数量13B大模型为例,

其中B是Billion,代表十亿参数,13B就是130亿参数

其中每个参数全精度是fp32,也就是float32,占用32位bit,也就是4byte字节。

1GB= 1024MB= 1024^{2}KB=1024^{3}Byte

那么全精度13B模型占用13\times 10^{9}\times 4Byte\div 1024^{3}\approx 48.4GB

全精度全参数微调训练

训练的显存主要由四部分组成:模型参数、梯度参数、优化器参数、数据的中间计算结果

如果进行全量fp32精度训练,模型参数需占用48.4GB,每个参数对应一个梯度,那么梯度参数同样需占用48.4GB。

优化器参数,是根据梯度来计算的,以Adam优化器来说,其计算和更新如下:

m_{t}=\beta _{1}m_{t-1}+\left ( 1-\beta _{1} \right )g_{t}

v_{t}=\beta _{2}v_{t-1}+\left ( 1-\beta _{2} \right )g{_{t}}^{2}

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值