以参数量13B大模型为例,
其中B是Billion,代表十亿参数,13B就是130亿参数
其中每个参数全精度是fp32,也就是float32,占用32位bit,也就是4byte字节。
那么全精度13B模型占用
全精度全参数微调训练
训练的显存主要由四部分组成:模型参数、梯度参数、优化器参数、数据的中间计算结果
如果进行全量fp32精度训练,模型参数需占用48.4GB,每个参数对应一个梯度,那么梯度参数同样需占用48.4GB。
优化器参数,是根据梯度来计算的,以Adam优化器来说,其计算和更新如下: