大模型显存占用分析
于 2024-04-02 08:47:38 首次发布
本文分析了在使用FP16存储时,序列输入长度为s,输出长度为n的情况,大模型如GPT3-175B的kvcache显存占用。峰值显存计算公式为4blh(s+n),其中b表示batch size,l和h分别为层数和隐藏层大小。以GPT3-175B为例,模型在FP16下占用的显存为350GB。
摘要由CSDN通过智能技术生成