随着AI模型训练成本的上升,人们越来越关注推理硬件的成本,尤其是在需要低延迟响应的应用中。Transformer模型需要强大的硬件支持,例如200毫秒以下的响应时间。Artificial Analysis最近分析了AI模型性能和定价,特别指出AMD的“Antares” Instinct MI300X GPU加速器在运行Meta Platforms最新发布的Llama 3.1 405B模型方面可能会优于Nvidia的硬件。
考虑到开源PyTorch框架和Llama模型的优势,我们认为PyTorch/Llama组合将会非常流行。AMD的技术团队显然已经针对这一技术栈对Antares GPU进行了优化。
首先我们需要针对这个来分析:需要多少GPU才能存储Llama 3.1 405B参数模型的权重,包括权重和内存开销?
这次比较仅涉及AMD MI300X与最初的Nvidia “Hopper” H100,并且提到了2023年11月宣布的未来产品Hopper H200 GPU以及3月宣布的“Blackwell” GPU,由于没有大规模出货,所以没有出现在图表中。
据Artificial Analysis称,需要810 GB来加载Llama 3.1 405B模型的权重,另外243 GB用于留出30%的FP16处理开销空间,总计1053 GB的总容量。
如果降低到FP8精度,数据量减半,需要405 GB用于权重和121.5 GB用于开销,这意味着可以减少所需的计算引擎数量。如果进一步降低到FP4精度,数据量再次减半,所需HBM内存和GPU数量也将减半。不过,这样做会牺牲一些LLM的响应精度以换取数