本文主要聚焦于大模型推理引擎国产化的重要性与相关背景,文中对比了国产芯片与国际芯片的性能,强调硬件对软件优化的影响。还深入探讨了国产化实践中的挑战与机遇,包括架构比较、性能优化、框架兼容性及模型适配。强调自研推理引擎的必要性,指出与国产芯片适配的重要性及未来发展趋势。
全文目录如下:
1. 背景介绍
2. 国产化思考
3. 国产化实践
4. 未来期望
5. 问答环节
作者:刘童璇 京东零售集团 总监
01 背景介绍
首先在第一章节中,将简单介绍大模型训练推理中硬件指标与软件适配相关问题的背景,对比国产化芯片与英伟达 GPU 等国际品牌芯片的性能,希望帮助大家理解硬件性能对于大模型训练和推理的重要性。
1. 硬件对比
上图中列出了一些国产化芯片的性能,通过对比英伟达和华为的参数,可以看出国产化芯片在算力、访存和带宽方面的水平,这些是大模型训练推理的关键要素,是软件优化必须考量的硬件指标。
从表中可以看到,华为 910B 尚不支持 FP8 的 TensorCore,其 GPU 内存 64GB,采用 HBM2E 工艺;而英伟达 B100 的 GPU 内存 192GB,采用 HBM3E 工艺。