性能效率是AI和HPC处理器性能飞速提升的关键,因此AMD等公司在每一代新产品上都为此激烈竞争。早在2021年,AMD就设定了目标,即到2025年,其EPYC处理器和Instinct加速器的能效要比2020年提升30倍。现在看来,凭借其最新的EPYC 9005系列“Turin”CPU和Instinct MI300X GPU,AMD已基本达成目标,而且提前了一年。
为了证明这一点,AMD使用了一台配备两颗64核EPYC 9575F CPU、八块Instinct MI300X加速器以及2304GB DDR5内存的机器,测试了其在Llama3.1-70B(vLLM 0.6.1.post2,TP8并行,FP8,连续批处理)模型中的推理性能。通过一系列复杂的计算,AMD确定了该系统的能效,并将其与2020年的一款未公开机器进行了比较,发现新机器的能效是旧机器的28.3倍。
AMD EPYC(霄龙)9575 F是一款基于Zen 5核心架构、专为AI解决方案设计的64核/128线程高性能服务器处理器,最高频率可达5GHz。而AMD Instinct MI300X加速器封装了前所未有的1530亿个晶体管,并利用先进的3.5D CoWoS封装,最大限度地减少通信能耗和数据移动开销。八个5nm计算芯片位于四个6nm IO芯片之上,所有芯片都紧密连接到行业领先的192GB高带宽内存(HBM3)容量,以每秒5.2 TB的速度运行,这些加速器可以以令人难以置信的速度摄取和处理大量数据。
AMD没有透露其2020年系统的具体规格,但我们可以推测它基于AMD的EPYC 7002系列处理器,该处理器采用Zen 2微架构,每个CPU最多有64核,以及基于CDNA 1架构的Instinct MI100加速器。AMD的Instinct MI100不支持FP8(而MI300X则以与INT8相同的速率支持FP8),但如果我们比较MI100的INT8性能(184.6 TOPS)和MI300X的INT8性能(稀疏时为2615 TOPS/5230 TOPS),会发现两者在理论上的差异为14到28倍。FP16的性能差异也大致相同,因此这一比较是有效的。考虑到内存子系统(32GB HBM2,带宽1.20 GB/s对比192GB HBM3,带宽5.30 GB/s)和CPU性能的大幅提升,AMD现有机器的速度和性能效率远超2020年的系统也就不足为奇了。AMD自身表示,除了“简单粗暴”的硬件改进外,其更高的性能效率还得益于架构进步和软件优化的结合,这是意料之中的。
最近,AMD推出了基于CDNA 3架构的Instinct MI325X加速器,配备了288GB HBM3E内存子系统。
明年,该公司将推出基于CDNA 4架构的Instinct MI355X加速器,其FP8和FP16计算性能将比MI325X提升约80%。除了FP8和FP16,MI355X还将增加对AI的FP4和FP6格式的支持,这将使其峰值性能提升至9.2 PetaFLOPS(FP4),这对于许多大型语言模型来说将非常有用。也就是说,AMD完全有能力在2025年实现其计算平台能效比2020年提升30倍的目标。
AMD公司企业院士、产品技术架构师兼高级副总裁萨姆·纳夫齐格写道:“通过我们深思熟虑的硬件和软件协同设计方法,我们对自己的路线图充满信心,相信将超额完成‘30x25’目标,并对未来充满期待,未来几年内,我们有望看到能效的大幅提升。”