AMD新款AI服务器能效较2020年版提升28.3倍，提前一年达成30倍能效目标-CSDN博客

本文链接：https://blog.csdn.net/weixin_50197960/article/details/144422177

性能效率是AI和HPC处理器性能飞速提升的关键，因此AMD等公司在每一代新产品上都为此激烈竞争。早在2021年，AMD就设定了目标，即到2025年，其EPYC处理器和Instinct加速器的能效要比2020年提升30倍。现在看来，凭借其最新的EPYC 9005系列“Turin”CPU和Instinct MI300X GPU，AMD已基本达成目标，而且提前了一年。
在这里插入图片描述
为了证明这一点，AMD使用了一台配备两颗64核EPYC 9575F CPU、八块Instinct MI300X加速器以及2304GB DDR5内存的机器，测试了其在Llama3.1-70B（vLLM 0.6.1.post2，TP8并行，FP8，连续批处理）模型中的推理性能。通过一系列复杂的计算，AMD确定了该系统的能效，并将其与2020年的一款未公开机器进行了比较，发现新机器的能效是旧机器的28.3倍。
在这里插入图片描述
AMD EPYC（霄龙）9575 F是一款基于Zen 5核心架构、专为AI解决方案设计的64核/128线程高性能服务器处理器，最高频率可达5GHz。而AMD Instinct MI300X加速器封装了前所未有的1530亿个晶体管，并利用先进的3.5D CoWoS封装，最大限度地减少通信能耗和数据移动开销。八个5nm计算芯片位于四个6nm IO芯片之上，所有芯片都紧密连接到行业领先的192GB高带宽内存（HBM3）容量，以每秒5.2 TB的速度运行，这些加速器可以以令人难以置信的速度摄取和处理大量数据。
在这里插入图片描述
AMD没有透露其2020年系统的具体规格，但我们可以推测它基于AMD的EPYC 7002系列处理器，该处理器采用Zen 2微架构，每个CPU最多有64核，以及基于CDNA 1架构的Instinct MI100加速器。AMD的Instinct MI100不支持FP8（而MI300X则以与INT8相同的速率支持FP8），但如果我们比较MI100的INT8性能（184.6 TOPS）和MI300X的INT8性能（稀疏时为2615 TOPS/5230 TOPS），会发现两者在理论上的差异为14到28倍。FP16的性能差异也大致相同，因此这一比较是有效的。考虑到内存子系统（32GB HBM2，带宽1.20 GB/s对比192GB HBM3，带宽5.30 GB/s）和CPU性能的大幅提升，AMD现有机器的速度和性能效率远超2020年的系统也就不足为奇了。AMD自身表示，除了“简单粗暴”的硬件改进外，其更高的性能效率还得益于架构进步和软件优化的结合，这是意料之中的。

最近，AMD推出了基于CDNA 3架构的Instinct MI325X加速器，配备了288GB HBM3E内存子系统。
在这里插入图片描述
明年，该公司将推出基于CDNA 4架构的Instinct MI355X加速器，其FP8和FP16计算性能将比MI325X提升约80%。除了FP8和FP16，MI355X还将增加对AI的FP4和FP6格式的支持，这将使其峰值性能提升至9.2 PetaFLOPS（FP4），这对于许多大型语言模型来说将非常有用。也就是说，AMD完全有能力在2025年实现其计算平台能效比2020年提升30倍的目标。
在这里插入图片描述
AMD公司企业院士、产品技术架构师兼高级副总裁萨姆·纳夫齐格写道：“通过我们深思熟虑的硬件和软件协同设计方法，我们对自己的路线图充满信心，相信将超额完成‘30x25’目标，并对未来充满期待，未来几年内，我们有望看到能效的大幅提升。”