AMD震撼发布：Zen 5架构与XDNA 2技术引领未来计算新纪元！

本文链接：https://blog.csdn.net/weixin_50197960/article/details/140465675

AMD的2024年Tech Day公布了最新进展背后的细节，并涵盖了很多领域，特别是他们最新的Zen 5 CPU和以XDNA AI为中心的架构。该活动强调了AMD的愿景，即彻底改变人工智能的效率、性能和跨多个应用程序的无缝集成，重申其在高性能计算领域的领导地位。

与微软的战略合作为AMD在AI PC体验方面的领导地位奠定了基础，为广泛的应用程序提供前所未有的效率、性能和集成。EPYC第五代CPU拥有多达192个内核和384个线程，有望在能效和AI加速方面实现显著提升。凭借先进的分支预测，双解码管道和新的数学加速单元，AMD表示Zen 5在单核AES-XTS性能方面提高了35%，在机器学习任务方面比其前身提高了32%。随着AMD不断突破处理能力和效率的界限，Zen 5架构将彻底改变数据中心和服务器市场。
在这里插入图片描述
AMD Zen 5架构采用创新的模块化设计，使AMD能够为台式机、服务器、客户端和嵌入式应用量身定制产品。采用4nm和3nm工艺技术，确保基于Zen5的产品可以在各种用例中提供优化的性能和能效。

AMD Zen 5

在AMD 2024 Tech Day的演讲中，Mark Papermaster公布了Zen 5架构的重大进展，特别是第五代EPYC（霄龙）CPU。EPYC系列将于2024年下半年发布，承诺提供无与伦比的性能和效率，将服务器和数据中心市场的密度和性能指标推向极致。
在这里插入图片描述
第五代EPYC CPU显著增加了核心数量和线程能力。这些增强功能还包括提高能效，这是通过与台积电的持续合作和优化的金属堆栈实现的。后者具有显著增强的热性能和电性能。该架构通过引入新的数学加速单元来利用高级AI加速，与Zen 4相比，单核AES-XTS性能提高高达35%，单核机器学习任务提高高达32%。

Zen 5的架构改进是全面的。指令提取和解码阶段已通过高级分支预测和双解码管道得到增强，以减少延迟并提高准确性。整数执行单元有了实质性的升级，具有8个范围的分派/引退功能和更统一的ALU调度器，所有这些都在更大的执行窗口内。加载/存储方面的改进包括一个48 KB的12路L1数据缓存，其最大带宽是L1缓存和浮点单元的两倍，这对于数据密集型操作至关重要。

Zen 5架构还包括数据带宽的显著改进。加载/存储的进步，与一个48 KB的12路L1数据缓存，功能的最大带宽加倍的L1缓存和浮点单元，数据密集型操作必不可少的。该架构能够处理大量的浮点指令，并具有AVX-512和完整的512位数据路径，确保AI和向量工作负载的大幅性能提升。

浮点和向量数学单元的执行也有了显著的改进。AVX-512具有完整的512位数据路径和六条流水线（为浮点加法操作提供两个周期的延迟），显著增强了管理并发浮点指令的能力。这尤其有利于矢量和人工智能工作负载，从而显著提高机器学习和数据密集型任务的性能。这与Zen 4形成了鲜明对比，AMD在Zen 4中对256位路径进行了“双泵”，以实现512位性能。
在这里插入图片描述
Zen 5为桌面和移动的处理器带来了比其前身Zen 4平均16%的IPC提升。这是通过架构改进实现的，包括更宽的调度和执行单元、更高的数据带宽和增强的预取算法。IPC的收益转化为各种应用程序的实际性能改进，从游戏到内容创建和机器学习。

在GPU方面，AMD继续优化其RDNA 3架构，以提高功率性能效率。AMD声称每瓦性能比以前的Ryzen CPU高出32%。这是通过更好的内存管理、双倍速率的常见游戏纹理操作和增强的电源管理功能来实现的。

AMD的Zen 5架构是Zen架构的一次令人印象深刻的演变，尤其是EPYC系列，它有望全面提升从台式机和移动的到服务器和数据中心市场的性能标准。第五代EPYC（霄龙）CPU在核心数量、线程、能效和AI加速方面都有显著改进，能够满足现代以数据为中心的工作负载不断增长的需求。

XDNA

人工智能集团高级副总裁Vamsi Boppana概述了AMD新的以人工智能为中心的架构的变革潜力。人工智能工作负载的指数级增长和专业化需要创新的计算架构，AMD的回应是推出XDNA 2架构。

这一创新的核心是AMD XDNA架构，该架构以其在各种AI和DSP应用中的传统而闻名，涵盖通信、5G部署、国防雷达信号处理、3D视点广播实时AI处理和医疗图像处理。该架构从传统的固定计算和基于缓存的内存层次结构转变为更灵活、适应性更强的模型。这种空间可重新配置性和平铺式低层架构允许高效的多任务处理和保证的实时性能。
在这里插入图片描述
该演示强调了AMD的x86处理器与集成的NPU，旨在为AI工作负载提供高效率和高性能。第三代AMD锐龙AI处理器在NPU能力方面取得了重大进步，实现了高达50 TOPS（每秒万亿次运算），并集成了多达12个CPU内核和16个GPU计算单元。这些处理器将为Adobe、Black Magic和Topaz Labs等平台上的100多种AI驱动体验提供动力，使其成为下一代AI PC体验的核心。

XDNA 2架构中的AI引擎包括对各种数据类型的增强支持，例如INT 8和Block FP16，这确保了一系列AI应用程序的高性能和准确性。自适应人工智能架构允许跨AMD产品组合进行可扩展集成，通过空间可重新配置性和平铺式低功耗架构提供高效的多任务处理和保证的实时性能。

特别是，模块FP16允许在几乎没有精度损失的情况下直接替换FP32模型，使其在图像生成、语言模型以及实时音频和视频处理等任务中非常高效。
在这里插入图片描述
一个突出的特性是能够在运行时配置XDNA结构。这使得NPU的数据路径和分段具有灵活性，可以同时运行多个不同大小的模型。它还提供了提供Copilot+等人工智能体验的灵活性，以提高生产力和沉浸式协作。跨AMD的CPU、GPU和NPU组件集成统一的AI软件堆栈，可实现广泛的模型支持和优化的性能，使开发人员能够更轻松地快速有效地部署数千个AI模型。
AMD XDNA 2架构展示了AI技术的重大飞跃。它最多可并发八个空间流，使前几代产品的能效提高了一倍。这使得AMD的解决方案强大而高效，为PC及其他领域的AI应用新时代铺平了道路。

第三代AMD锐龙AI处理器还通过引入新的可信IO功能增强了安全性。这一安全增强对于保护敏感数据和确保AI驱动的应用程序的可靠性能至关重要，从而加强了AMD对安全高效AI解决方案的承诺。

AMD Zen 5和XDNA 2规格

在这里插入图片描述

Zen 5桌面超频与曲线整形器

AMD的曲线优化器是Ryzen 7000系列的标志性功能，允许用户启用PMFW/PBO感知的动态电压缩放或欠压。这款功能强大的工具通过可调的“曲线优化器”步长动态移动电压曲线，在整个频谱范围内提供可变电压，在更高的频率下分配更多的电压。用户可以在每个核心、每个CCD或每个CPU的基础上应用此优化，从而可以对CPU的性能和效率进行精细控制。
在这里插入图片描述
在Curve Optimizer的基础上，AMD推出了Curve Shaper，这是一种复杂的增强功能，使用户能够重塑基础电压曲线，以最大限度地提高欠电压潜力。Curve Shaper使用与其前身相同的步骤。尽管如此，它赠款用户灵活地从15个不同的频率-温度带（三个温度带和五个频率带）中选择性地添加或删除步骤。这种微调功能允许用户进一步降低稳定频段的电压，同时在观察到不稳定的区域增加电压。重新成形的曲线均匀地应用于所有核心，可以使用曲线优化器进一步调整。