AMD RDNA 4和Radeon RX 9000系列GPU起价549美元：规格，发布日期，定价等

本文链接：https://blog.csdn.net/weixin_50197960/article/details/145992170

AMD刚刚正式宣布了推出Radeon RX 9000系列显卡家族的首批产品——Radeon RX 9070与Radeon RX 9070 XT。两款显卡基于全新RDNA 4架构，搭载第三代光线追踪加速器与第二代AI加速单元，目标以高性价比策略冲击中高端GPU市场。这些产品将与英伟达的Blackwell RTX 50系列GPU以及英特尔的Battlemage Arc B系列GPU展开竞争，并且在未来几天内很可能跻身最佳显卡之列。
在这里插入图片描述
毫无疑问，英伟达因人工智能业务获得的创纪录利润对市场影响巨大。虽然AMD销售的数据中心GPU数量不如英伟达，但它从台积电获得的晶圆分配，也有相当一部分用于数据中心CPU和GPU的生产。

RDNA 4 GPU规格

让我们来看看AMD RDNA 4 GPU的规格参数，聊聊架构更新，并深入探讨其他细节。以下是你需要了解的关于AMD RDNA 4和Radeon RX 9000系列GPU的所有信息。
在这里插入图片描述
以下是已知的RX 9070系列GPU的规格参数，同时还有关于RX 9060系列的占位信息。AMD在2025年CES上公布了9060的名称，但未透露其他细节。我们根据网上的信息整理了一个对应表格。精简版的RX 9060 XT，它与9070系列显卡使用相同的Navi 48芯片，只是启用的计算单元（CU）和内存控制器更少。RX 9060可能会使用进一步分级的Navi 48芯片，也可能使用Navi 44芯片。
在这里插入图片描述
看看RX 9070 XT，它使用了完全启用的Navi 48芯片，包含64个RDNA 4计算单元。结合2.97GHz的加速频率、256位内存接口以及20Gbps的GDDR6显存，其他参数大多可以通过直接数学计算得出。RX 9070的配置基本相同，只是有56个计算单元，加速频率为2.52GHz，比它的高端型号低很多，不过实际运行频率到底如何，我们还得等等看。

功耗目标也是最终频率的影响因素之一。9070 XT的总板卡功耗（TBP）为304W，而9070则将其降至220W。这可能是两者加速频率相差450MHz的一个重要原因。

在浮点运算性能上，9070 XT的单精度（FP32）算力为48.7 TFLOPS，9070为36.1 TFLOPS。理论上，这使得XT型号比9070快35%。但实际上，我们认为这两款芯片的性能差距会小很多，尽管参数如此，但在大多数游戏中的实际频率可能仅相差几百MHz。

与RDNA 3相比，AMD还对计算单元中的光线加速器和AI加速器进行了大幅升级。在AI方面，每个计算单元在每个周期内的半精度（FP16）运算能力提高了一倍，并且现在支持稀疏运算。稀疏运算可以跳过多达一半的零乘法运算，从而有可能使性能翻倍，英伟达自第二代RTX 30系列GPU起就支持这一特性。（AMD在其CDNA系列GPU上也支持稀疏运算多年了。）

此外，AI单元还支持FP8、INT8、BF8和INT4运算，其中8位计算速度是16位的两倍，4位整数运算速度又是8位的两倍。综合来看，其稀疏FP16算力可达389 TFLOPS，稀疏INT4算力高达1557 TOPS。

要知道，上一代RDNA 3架构的RX 7900 XTX GPU拥有多达96个计算单元和384位内存接口。所以，虽然RDNA 4 GPU在每个计算单元的性能上有所提升，但AMD并不认为RX 9070 XT在所有工作负载下都能超越RX 7900 XTX。

RX 9000系列定价

AMD宣布Radeon RX 9070起售价为549美元，RX 9070 XT起售价为599美元，这两款产品无疑处于“主流”价格区间。然而，鉴于当前市场状况，AMD给出的厂商建议零售价（MSRP）可能意义不大。短期内，我们肯定预计这些显卡会售罄，实际售价将远超建议零售价。

对于台式机专用显卡而言，如今“预算型”意味着价格在250 - 300美元左右，“主流型”价格为400 - 700美元，“高端型”的GPU价格在800 - 1000美元，而“发烧级”则瞄准1500美元及以上的价位。AMD的9070系列面向主流市场，未来的9060系列产品可能针对中低端主流和高端预算市场。
在这里插入图片描述
考虑到供应情况以及性能表现，RDNA 4系列应该值AMD开出的价格。但更有可能的情况是，在未来几个月内，显卡供应根本无法满足当前需求。

这基本上是加密货币GPU挖矿时期短缺情况的重演，只不过这次是由人工智能引发的，而且这一领域的需求可能在未来许多年都不会消失。希望我们是错的，但目前RTX 50系列的发布情况并不乐观。

RDNA 4发布日期

RX 9070系列显卡将于2025年3月6日发布，Radeon RX 9060系列可能会在4月上市。

按照之前的说法，Radeon RX 9060系列将采用Navi 44芯片，目标是取代Navi 33，沿用了单芯片设计，计算单元数量会更少。如果属实，它可能不会很快推出。市面上似乎仍有大量RX 7600和RX 7600 XT GPU，这是因为这些产品发布时，还有很多性能相近、价格更低的Navi 23（RX 6650 XT / RX 6600 XT / RX 6600）显卡在售。

AMD的命名规则表明，RX 9060将与RTX 5060系列竞争。这可能需要比传言中更大的芯片。但从技术上讲，RX 7600与RTX 4060竞争，且没有RTX 4050，可能也不会有RTX 5050。

RDNA 4 GPU架构

AMD致力于优化底层架构，以提升在所有主要工作负载（光栅化、光线追踪和人工智能）中每个计算单元（CU）的性能。光栅化性能的代际提升最小，但据AMD称，仍比RDNA 3快约40%。光线追踪性能基本翻倍，密集型半精度（FP16）计算的人工智能性能翻倍，更低精度格式的性能提升幅度更大。
在这里插入图片描述
光栅化性能提升的具体细节有点模糊。RDNA 4支持乱序内存请求，AMD特别指出这对光线追踪有帮助，对光栅化任务也有益处，只是我们不清楚提升幅度有多大。另一个主要变化涉及动态寄存器分配。RDNA 3（及更早版本）为着色器按最坏情况分配寄存器。通过仅在需要时动态分配额外寄存器，AMD给出一个示例，即可以额外处理一组数据。

说到光线追踪，这是AMD投入大量精力的领域。首先，每个光线追踪单元的光线/三角形和光线/边界框相交率提高了一倍。然后，它还提供了一些改进，包括硬件实例变换（而非通过GPU着色器进行大量运算）、有向边界框、改进的包围体层次结构（BVH）及其遍历方式、上述乱序内存返回，以及更好的光线硬件堆栈管理。

大部分性能提升来自相交率翻倍和BVH压缩，但其他方面的改进也共同带来了显著提升。RDNA 4与英伟达最新硬件相比如何？目前还不完全清楚，但它每个计算单元的性能肯定比RDNA 3和RDNA 2更好。它可能比不上Blackwell，但可能优于Ampere，至少性能更接近Ada。

如前所述，人工智能领域的变化最大。自RTX 20系列以来，英伟达一直在迭代其人工智能张量核心，甚至在那之前，Volta数据中心GPU就已配备张量核心。所以英伟达已经发展到第五代人工智能矩阵核心，而AMD大多还处于第二代，主要是因为AMD似乎将其CDNA GPU的许多技术应用到了RDNA 4上。

RDNA 3的计算单元每个周期能进行512次FP16运算，不支持稀疏运算，或每个周期进行1024次INT4运算。在RDNA 4中，AMD将密集型运算的基础FP16吞吐量提高了一倍，稀疏运算时再翻倍，针对在人工智能领域很有用的FP8工作负载，吞吐量又翻倍。与RDNA 3的FP16相比，RDNA 4的FP8人工智能吞吐量提升高达8倍，INT4吞吐量也有类似的8倍提升。
在这里插入图片描述
AMD以Stable Diffusion XL为例，展示了这对人工智能性能的实际影响。拥有64个计算单元的RX 9070 XT与有84个计算单元的RX 7900 XT进行对比。老款GPU在计算单元数量上有31%的优势，但最终9070 XT的性能几乎是其两倍。这对其他人工智能和机器学习工作负载，包括基于机器学习的图像放大和帧生成（见下文FSR 4）都非常有帮助。

除了这些变化，AMD还在RDNA 4中对缓存和内存层级结构进行了一些调整。它没有提供具体的变化细节，但指出这是第三代无限缓存（Infinity Cache）。容量仍为64MB，与256位的7900 GRE和7800 XT相同，但现在缓存再次成为单片芯片的一部分，因此延迟和吞吐量可能更好。

RDNA 4其他架构改进

RDNA 4的升级不止于核心架构，除了上述在光栅化、光线追踪和人工智能方面的增强，AMD还对其他一些领域进行了升级。其中一项重大变化在于媒体编码硬件。AMD称，其H.264（AVC）编码质量提升了25%，H.265（HEVC）提升了11%，并提高了AV1编码效率。它对AV1和VP9解码的支持更好，还减少了内存访问次数。

除了质量提升，RDNA 4增加了双媒体引擎。英伟达在其Ada架构中采用了类似做法，AMD似乎也在效仿。这对所有工作负载的帮助可能不尽相同，但AMD表示这使AV1编码吞吐量提高了一倍。

实际上，视频编码质量的提升空间有限，尤其是硬件编码器。英特尔和英伟达在这方面相当，而RDNA 3时代AMD在质量上落后，但在性能上领先。听起来RDNA 4将继续保持较快速度，同时在质量上与竞争对手相当，这是件好事。

RDNA 4的另一个变化是，AMD增加了硬件翻转队列支持，将视频帧调度工作交给GPU处理。英伟达也曾讨论过类似多帧生成（MFG）的功能，但AMD的解决方案似乎更侧重于通过减轻CPU负载来改善视频播放，而非优化生成帧的调度。

Radeon图像锐化（RIS）也升级到了RIS2。这是一种基于AMD对比度感知锐化（CAS）算法的驱动级锐化解决方案，据说现在质量更好。只需一键即可在所有应用程序编程接口（API）中启用RIS2。

最后，RDNA 4 GPU将支持PCIe 5.0接口。这使x16链路的吞吐量翻倍，但实际上大多数工作负载可能受益不大。特别是在游戏方面，使用完整的x16连接时，PCIe 3.0甚至4.0就足够了。不过，人工智能和某些内容创作任务可以从增加的带宽中获益。如果未来Navi 48芯片甚至RX 9060 XT将接口缩减至x8甚至x4，也不必感到惊讶。
在这里插入图片描述

支持GDDR6 VRAM

在内存支持方面，RDNA 4与RDNA 3相比没有变化。英伟达已将所有已发布的Blackwell RTX 50系列产品升级到GDDR7内存，而AMD将继续使用最高频率为20 Gbps的GDDR6内存。结合9070 XT和9070 GPU上的256位接口，可实现640 GB/s的内存带宽。这与RX 7900 GRE和RX 7800 XT的显存容量相同，也与英伟达的RTX 5070 Ti和RTX 4070 Ti Super相同。

64MB的无限缓存将提高有效带宽，不过AMD目前尚未给出缓存命中率的估算。RX 7900 GRE和RX 7800 XT都有64MB无限缓存，AMD提供的有效带宽约为基础内存带宽的四倍，因此我们预计Navi 48 GPU也会有类似表现。

也有可能是对无限缓存的进一步改进，使AMD目前无需急于转向GDDR7。考虑到英伟达28 Gbps的GDDR7相比AMD 20 Gbps的GDDR6，原始带宽提升了40%，这似乎是个显著优势。然而，考虑到大型缓存后的有效带宽，两者差距可能没那么大。

此外，驱动64个计算单元的GPU所需带宽有限。例如，英伟达RTX 5070 Ti有70个流多处理器（SM），大致相当于AMD的计算单元，且5070 Ti有48MB的二级缓存。为较少的GPU处理集群配备更大的64MB三级缓存，可能会降低对更高内存速度的需求。

单片GPU，基于TSMC N4P构建

RDNA 4一个有趣的变化是，至少目前AMD放弃了GPU小芯片方案。未来可能会重新采用，但Navi 48以及传言中的Navi 44将是单片芯片。随着这一设计选择，AMD还将制造工艺从RDNA 3使用的台积电N5工艺节点升级到RDNA 4的N4P节点。

与N4节点相比，N4P在性能和效率上有适度提升，而N4节点又是对基础N5节点的改进。据我们了解，N4P可能增加了一些金属层，且N4相比N5使用了更多极紫外光刻（EUV）技术。目前尚不完全清楚N4P与4N和4NP（用于英伟达Hopper、Ada和Blackwell的工艺变体）相比如何。在大多数方面，它们可能相当，这意味着这一轮AMD在工艺节点上与英伟达旗鼓相当。

但AMD并非真的要挑战英伟达的顶级GPU。没有采用GDDR7内存以及更大的设计就证明了这一点。Navi 48芯片在356.5平方毫米的芯片面积上集成了539亿个晶体管。英伟达用于RTX 5080和5070 Ti的GB203芯片在378平方毫米的芯片面积上集成了456亿个晶体管……这可能表明AMD实际上拥有更先进的工艺节点和/或设计，但并不能就此下结论。

芯片面积很直观，但晶体管数量并非如此。它更多是一种数学估算，而且对于如何定义“晶体管”也有不同的计算方法。也许AMD的设计晶体管密度更高，也许并非如此。最终，我们还得看各种GPU的实际性能表现。

RDNA 3系列的顶级产品Navi 31有一个300平方毫米的图形计算芯片（GCD）和六个37.5平方毫米的内存缓存芯片（MCD）。当AMD公布这些规格时，我曾好奇采用小芯片方案到底能节省多少成本。GCD有456亿个晶体管，这意味着整体晶体管密度——将RDNA 3的GCD与RDNA 4的单片设计相比——基本相同（Navi 31 GCD为每平方毫米15200万个晶体管，Navi 48为每平方毫米15120万个晶体管）。

众所周知，在新工艺节点上，外部接口（如GDDR6内存控制器）的扩展性能很差。Navi 31使用了12个32位控制器，而Navi 48有8个32位控制器。如果AMD试图在单片设计上采用384位接口，肯定需要更大的芯片。在老一代产品中采用旧工艺节点进行这样的设计，在当时从成本角度看是合理的，而且未来AMD产品或许也会证明这是个明智的做法。

无“AMD制造”参考卡

AMD不会制造或销售自家的公版RX 9070系列显卡，所有RX 9070系列显卡将由AMD的显卡合作伙伴（AIB）制造。这意味着两件事。首先，最终的频率和功耗会有很大差异，更不用说风扇数量和RGB灯光等方面了。但更重要的是，这意味着AMD对显卡实际零售价格的话语权大大降低。很可能AMD要求所有AIB为每个GPU型号至少推出一款定价接近厂商建议零售价（MSRP）的产品。但除此之外，就很难说了。
在这里插入图片描述
从长远来看，如果供应无法满足需求，大多数AIB会生产带有一些小额外功能、价格大幅虚高的高端型号。另一方面，如果供应跟上需求，那么按需降价也很容易。

FSR 4和HYPR-RX

除了硬件方面，AMD也在多个功能改进上下功夫。其中最引人注目的当属FSR 4。作为AMD FidelityFX超级分辨率（FSR）算法的第四次迭代，它在几个关键方面打破了传统。

首先，FSR 4将借助RDNA 4 GPU中更强大的AI加速器。发布时，它将要求使用RDNA 4 GPU。几个月后，AMD可能会尝试将该算法回溯适配RDNA 3，甚至RDNA 2 GPU……但可能性不大。实际上，FSR 4将与FSR 3.1共存，或者说，非AI图像放大功能仍将保留。具体如何实现尚不完全清楚，但将所有功能统一在一个名称下更合理。

FSR 4也不仅用于图像放大，它还具备帧生成功能。据我们了解，图像放大和帧生成都会使用RX 9000系列GPU的AI加速器。AMD还表示RDNA 4“为神经渲染做好了准备”，但未深入说明。这可能与微软的新协同向量功能有关，英伟达在Blackwell系列中也提到过类似功能。
在这里插入图片描述
关于FSR 4在计算方面的更多细节，AMD尚未回应。但有一张幻灯片在介绍FSR 4时提到，RX 9070 XT提供“高达779 TOPS的AI加速”。这可能是密集型INT4运算或稀疏型INT8运算的性能，因为9070 XT在稀疏型INT4运算上的性能是这个数字的两倍，但我们还未得到算法具体使用INT4还是INT8的直接答案。无论如何，这比上一代AMD GPU的理论计算能力强得多，这就是为什么我们预计AI图像放大和帧生成模型不会回溯适配旧款GPU。

英伟达的DLSS 4通过使用Transformer实现了比DLSS 3更好的图像保真度，AMD可能因为在AI图像放大和帧生成领域起步较晚，所以跳过了卷积神经网络方法。从AMD提供的一些图像质量对比来看，FSR 4确实比FSR 3.1更好。

GPU前景

坦率地说，RDNA 4感觉像是AMD本该在RDNA 3就做的，而不是采用现在已放弃的GPU小芯片方案。AMD终于决定在其消费级产品线中大力投入光线追踪硬件和AI技术。我们能理解为什么RDNA 2在这些方面有所欠缺——英伟达GeForce RTX的功能可能让AMD措手不及——但在2022年RDNA 3发布时，它确实需要有更多作为。
在这里插入图片描述
有趣的是，所有这些新硬件功能并没有导致芯片尺寸大幅膨胀。Navi 48在5nm级节点（N4P）上的面积为357平方毫米。Navi 31在5nm级节点（N5）上的面积为300平方毫米，还通过Infinity Fabric链路连接外部内存和缓存小芯片。去掉这些链路，重新设计核心，这些在几年前就有可能实现。这很明显，因为英伟达已经做到了，但RDNA 3似乎过于强调“光线追踪和AI并非那么重要”的市场策略，结果落后了。RDNA 4终于纠正了这一失误，或者至少做出了尝试。现在我们只需看看实际硬件在各种任务中的表现。

AMD的RDNA 4 GPU将不得不与英伟达的Blackwell RTX和英特尔的Arc Battlemage竞争。正如我们已经讨论过的，最近所有显卡的供应情况都非常糟糕（这是很委婉的说法）。每一款新发布的GPU都很快售罄，而且很多显卡的售价远高于原价。从Arc B580开始就是如此，英伟达Blackwell发布后情况更是雪上加霜。短期内情况不会好转。主要问题是有很多公司在争夺有限的硅片制造资源。台积电每个月只能处理一定数量的晶圆。目前，AMD、苹果、英特尔和英伟达都在使用台积电制造各种芯片，还有很多其他公司——博通、脸书、谷歌、亚马逊……名单很长。

即使一家公司在某个月支付了一定数量晶圆的费用，如何使用这些晶圆仍是个问题。仅看主要的PC公司，AMD当然可以用台积电的N4P节点制造RDNA 4 GPU。或者它可以为锐龙和霄龙CPU制造Zen 5 CPU小芯片、CDNA 3数据中心GPU（MI300X）、用于笔记本电脑和手持设备的其他锐龙APU设计，或者可能在今年推出的未来CDNA 4 GPU。英伟达有Grace CPU、Hopper和Blackwell数据中心GPU、NVLink处理器、上一代Ada Lovelace GPU，以及新的Blackwell RTX GPU，它们都使用台积电5nm级节点的不同变体。英特尔也利用台积电制造其Arrow Lake、Lunar Lake和Battlemage产品线的全部或部分产品。

英伟达去年创纪录地盈利1300亿美元，主要得益于AI业务。其消费级游戏部门仅占113.5亿美元，占总利润的8.7%。未来，英伟达可能会在数据中心GPU上投入更多。不用说，这将消耗大量晶圆，游戏业务将不得不竞争以获取份额。

好消息是，更多的制造产能正在上线。其中很大一部分可能会用于生产更多的AI处理器，但产能越多，其他利润较低的芯片——比如消费级GPU——就越有可能被生产出来。也许AMD和英特尔会在英伟达专注于其他业务时，尝试扩大其游戏GPU业务。或者英伟达会把游戏业务视为公司的起点，当作一个情怀项目，从而确保至少生产一定数量的芯片。也许吧……无论发生什么，现在很明显的是，只要AI行业继续发展，对于大多数图形领域的大公司来说，游戏GPU的优先级就会降低。

距离Radeon RX 9070系列GPU上市大约几天时间。预计会得到更多相关的最新消息。尽管如此，AMD在各个GPU细分市场中作为英伟达（NVIDIA）的有力竞争对手，对于持续推动市场竞争仍然至关重要。
在这里插入图片描述