AMD刚刚正式宣布了推出Radeon RX 9000系列显卡家族的首批产品——Radeon RX 9070与Radeon RX 9070 XT。两款显卡基于全新RDNA 4架构,搭载第三代光线追踪加速器与第二代AI加速单元,目标以高性价比策略冲击中高端GPU市场。这些产品将与英伟达的Blackwell RTX 50系列GPU以及英特尔的Battlemage Arc B系列GPU展开竞争,并且在未来几天内很可能跻身最佳显卡之列。
毫无疑问,英伟达因人工智能业务获得的创纪录利润对市场影响巨大。虽然AMD销售的数据中心GPU数量不如英伟达,但它从台积电获得的晶圆分配,也有相当一部分用于数据中心CPU和GPU的生产。
RDNA 4 GPU规格
让我们来看看AMD RDNA 4 GPU的规格参数,聊聊架构更新,并深入探讨其他细节。以下是你需要了解的关于AMD RDNA 4和Radeon RX 9000系列GPU的所有信息。
以下是已知的RX 9070系列GPU的规格参数,同时还有关于RX 9060系列的占位信息。AMD在2025年CES上公布了9060的名称,但未透露其他细节。我们根据网上的信息整理了一个对应表格。精简版的RX 9060 XT,它与9070系列显卡使用相同的Navi 48芯片,只是启用的计算单元(CU)和内存控制器更少。RX 9060可能会使用进一步分级的Navi 48芯片,也可能使用Navi 44芯片。
看看RX 9070 XT,它使用了完全启用的Navi 48芯片,包含64个RDNA 4计算单元。结合2.97GHz的加速频率、256位内存接口以及20Gbps的GDDR6显存,其他参数大多可以通过直接数学计算得出。RX 9070的配置基本相同,只是有56个计算单元,加速频率为2.52GHz,比它的高端型号低很多,不过实际运行频率到底如何,我们还得等等看。
功耗目标也是最终频率的影响因素之一。9070 XT的总板卡功耗(TBP)为304W,而9070则将其降至220W。这可能是两者加速频率相差450MHz的一个重要原因。
在浮点运算性能上,9070 XT的单精度(FP32)算力为48.7 TFLOPS,9070为36.1 TFLOPS。理论上,这使得XT型号比9070快35%。但实际上,我们认为这两款芯片的性能差距会小很多,尽管参数如此,但在大多数游戏中的实际频率可能仅相差几百MHz。
与RDNA 3相比,AMD还对计算单元中的光线加速器和AI加速器进行了大幅升级。在AI方面,每个计算单元在每个周期内的半精度(FP16)运算能力提高了一倍,并且现在支持稀疏运算。稀疏运算可以跳过多达一半的零乘法运算,从而有可能使性能翻倍,英伟达自第二代RTX 30系列GPU起就支持这一特性。(AMD在其CDNA系列GPU上也支持稀疏运算多年了。)
此外,AI单元还支持FP8、INT8、BF8和INT4运算,其中8位计算速度是16位的两倍,4位整数运算速度又是8位的两倍。综合来看,其稀疏FP16算力可达389 TFLOPS,稀疏INT4算力高达1557 TOPS。
要知道,上一代RDNA 3架构的RX 7900 XTX GPU拥有多达96个计算单元和384位内存接口。所以,虽然RDNA 4 GPU在每个计算单元的性能上有所提升,但AMD并不认为RX 9070 XT在所有工作负载下都能超越RX 7900 XTX。
RX 9000系列定价
AMD宣布Radeon RX 9070起售价为549美元,RX 9070 XT起售价为599美元,这两款产品无疑处于“主流”价格区间。然而,鉴于当前市场状况,AMD给出的厂商建议零售价(MSRP)可能意义不大。短期内,我们肯定预计这些显卡会售罄,实际售价将远超建议零售价。
对于台式机专用显卡而言,如今“预算型”意味着价格在250 - 300美元左右,“主流型”价格为400 - 700美元,“高端型”的GPU价格在800 - 1000美元,而“发烧级”则瞄准1500美元及以上的价位。AMD的9070系列面向主流市场,未来的9060系列产品可能针对中低端主流和高端预算市场。
考虑到供应情况以及性能表现,RDNA 4系列应该值AMD开出的价格。但更有可能的情况是,在未来几个月内,显卡供应根本无法满足当前需求。
这基本上是加密货币GPU挖矿时期短缺情况的重演,只不过这次是由人工智能引发的,而且这一领域的需求可能在未来许多年都不会消失。希望我们是错的,但目前RTX 50系列的发布情况并不乐观。
RDNA 4发布日期
RX 9070系列显卡将于2025年3月6日发布,Radeon RX 9060系列可能会在4月上市。
按照之前的说法,Radeon RX 9060系列将采用Navi 44芯片,目标是取代Navi 33,沿用了单芯片设计,计算单元数量会更少。如果属实,它可能不会很快推出。市面上似乎仍有大量RX 7600和RX 7600 XT GPU,这是因为这些产品发布时,还有很多性能相近、价格更低的Navi 23(RX 6650 XT / RX 6600 XT / RX 6600)显卡在售。
AMD的命名规则表明,RX 9060将与RTX 5060系列竞争。这可能需要比传言中更大的芯片。但从技术上讲,RX 7600与RTX 4060竞争,且没有RTX 4050,可能也不会有RTX 5050。
RDNA 4 GPU架构
AMD致力于优化底层架构,以提升在所有主要工作负载(光栅化、光线追踪和人工智能)中每个计算单元(CU)的性能。光栅化性能的代际提升最小,但据AMD称,仍比RDNA 3快约40%。光线追踪性能基本翻倍,密集型半精度(FP16)计算的人工智能性能翻倍,更低精度格式的性能提升幅度更大。
光栅化性能提升的具体细节有点模糊。RDNA 4支持乱序内存请求,AMD特别指出这对光线追踪有帮助,对光栅化任务也有益处,只是我们不清楚提升幅度有多大。另一个主要变化涉及动态寄存器分配。RDNA 3(及更早版本)为着色器按最坏情况分配寄存器。通过仅在需要时动态分配额外寄存器,AMD给出一个示例,即可以额外处理一组数据。
说到光线追踪,这是AMD投入大量精力的领域。首先,每个光线追踪单元的光线/三角形和光线/边界框相交率提高了一倍。然后,它还提供了一些改进,包括硬件实例变换(而非通过GPU着色器进行大量运算)、有向边界框、改进的包围体层次结构(BVH)及其遍历方式、上述乱序内存返回,以及更好的光线硬件堆栈管理。
大部分性能提升来自相交率翻倍和BVH压缩,但其他方面的改进也共同带来了显著提升。RDNA 4与英伟达最新硬件相比如何?目前还不完全清楚,但它每个计算单元的性能肯定比RDNA 3和RDNA 2更好。它可能比不上Blackwell,但可能优于Ampere,至少性能更接近Ada。
如前所述,人工智能领域的变化最大。自RTX 20系列以来,英伟达一直在迭代其人工智能张量核心,甚至在那之前,Volta数据中心GPU就已配备张量核心。所以英伟达已经发展到第五代人工智能矩阵核心,而AMD大多还处于第二代,主要是因为AMD似乎将其CDNA GPU的许多技术应用到了RDNA 4上。
RDNA 3的计算单元每个周期能进行512次FP16运算,不支持稀疏运算,或每个周期进行1024次INT4运算。在RDNA 4中,AMD将密集型运算的基础FP16吞吐量提高了一倍,稀疏运算时再翻倍,针对在人工智能领域很有用的FP8工作负载,吞吐量又翻倍。与RDNA 3的FP16相比,RDNA 4的FP8人工智能吞吐量提升高达8倍,INT4吞吐量也有类似的8倍提升。
AMD以Stable Diffusion XL为例,展示了这对人工智能性能的实际影响。拥有64个计算单元的RX 9070 XT与有84个计算单元的RX 7900 XT进行对比。老款GPU在计算单元数量上有31%的优势,但最终9070 XT的性能几乎是其两倍。这对其他人工智能和机器学习工作负载,包括基于机器学习的图像放大和帧生成(见下文FSR 4)都非常有帮助。
除了这些变化,AMD还在RDNA 4中对缓存和内存层级结构进行了一些调整。它没有提供具体的变化细节,但指出这是第三代无限缓存(Infinity Cache)。容量仍为64MB,与256位的7900 GRE和7800 XT相同,但现在缓存再次成为单片芯片的一部分,因此延迟和吞吐量可能更好。
RDNA 4其他架构改进
RDNA 4的升级不止于核心架构,除了上述在光栅化、光线追踪和人工智能方面的增强,AMD还对其他一些领域进行了升级。其中一项重大变化在于媒体编码硬件。AMD称,其H.264(AVC)编码质量提升了25%,H.265(HEVC)提升了11%,并提高了AV1编码效率。它对AV1和VP9解码的支持更好,还减少了内存访问次数。
除了质量提升,RDNA 4增加了双媒体引擎。英伟达在其Ada架构中采用了类似做法,AMD似乎也在效仿。这对所有工作负载的帮助可能不尽相同,但AMD表示这使AV1编码吞吐量提高了一倍。
实际上,视频编码质量的提升空间有限,尤其是硬件编码器。英特尔和英伟达在这方面相当,而RDNA 3时代AMD在质量上落后,但在性能上领先。听起来RDNA 4将继续保持较快速度,同时在质量上与竞争对手相当,这是件好事。
RDNA 4的另一个变化是,AMD增加了硬件翻转队列支持,将视频帧调度工作交给GPU处理。英伟达也曾讨论过类似多帧生成(MFG)的功能,但AMD的解决方案似乎更侧重于通过减轻CPU负载来改善视频播放,而非优化生成帧的调度。
Radeon图像锐化(RIS)也升级到了RIS2。这是一种基于AMD对比度感知锐化(CAS)算法的驱动级锐化解决方案,据说现在质量更好。只需一键即可在所有应用程序编程接口(API)中启用RIS2。
最后,RDNA 4 GPU将支持PCIe 5.0接口。这使x16链路的吞吐量翻倍,但实际上大多数工作负载可能受益不大。特别是在游戏方面,使用完整的x16连接时,PCIe 3.0甚至4.0就足够了。不过,人工智能和某些内容创作任务可以从增加的带宽中获益。如果未来Navi 48芯片甚至RX 9060 XT将接口缩减至x8甚至x4,也不必感到惊讶。
支持GDDR6 VRAM
在内存支持方面,RDNA 4与RDNA 3相比没有变化。英伟达已将所有已发布的Blackwell RTX 50系列产品升级到GDDR7内存,而AMD将继续使用最高频率为20 Gbps的GDDR6内存。结合9070 XT和9070 GPU上的256位接口,可实现640 GB/s的内存带宽。这与RX 7900 GRE和RX 7800 XT的显存容量相同,也与英伟达的RTX 5070 Ti和RTX 4070 Ti Super相同。
64MB的无限缓存将提高有效带宽,不过AMD目前尚未给出缓存命中率的估算。RX 7900 GRE和RX 7800 XT都有64MB无限缓存,AMD提供的有效带宽约为基础内存带宽的四倍,因此我们预计Navi 48 GPU也会有类似表现。
也有可能是对无限缓存的进一步改进,使AMD目前无需急于转向GDDR7。考虑到英伟达28 Gbps的GDDR7相比AMD 20 Gbps的GDDR6,原始带宽提升了40%,这似乎是个显著优势。然而,考虑到大型缓存后的有效带宽,两者差距可能没那么大。
此外,驱动64个计算单元的GPU所需带宽有限。例如,英伟达RTX 5070 Ti有70个流多处理器(SM),大致相当于AMD的计算单元,且5070 Ti有48MB的二级缓存。为较少的GPU处理集群配备更大的64MB三级缓存,可能会降低对更高内存速度的需求。
单片GPU,基于TSMC N4P构建
RDNA 4一个有趣的变化是,至少目前AMD放弃了GPU小芯片方案。未来可能会重新采用,但Navi 48以及传言中的Navi 44将是单片芯片。随着这一设计选择,AMD还将制造工艺从RDNA 3使用的台积电N5工艺节点升级到RDNA 4的N4P节点。
与N4节点相比,N4P在性能和效率上有适度提升,而N4节点又是对基础N5节点的改进。据我们了解,N4P可能增加了一些金属层,且N4相比N5使用了更多极紫外光刻(EUV)技术。目前尚不完全清楚N4P与4N和4NP(用于英伟达Hopper、Ada和Blackwell的工艺变体)相比如何。在大多数方面,它们可能相当,这意味着这一轮AMD在工艺节点上与英伟达旗鼓相当。
但AMD并非真的要挑战英伟达的顶级GPU。没有采用GDDR7内存以及更大的设计就证明了这一点。Navi 48芯片在356.5平方毫米的芯片面积上集成了539亿个晶体管。英伟达用于RTX 5080和5070 Ti的GB203芯片在378平方毫米的芯片面积上集成了456亿个晶体管……这可能表明AMD实际上拥有更先进的工艺节点和/或设计,但并不能就此下结论。
芯片面积很直观,但晶体管数量并非如此。它更多是一种数学估算,而且对于如何定义“晶体管”也有不同的计算方法。也许AMD的设计晶体管密度更高,也许并非如此。最终,我们还得看各种GPU的实际性能表现。
RDNA 3系列的顶级产品Navi 31有一个300平方毫米的图形计算芯片(GCD)和六个37.5平方毫米的内存缓存芯片(MCD)。当AMD公布这些规格时,我曾好奇采用小芯片方案到底能节省多少成本。GCD有456亿个晶体管,这意味着整体晶体管密度——将RDNA 3的GCD与RDNA 4的单片设计相比——基本相同(Navi 31 GCD为每平方毫米15200万个晶体管,Navi 48为每平方毫米15120万个晶体管)。
众所周知,在新工艺节点上,外部接口(如GDDR6内存控制器)的扩展性能很差。Navi 31使用了12个32位控制器,而Navi 48有8个32位控制器。如果AMD试图在单片设计上采用384位接口,肯定需要更大的芯片。在老一代产品中采用旧工艺节点进行这样的设计,在当时从成本角度看是合理的,而且未来AMD产品或许也会证明这是个明智的做法。
无“AMD制造”参考卡
AMD不会制造或销售自家的公版RX 9070系列显卡,所有RX 9070系列显卡将由AMD的显卡合作伙伴(AIB)制造。这意味着两件事。首先,最终的频率和功耗会有很大差异,更不用说风扇数量和RGB灯光等方面了。但更重要的是,这意味着AMD对显卡实际零售价格的话语权大大降低。很可能AMD要求所有AIB为每个GPU型号至少推出一款定价接近厂商建议零售价(MSRP)的产品。但除此之外,就很难说了。
从长远来看,如果供应无法满足需求,大多数AIB会生产带有一些小额外功能、价格大幅虚高的高端型号。另一方面,如果供应跟上需求,那么按需降价也很容易。
FSR 4和HYPR-RX
除了硬件方面,AMD也在多个功能改进上下功夫。其中最引人注目的当属FSR 4。作为AMD FidelityFX超级分辨率(FSR)算法的第四次迭代,它在几个关键方面打破了传统。
首先,FSR 4将借助RDNA 4 GPU中更强大的AI加速器。发布时,它将要求使用RDNA 4 GPU。几个月后,AMD可能会尝试将该算法回溯适配RDNA 3,甚至RDNA 2 GPU……但可能性不大。实际上,FSR 4将与FSR 3.1共存,或者说,非AI图像放大功能仍将保留。具体如何实现尚不完全清楚,但将所有功能统一在一个名称下更合理。
FSR 4也不仅用于图像放大,它还具备帧生成功能。据我们了解,图像放大和帧生成都会使用RX 9000系列GPU的AI加速器。AMD还表示RDNA 4“为神经渲染做好了准备”,但未深入说明。这可能与微软的新协同向量功能有关,英伟达在Blackwell系列中也提到过类似功能。
关于FSR 4在计算方面的更多细节,AMD尚未回应。但有一张幻灯片在介绍FSR 4时提到,RX 9070 XT提供“高达779 TOPS的AI加速”。这可能是密集型INT4运算或稀疏型INT8运算的性能,因为9070 XT在稀疏型INT4运算上的性能是这个数字的两倍,但我们还未得到算法具体使用INT4还是INT8的直接答案。无论如何,这比上一代AMD GPU的理论计算能力强得多,这就是为什么我们预计AI图像放大和帧生成模型不会回溯适配旧款GPU。
英伟达的DLSS 4通过使用Transformer实现了比DLSS 3更好的图像保真度,AMD可能因为在AI图像放大和帧生成领域起步较晚,所以跳过了卷积神经网络方法。从AMD提供的一些图像质量对比来看,FSR 4确实比FSR 3.1更好。
GPU前景
坦率地说,RDNA 4感觉像是AMD本该在RDNA 3就做的,而不是采用现在已放弃的GPU小芯片方案。AMD终于决定在其消费级产品线中大力投入光线追踪硬件和AI技术。我们能理解为什么RDNA 2在这些方面有所欠缺——英伟达GeForce RTX的功能可能让AMD措手不及——但在2022年RDNA 3发布时,它确实需要有更多作为。
有趣的是,所有这些新硬件功能并没有导致芯片尺寸大幅膨胀。Navi 48在5nm级节点(N4P)上的面积为357平方毫米。Navi 31在5nm级节点(N5)上的面积为300平方毫米,还通过Infinity Fabric链路连接外部内存和缓存小芯片。去掉这些链路,重新设计核心,这些在几年前就有可能实现。这很明显,因为英伟达已经做到了,但RDNA 3似乎过于强调“光线追踪和AI并非那么重要”的市场策略,结果落后了。RDNA 4终于纠正了这一失误,或者至少做出了尝试。现在我们只需看看实际硬件在各种任务中的表现。
AMD的RDNA 4 GPU将不得不与英伟达的Blackwell RTX和英特尔的Arc Battlemage竞争。正如我们已经讨论过的,最近所有显卡的供应情况都非常糟糕(这是很委婉的说法)。每一款新发布的GPU都很快售罄,而且很多显卡的售价远高于原价。从Arc B580开始就是如此,英伟达Blackwell发布后情况更是雪上加霜。短期内情况不会好转。主要问题是有很多公司在争夺有限的硅片制造资源。台积电每个月只能处理一定数量的晶圆。目前,AMD、苹果、英特尔和英伟达都在使用台积电制造各种芯片,还有很多其他公司——博通、脸书、谷歌、亚马逊……名单很长。
即使一家公司在某个月支付了一定数量晶圆的费用,如何使用这些晶圆仍是个问题。仅看主要的PC公司,AMD当然可以用台积电的N4P节点制造RDNA 4 GPU。或者它可以为锐龙和霄龙CPU制造Zen 5 CPU小芯片、CDNA 3数据中心GPU(MI300X)、用于笔记本电脑和手持设备的其他锐龙APU设计,或者可能在今年推出的未来CDNA 4 GPU。英伟达有Grace CPU、Hopper和Blackwell数据中心GPU、NVLink处理器、上一代Ada Lovelace GPU,以及新的Blackwell RTX GPU,它们都使用台积电5nm级节点的不同变体。英特尔也利用台积电制造其Arrow Lake、Lunar Lake和Battlemage产品线的全部或部分产品。
英伟达去年创纪录地盈利1300亿美元,主要得益于AI业务。其消费级游戏部门仅占113.5亿美元,占总利润的8.7%。未来,英伟达可能会在数据中心GPU上投入更多。不用说,这将消耗大量晶圆,游戏业务将不得不竞争以获取份额。
好消息是,更多的制造产能正在上线。其中很大一部分可能会用于生产更多的AI处理器,但产能越多,其他利润较低的芯片——比如消费级GPU——就越有可能被生产出来。也许AMD和英特尔会在英伟达专注于其他业务时,尝试扩大其游戏GPU业务。或者英伟达会把游戏业务视为公司的起点,当作一个情怀项目,从而确保至少生产一定数量的芯片。也许吧……无论发生什么,现在很明显的是,只要AI行业继续发展,对于大多数图形领域的大公司来说,游戏GPU的优先级就会降低。
距离Radeon RX 9070系列GPU上市大约几天时间。预计会得到更多相关的最新消息。尽管如此,AMD在各个GPU细分市场中作为英伟达(NVIDIA)的有力竞争对手,对于持续推动市场竞争仍然至关重要。