AMD 慌了？英特尔“Granite Rapids”Xeon 6 全面来袭！

本文链接：https://blog.csdn.net/weixin_50197960/article/details/145856174

如今，芯片制造商英特尔在诸多方面面临挑战，这已不是什么秘密。但要知道，数据中心售出的处理器中，近三分之二都是英特尔的产品。这是一项利润尚可的业务，在X86服务器CPU领域，英特尔能够——实际上也经常与竞争对手AMD展开较量。而且，英特尔还能提供超大规模数据中心运营商和云服务提供商自行研发、台积电代工的各类Arm服务器CPU所不具备的优势。
在这里插入图片描述
2024年6月，英特尔推出了基于Atom风格能效核心（E-core）设计的“Sierra Forrest”Xeon 6处理器。这是Xeon 6代的首批产品，标志着传统Xeon 核心（现称为性能核心，即P-core）与E-core整合到同一套插槽中，它们具备相同的外部数据传输速率，并基于插槽内相同的I/O小芯片来实现这些速率。2024年9月，英特尔发布了基于P-core计算小芯片的首批“Granite Rapids”Xeon 6处理器，这些高端芯片主要面向超大规模数据中心运营商和云服务提供商，他们希望在单个插槽中塞进尽可能多的核心，以便在大规模服务器集群中减少服务器数量。

E-core和P-core服务器处理器的差异主要体现在集成计算核心的小芯片内部。即便有人质疑在本质上仍为Atom和Xeon 核心之间维持计算分叉的合理性，但这种芯片划分方式其实是很合理的。
在这里插入图片描述
如今，英特尔推出了全新的Xeon 6（Xeon 6）产品组合，针对上一次的Xeon 6系列进行了丰富和扩展。带来面向通用服务器负载的Xeon 6700/6500P系列（Granite Rapids-SP）和面向网络和边缘应用的Xeon 6 SoC（Granite Rapids-D）。前者为广泛数据中心工作负载提供强大的计算支持，后者内置英特尔vRAN Boost技术，可带来高达2.4倍的无线接入网（RAN）工作负载容量提升。

在深入了解Xeon 6300P、6500P和6700P之前，我们先梳理一些基本信息。

首先，基于“Crestmont”E-core的“Granite Rapids”Xeon 6900E不会有大规模发布活动。英特尔早在2023年9月就透露正在研发一款核心数高达288的Sierra Forrest芯片，Xeon 6900E目前正在量产爬坡阶段。英特尔还按承诺推出了Xeon 6 P-core平台的片上系统变体，主要面向电信运营商和其他服务提供商，用于网络和边缘应用场景。

另外，几周前英特尔对现有核心数高达128的“Granite Rapids”Xeon 6900P芯片进行了降价。以下是Xeon 6900P更新后的价格和性价比表格，这个表可以帮助我们更好的了解其余“Granite Rapids”产品线。
在这里插入图片描述

产品布局与性能特点

和很多代Xeon 服务器处理器一样，英特尔并非只制造一种大型芯片，然后根据核心和I/O的良品率来充实产品线。即便英特尔已进入小芯片时代，每个小芯片都有各自的良品率曲线（一般来说，尺寸越小良品率越高），但减少芯片数量有助于提高封装制造的良品率。在“Granite Rapids”小芯片和插槽设计中，我们可以看到这种相互作用，既能在不牺牲盈利能力的前提下，实现Xeon 6产品线良品率的最大化，又能丰富产品线的深度和广度。
在这里插入图片描述
四种不同的Xeon 6芯片封装在名称上大家并不陌生：超高核心数（UCC）、极高核心数（XCC）、高核心数（HCC）和低核心数（LCC）。无论使用哪种核心芯片复合体，所有“Granite Rapids”核心复合体均采用英特尔3工艺（大致相当于台积电的3纳米工艺）制造，包含一到三个计算复合体，共有三种设计。一种小型核心复合体有16个核心，中间的一个有48个核心，有趣的是，用于“Granite Rapids”插槽，第三个用于Granite急流插槽的核心复合体有44个核心，这为连接核心复合体及其缓存以创建虚拟单芯片的互连留出了空间。

所有“Granite Rapids”芯片都有一对I/O小芯片，其中包含DDR5内存控制器、PCI-Express控制器，以及之前Xeon 4和Xeon 5 CPU中就有的各种加速器，这些加速器会不时更新新的哈希或加密算法，或以其他方式进行性能提升。在Xeon 6产品线的主要特性表底部，列出了这些加速器。
在这里插入图片描述
本次发布的Xeon 6500P和6700P处理器及其平台，核心数最多可达86个，它们同时支持AVX512向量单元和AMX张量单元加速。前者对高性能计算（HPC）和人工智能都很重要，而后者未来可能成为人工智能工作负载，甚至高性能计算程序的真正差异化优势。

我们发现一个有点令人困惑的地方：用于四插槽或八插槽系统的 Xeon 6700E 处理器仅配备了四个 UltraPath Interconnect (UPI) 链接（尽管这些链接的运行速度高达 24 GT/s）。相比之下，仅支持双插槽配置的 Xeon 6900P 却拥有六个 UPI 链接，且运行速度同样为 24 GT/s。类似地，Sierra Forest 架构中的 Xeon 6700E 和 6900E 变体也配备了更多的 UPI 链接，但它们的最大插槽数仅为两个。

简而言之，尽管多插槽系统（如四插槽或八插槽）通常需要更高的互连带宽来支持更复杂的 NUMA 结构，但 Xeon 6700E 的 UPI 数量却比仅支持双插槽的 Xeon 6900P 少。这种设计似乎与直观需求有些不符。
在这里插入图片描述
我们原本以为，那些制造大型 NUMA 架构机器的 OEM，用于运行后端关系型数据库或内存数据库及其相关应用，可能会更倾向于选择 Xeon 6900P 。因为更多的 UPI 链接可以更好地将插槽之间的连接变得更加紧密，从而减少跨 NUMA 访问内存时的跳数（hops）。具体来说，六个 UPI 链接可以让单个处理器直接连接到六台其他处理器，只有在访问第八个 CPU 时才需要进行二次跳转。即使 Intel 使用四个 UPI 链接实现了八插槽配置（如上图所示），但理论上，通过六个 UPI 链接，还可以构建一个支持 16 插槽的无胶 NUMA 架构，这显然能够帮助 Intel 的 OEM 客户更好地与 IBM 的 Power Systems 产品竞争。

然而，对于将八台八核的可扩展处理器（Scalable SKU）配置在一个节点中，不是很能理解。如果这样做，整机将拥有 32 TB 的内存容量和 4.8 TB/s 的总内存带宽，同时还能提供 64 个核心，基础频率为 4 GHz，Turbo Boost 最高可达 4.3 GHz。这似乎更像是一个以内存和带宽为核心竞争力的 CPU 集群，与单插槽下拥有 128 或 288 核心的设计理念完全不同。也许对于某些特定场景（比如需要处理海量内存数据的任务），这种设计正是客户所需要的。

不管怎样，可以肯定的是：那些采购了 Granite Rapids 架构的 6900P 、6700E 和 6900E 处理器的超大规模云计算服务商和云基础设施建设者，一定是对这两条额外的 UPI 链接有特定用途。这些设计绝不是偶然为之，而是经过深思熟虑的结果。

除了支持四插槽或八插槽扩展的Granite Rapids芯片版本外，还有一种经过优化的版本，专门用于单插槽、数据中心级应用场景。这些场景与面向电信服务提供商（telcos）和服务供应商的Xeon 6 SoC不同。
在这里插入图片描述

“Granite Rapids”6500P和6700P芯片的单插槽变体很有意思，这也证明了AMD在超大规模数据中心运营商和云服务提供商中推销单插槽设备作为HPC和人工智能头节点以及更通用的服务器底座方面取得了成功。（AMD没有四插槽或更高的NUMA配置，上限一直是两个插槽。但如果AMD想在SAP HANA和其他大型数据库业务中分得一杯羹，这种情况可能会改变。）

用于单插槽服务器的“Granite Rapids”65X1P和67X1P（X是变量，末尾的1表示单插槽）芯片，核心数从16个到80个不等，虽然核心数量不算多，但足以完成某些类型的计算工作，比如软件定义存储的控制器就是一个很好的例子，并且还具备大量I/O接口。

英特尔还必须覆盖中小企业市场（SMB）和边缘计算场景，在这些场景中，具备强大P-core的真正Xeon 处理器非常重要，Xeon 6300P芯片就承担了这一任务。这些芯片可能会进入数据中心，但可能会以一种隐蔽的方式，比如出现在交换机或其他设备中。Xeon 6300P系列的单位计算成本相当低，大约是英特尔所称的性能SKU和单插槽SKU的一半，大约是用于四插槽和八插槽机器的Xeon 6500P和6700P芯片版本价格的四分之一到一半。然而，Xeon 6300P芯片仅支持128 GB的内存，且运行速度仅为4.8 GT/秒，因此它们并不适合处理对内存要求较高的工作负载。
在这里插入图片描述

性能表现分析

以下是“Granite Rapids”系列中64核心（Xeon 6 6767P）和86核心（Xeon 6 6787P）与上一代“Emerald急流”系列中64核心的Xeon 5 8592+的相对性能对比。
在这里插入图片描述
在核心数量相同的情况下，“Granite Rapids”芯片在各种对计算、内存带宽和I/O有不同压力的工作负载中，性能提升在14%到41%之间。86核心的顶级“Granite Rapids”6700P系列中，增加的22个核心使其相比64核心的“Emerald急流”芯片性能提升了30%到54%。

在我们看来，相同64核心数量下平均性能提升约25%，增加到86核心时平均提升约40%。当然，性能总是取决于细节，虽然数据中心运行着大量工作负载，但它们并非平均分布。每个工作负载的性能取决于系统针对它的配置优化程度。如果没有足够的内存或I/O，世界上最好的CPU也发挥不了多大作用。

即便对于自行制造Arm服务器芯片的厂商来说，将CPU利用率推至100%以追求绝对性能，通常也不是CPU设计者的目标。他们试图在典型工作负载下实现性能、散热和价格的合理平衡。对于许多超大规模数据中心运营商和云服务提供商来说，典型负载为CPU峰值的40%，因此英特尔对“Granite Rapids”P-core设计进行了优化，使其比上一代“Emerald急流”更高效。
在这里插入图片描述
以上就是这次发布的大致情况。下面是本次发布的其他“Granite Rapids”芯片的SKU表。

后期，我们将深入分析各种工作负载类别的性能，与前代Xeon 进行历史对比，并对“Granite Rapids”Xeon 6与AMD的“Turin”霄龙9005系列及其Xen 5和Xen 5c核心展开竞争分析，敬请期待。

**赋创(EMPOWER X)**，作为高性能计算领域的积极探索者，始终致力于技术创新的前沿，密切关注并吸收最新的科技进展。我们专注于提供高效且可靠的计算解决方案，旨在满足多样化的需求。
在这里插入图片描述
想了解更多有关AI训练推理服务器相关的信息，不管是技术问题还是应用规划，欢迎随时联系我们，期待能为您提供有价值的见解与支持。