Intel Xeon 6900P：重返服务器领域巅峰的强力之作(附基准数据）

本文链接：https://blog.csdn.net/weixin_50197960/article/details/142588329

在服务器处理器领域，Intel Xeon系列长期以来一直是高性能计算的代名词。然而，过去几年间，AMD EPYC系列的崛起让Intel面临了不小的挑战。但随着Intel Xeon 6900P的发布，Intel再次展现了其在服务器处理器市场的领导地位。这款拥有128个核心、12个内存通道，加速器，全新工艺技术和多项创新功能的处理器，无疑将为服务器市场带来一场新的变革。
在这里插入图片描述

当至强不只是至强，而是至强

多年来，当我们讨论英特尔至强CPU时，只要忽略像LGA1356 Sandy Bridge-EN和Ivy Bridge-EN这样的字眼，通常都是同一个插槽和核心架构。
在这里插入图片描述
而英特尔至强第6代拥有E核和P核的2×2矩阵。最近发布的英特尔至强6900P系列，属于12通道的128个P内核高端产品。几个月前，英特尔发布了至强6700 E系列“Sierra Forest”，它有144个E核，使用不同的插槽，TDP只有一半。两者都是Intel Xeon 6，但它们非常不同，这也意味着Xeon 6系列产品可以适用于很多领域。
在这里插入图片描述

Intel Xeon 6900P“Granite Rapids-AP”是Intel针对高性能计算（HPC）的双插槽大型Xeon处理器。它支持12条DDR5-6400或8800MT/s的MRDIMM/MCR DIMM内存通道，这使得Intel在内存通道数上能与AMD相媲美，甚至超过AMD的内存带宽。此外，Intel Xeon 6900P拥有128个完整的P核心，这比AMD目前提供的还要多（AMD的Genoa系列为96个核心，而Bergamo是缓存较低的核心）。每个CPU提供96条PCIe Gen5通道，总计192条，并支持CXL 2.0。同时，它还启用了完整的6条UPI通道，以实现插槽间的高带宽。现在，随着Intel Xeon 6980P配备了504MB的L3缓存，AMD在主流产品（非Genoa-X系列）上的L3缓存优势已不复存在。
在这里插入图片描述
鉴于Intel拥有另一个插槽和其他系列的CPU，Xeon 6900P系列仅包含五个公开SKU，核心数从72到128不等。其中，只有128核的SKU不是3的倍数，因此我们预计超大规模云服务商和其他用户可能会基于120核的SKU（即Intel Xeon 6979P）定制自己的SKU，但Intel还是推出了128核的SKU。值得注意的是，这五个SKU中有四个都配备了高达500W的TDP（热设计功耗），这在CPU中是前所未有的。
在这里插入图片描述
另一个有趣的部分是Intel Xeon 6960P，它拥有72个核心，与NVIDIA Grace Hopper CPU的CPU部分相同。Intel采用了同步多线程技术，因此它实际上是72核心/144线程的，但这也为Intel提供了每核心约6MB的L3缓存和更高的时钟速度。
在这里插入图片描述
现在来看看芯片，这是Intel Xeon 6980P的lscpu输出，它是双插槽配置中的顶级128核心/256线程SKU。如您所见，系统拥有超过1GB的L3缓存和大量核心。

同时，由于硅片的构造方式，我们预计这些系统中的许多将作为三个NUMA节点运行。
在这里插入图片描述
Intel将其内存控制器放在与核心相同的物理芯片或计算块上。因此，将内存访问本地化到这些块上可以获得更好的性能。

这也产生了一种有趣的拓扑结构，因为其中两个SNC3 NUMA节点有43个核心，而另一个有42个核心。Intel有一个120核心的SKU，可能在产量和平衡性方面更受欢迎。不过，如果Intel采用3x43块的设计来制造一个129核心的CPU，仅仅作为营销SKU来宣称它有129个核心（比AMD多一个），那将是非常酷的。
在这里插入图片描述
当您查看核心到核心的延迟图时，可以很容易地看到这种块结构。尽管这张图在压缩后可能看起来难以阅读，但请知道这是128核心的超线程关闭版本。512线程的双插槽版本运行了很长时间，但更像是一张视力测试图。
在这里插入图片描述
上述行为可以通过Intel的设计来解释，即将三个大型计算块和两个I/O芯片放在同一块芯片上。

Intel之所以能够重返AMD顶级产品的轨道，并与AMD的下一代Turin产品竞争，部分原因在于它采用了新的工艺技术。Intel 3用于计算芯片，该芯片还包含其内存控制器，而Intel 7则用于包含UPI、PCIe和加速器的I/O芯片。
在这里插入图片描述
AMD在2019年凭借Rome领先，部分原因是采用了小芯片设计，部分原因是Intel的10nm技术严重延迟。随着Intel的工艺技术迅速改进，我们现在将看到更多其芯片。Intel现在通过更先进的EMIB封装技术连接小芯片。

然而，Intel在这一代产品中的转变非常显著。Intel不再只关注由公司内置加速器加速的工作负载，而是拥有了一款可以与AMD在原始CPU性能上正面竞争的巨型芯片，同时还内置了加速器。

然而，Intel最大的特点之一是将这些内存控制器集成到计算块中，并提供非常快速的内存选项。

英特尔至强6900 P内存子系统是FAST

Intel Xeon 6900P拥有极为出色的内存子系统。首先，我们来谈谈DDR5-6400。这是DDR5-6400 64GB RDIMM的正面外观。
在这里插入图片描述
这一代的新产品是MRDIMM。这是其正面的外观：

在两侧，您都会注意到底部的缓冲芯片，这些芯片使MCR DIMM/MRDIMM能够工作。在这里，DIMM能够同时从两个rank读取数据，所以MRDIMM能够实现高达8800MT/s的传输速率，高于6400MT/s。
在这里插入图片描述
这里需要注意一点，配备P核心的Xeon 6的MRDIMM实际上是MCR DIMM，这两个概念在很大程度上是相似的，这里就不细说了，某种程度上说明了产品已经达到了一个新的水平。

为了让您对平台带宽有所了解，这里有一个使用DDR5的STREAM测试结果。这是128核版本的测试结果。扩展到两个插槽时，带宽大约是我们预期的两倍，这些数字相当惊人。
在这里插入图片描述
为了给您一个参考，NVIDIA将其Grace CPU宣传为拥有巨大的内存带宽。这是一个GH200系统的Grace部分，拥有480GB内存：将这个STREAM Triad数字翻倍，我们得到大约660GB/s的带宽，这是一个拥有144核和960GB内存的完整Grace超级芯片。
在这里插入图片描述
现在，Intel正在逼近这一水平，其解决方案的优势在于您可以自定义DIMM配置。而且，从当前水平来看，还有进一步提升的空间。

英特尔P-Core与E-Core的巨大差距

几十年来，Xeon发生的最大变化在于，这是主流插槽中首次真正引入两种不同的核心架构。

性能核心（P-cores）旨在提供每线程最大性能。如果您拥有每核心授权软件、高性能计算（HPC）应用、大型昂贵的AI服务器等，那么您会需要P-core CPU。而高效核心（E-cores）则是为那些需要存在但更适合追求能效以节省成本的工作负载而设计的。
在这里插入图片描述
这个分类大致准确，但虚拟化方面应特别区分。一个目标市场是云CSPs，他们希望以较低成本提供2-8个vCPU的客户实例。如果您的虚拟化理念是基于VMware或Microsoft Windows Server的按核心和按插槽授权方式，那么您可能会选择P-cores，从而错过E-cores在效率方面的优势。
在这里插入图片描述
尽管两者具有许多相似功能，但E-cores不支持AVX-512和AMX。P-cores则配备了大量加速技术。

P-core Redwood Cove是桌面端的Meteor Lake代P-core。E-core“Crestmont”则是Meteor Lake代的E-core。当然，这有点过于简化，但随着Intel推出Lunar Lake，我们希望让大家了解新芯片与桌面端产品的对应关系。
在这里插入图片描述
当我们提到E-core时，可能会想到Atom。但请不要认为它是超级慢的核心，而应该将其视为接近Intel Xeon E5 V4核心级别或第五代Xeon Emerald Rapids线程的性能。

然而，P-cores的发展也远未结束。我们现在有了Intel Xeon 6900P系列，最多可达128个核心、12个内存通道，并支持使用MCR DIMMs/MRDIMMs。MRDIMMs/MCRDIMMs将使这款新芯片的带宽与Intel Xeon Max相媲美，但无需降低板载HBM的容量。同样重要的是，新一代P-core CPU的核心数量是上一代的两倍。
在这里插入图片描述
虽然Intel Xeon 6900P系列是大型插槽P-core处理器，但2025年我们将看到大型插槽Intel Xeon 6900E“Sierra Forest-AP”，最多可达288个E-cores。

英特尔至强6平台

英特尔Xeon 6支持在64条CXL支持的通道上运行CXL 2.0的Type 1、Type 2和Type 3设备。
在这里插入图片描述
不过，对于CXL Type 3设备，P核心变体在两个插槽中均支持交错内存选项，而E核心变体则不支持。CXL异构交错模式非常有趣，它能让您拥有大约8个额外的内存带宽通道，并在一个巨大的内存池中同时运行DIMM和CXL内存模块，带宽跨所有模块分配。但Sierra Forest并不具备这一功能，CXL内存只能作为自己的NUMA节点或硬件辅助的平面内存模式。
在这里插入图片描述
在本代产品中，Type-3设备作为内存扩展的驱动器，将极大地推动CXL的采用。在平面内存模式下，英特尔可以获得更大的内存容量，且成本可能更低。

CXL还有一个额外的优势。如果您是拥有大量DDR4工作内存模块的超大规模客户，那么您可以使用兼容的CXL DDR4控制器卡，并通过类似上述的方法将内存模块插入DDR5服务器。
在这里插入图片描述
我们最近看到了Marvell的Structera，它可以处理多达12个DDR4 DIMM，因此它们可以用作DDR5服务器的CXL 2.0内存池。对于拥有大量即将淘汰DDR4内存的超大规模数据中心来说，即使只有1/3的内存是从上一代回收的，这也能成为节省成本的重要来源。
在这里插入图片描述

Intel Xeon 6980P性能

Python Linux 4.4.2内核编译基准测试
任务很简单：我们有一个标准配置文件，来自kernel.org的Linux 4.4.2内核，并利用系统中的每个线程进行标准自动生成配置。为了方便阅读，我们以每小时编译次数来表示结果。
在这里插入图片描述
这个测试非常有趣。在工作负载中，存在短暂的单线程段。我们几年前发现，随着核心数量的增加，通过将工作负载拆分成多个并行运行的实例，每小时可以完成更多的编译。新的Xeon 6980P拥有大量核心、缓存和内存带宽，因此在这方面表现良好。我们或许可以通过将工作负载拆分为42/43核心的实例来与芯片结构对齐，从而获得更好的性能，但这次评测时间有限,后期有机会再分享。

c-ray 1.1性能
它是一个光线追踪基准测试，在多线程工作负载下展示处理器差异方面非常受欢迎。
我们以前认为8K渲染尺寸已经足够了，但现在为了看到差异，我们需要更大的尺寸，但这样会失去保真度。
在这里插入图片描述
当我们谈论新款芯片速度之快，足以同时运行多个工作负载时，这是一个很好的例子。

nginx CDN性能
在nginx CDN测试中，我们使用了一个旧的快照和网站的访问模式，禁用了DRAM缓存，以展示从磁盘检索数据的性能。这需要nginx具有低延迟操作，以及额外的低延迟I/O访问步骤，这在服务器级别上非常有趣。以下是快速分布情况：
在这里插入图片描述
我们在这里看到了一个熟悉的模式。但需要注意几件事。英特尔CPU表现很好。但我们没有为OpenSSL和nginx使用英特尔的QAT卸载功能。如果你不想使用加速功能，那么这是一个不错的结果。但如果你愿意使用加速器，那么这不是最理想的选择，因为有一些硅加速器没有被利用。这就像不使用GPU或NPU进行AI加速一样。

STFB KVM虚拟化测试
这是一个基于KVM虚拟化的工作负载，我们的客户端正在测试在目标SLA下完成工作的同时，在给定时间可以有多少虚拟机在线。每个VM都是一个独立的工作者。就其功能而言，这非常类似于VMware VMark，只是使用KVM更通用。
在这里插入图片描述
尽管英特尔的E核在这里表现良好，但具有超线程技术的P核帮助很大，这也是这款新芯片表现如此出色的原因。

英特尔至强6900 P的英特尔性能视图
通过核心数翻倍，英特尔可以将其性能翻倍，并从架构改进中获得更多优势。值得注意的是，尽管TDP从385W增加到500W，但通过核心数和性能翻倍，其效率大大提高。
在这里插入图片描述
英特尔在这里进行了一个非常有趣的基准测试。乍一看，你可能会认为这是64核EPYC Genoa与96核Xeon Granite Rapids-AP的比较，但实际上，英特尔使用的是16个vCPU虚拟机，并在其他核心利用率约为50%的情况下测量性能。因此，这是16个vCPU与16个vCPU的比较，只是使用了不同的部件。如果英特尔使用96核EPYC Genoa与96核Xeon进行比较，从表面上看可能会更好，但那样就会使用顶级与非顶级部件进行比较，从而扭曲TDP/核心的比例。
在这里插入图片描述
英特尔不仅有VNNI，还有AMX用于AI加速，因此在AI推理方面表现非常出色。

许多HPC工作负载是内存密集型而非计算密集型，这时拥有快速的DDR5-6400和8800MT/s MRDIMMs就非常有帮助。简单地增加核心数并配备12条更快的DDR5内存通道，确实对英特尔有很大帮助。
在这里插入图片描述

英特尔至强6980 P电源简介

在整机测试中，每个CPU可以使用500W的功率，再加上24个DDR5内存条的120W或更多功耗，以及存储和其他板载组件的几瓦功耗，不加冷却系统的情况下，总功耗约为1.2kW。但新系统的一个显著变化是移除了PCH（平台控制器中心），这减少了10W+的功耗，并且该部件不再直接安装在主板上。然而，根据机箱尺寸的不同，风扇可能会额外增加10-20%的功耗，因此双插槽服务器的功耗范围将是1.3-1.6kW，这还不包括附加卡和存储设备的功耗。如果再加上一个100W+的NVIDIA BlueField-3 DPU，功耗会进一步增加。
在这里插入图片描述
英特尔做了一件很棒的事情，那就是展示了CPU在低于100%负载下的功耗情况。大多数服务器CPU都不会以100%的负载运行。事实上，对于大量工作负载来说，你并不希望CPU以100%的负载运行，因为这会导致更高的延迟、数据包处理速度变慢等问题。大多数云实例的CPU利用率都非常低（低于25%）。因此，在虚拟化集群中，大多数CPU在任何给定时间的实际负载都远低于50%。在此背景下，英特尔展示了在30-70%的利用率范围内，其芯片可以实现高达1.9倍的每瓦性能提升。虽然每个插槽的芯片功耗可能更高，但每个插槽的核心数翻倍而TDP（热设计功耗）没有翻倍意味着我们可以获得更高的能效。
在这里插入图片描述

市场影响

如果你想要更高效的电源来运行Web服务器，那么Sierra Forest是最佳选择。如果你想要一个存储服务器，那么你可能会购买上一代CPU，或者等待第一季度推出的小型插槽P核CPU和R1S配置。
在这里插入图片描述
从上面的图片中你可以看到，即将推出的18A Clearwater Forest CPU的图像已经曝光，我们预计其中的E核CPU将非常吸引人。然而，从原始性能的角度来看，拥有128个核心的英特尔至强6900P表现卓越，并暂时夺得了性能桂冠。当然，AMD表示将在2024年下半年推出Turin，因此我们离AMD的现代产品并不远。无论如何，英特尔将使用相同的核心数量和更可比拟的工艺技术与之竞争，而不是像过去五年那样，在核心数量上落后50%甚至更多，且工艺技术也更为陈旧。
在这里插入图片描述
有趣的是，由于核心数量较少，英特尔将重点放在了AI推理加速的AMX、以及Ubuntu默认支持的QuickAssist加密和压缩等功能上。

对于那些需要更多推理能力的用户，英特尔今天还推出了其Gaudi 3 AI加速器。

另一个重大变化是，英特尔还表示其产品对NVIDIA的头节点也有优势。
在这里插入图片描述
在AI行业中，尽管AMD的EPYC处理器在核心数量上曾经相对于Intel有显著优势，但在大规模HGX H100部署中，Intel的第五代Xeon Emerald Rapids处理器因其内存控制器和I/O芯片配置的优势而极受欢迎，即使其核心数量较少。这一优势预计将在未来的Granite Rapids处理器中得到保持，而AMD在核心数量上的优势将不再那么明显。同时，大多数AI服务器都会为每个CPU配备四块GPU。

最后

Intel Xeon 6引入了包括P核、E核、8通道或12通道内存配置、不同类型的内存、加速器等复杂的工艺技术。但归根结底，传达的信息很简单：Intel回来了。新的工艺和封装技术让Intel能够与AMD在核心竞争力上重新一较高下。AMD的Turin系列也即将推出，我们将再次回到讨论架构和加速器的时代。未来的争论将不再是64个EPYC核心对阵28个Xeon核心，或96个EPYC核心对阵64个Xeon核心,Intel已经重返战场。
在这里插入图片描述
目前，Intel终于解决了其核心数量的问题，同时还提供了AMX、QAT等加速技术，以及高端DDR5和MRDIMM（MCR DIMM）解决方案，以满足大内存带宽的需求。自失去10nm和Ice Lake的工艺领先地位后，Intel失去了其在高端市场的优势。但随着制造和封装技术的改进，Intel已经重返战场。欢迎Intel归来！