Intel® Xeon® Processor Scalable Family Technical Overview(转译)

本文详细介绍了Intel Xeon Scalable Processor家族的技术特点，包括基于14nm工艺的tock迭代，核心数和内存带宽的增加，引入非包容性缓存，以及Intel AVX-512、Intel MPX和Intel UPI等新特性。 Skylake Mesh Architecture替代了传统的环形架构，通过网格状结构减少了通信延迟并提高了带宽。Intel UltraPath Interconnect (UPI)取代QPI，提供更快的处理器间数据传输。此外，缓存层级变化为非包容性，提高内存效率，Page Protection Keys提供更精细的内存访问控制，增强了安全性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自： https://blog.csdn.net/maokelong95/article/details/78604037

Intel® Xeon® Processor Scalable Family Technical Overview

Note：

Intel® Xeon® Scalable Processors with Intel® C620 Series Chipsets，其前称包括 Purley，Skylake-SP 和 Lewisburg。-- Intel Products & Solutions
本文将 processer family 译作「处理器族」；
本文将 socket 译作「槽」；
原文刊于 2017-09-14，详见 Intel® Xeon® Processor Scalable Family Technical Overview，本文对原文进行了一定的提炼和注释；

文章目录

Intel® Xeon® Processor Scalable Family Technical Overview

Executive Summary

Intel 使用 tick-tock 模型迭代处理器，而本代「Intel® Xeon® Processor Scalable Family」就是基于 14nm 技术的 tock。
在这里插入图片描述

跟上一代「Intel® Xeon® processor E5-2600 v4 product family」（Broadwell 微架构）相比，这一代的新特性包括：

增加了核数
增加了内存带宽
Non-inclusive cache
Intel® Advanced Vector Extensions 512 (Intel® AVX-512)
Intel® Memory Protection Extensions (Intel® MPX)
Intel® Ultra Path Interconnect (Intel® UPI)
Sub-NUMA clusters

前代将 2 / 4 槽处理器族分为两个不同的产品线，而本代只有一个处理器族，其包含所有的处理器模型(即前代两个产品线的处理器模型到本代合并在一个处理器族了)，而槽数由低到高可配置2至8，因特尔旨在满足最广泛的工作负载需求，因此在这一代提供最可扩展和最可靠的性能。

前后三个处理器族系列的对等关系如下图所示：
在这里插入图片描述

不难发现，本代命名采用的是金属系，槽数逐级增加，当然，提供的 features 数量也逐级增加。其中：

铂金（Platinum [ˈplætɪnəm]）支持拓展至 8+ 槽；支持本代所有特性；
金牌（Gold [gəʊld]）支持拓展至 4 槽；
银牌（Silver [ˈsɪlvə®]）支持拓展至 2 槽；
铜牌（Bronze [brɒnz]）同银牌。

微架构概观

本代的提升在于：

on the Purley platform provides up to 28 cores (previous 22)
a non-inclusive last-level cache
Additional improvements include a non-inclusive last-level cache
a larger 1MB L2 cache (previous 256KB)
faster 2666 MHz DDR4 memory
an increase to six memory channels per CPU
new memory protection features
Intel® Speed Shift Technology
on-die PMAX detection
integrated Fabric via Intel® Omni-Path Architecture (Intel® OPA)
Internet Wide Area RDMA Protocol (iWARP)*
Intel® Virtual RAID on CPU (Intel® VROC)
and more.

前后三族处理器对比表：(Broadwell-EX、Broadwell-EP、Skylake)
在这里插入图片描述

特性概观

新特性 / 技术见下表：
在这里插入图片描述

限于时间精力有限，这里仅摘选部分博主比较感兴趣的特性，其余特性请自行查阅原文。

在摘选的部分中：

第一部分谈了新型的片上核心连接架构；
第二部分谈了新平台的 NUMA 拓扑结构；
第三部分谈了新型处理器缓存架构；
第四部分谈了新型页保护算法；

Skylake Mesh Architecture

过去 Grantley 平台上的处理器族（Haswell 和 Broadwell），其处理器、核心、LLC、内存控制器、I/O 控制器及槽间的 Intel® QPI 端口均使用环形架构连接。

然而随着 CPU 中核心数的迭代，访问延迟不断增加，而核心可用带宽不断减小。 intel 为了缓解这个问题，将芯片分为两半，然后引入了第二个环，用于减少路径长及增加带宽。

Broadwell-EP 中的双环架构见下图：
在这里插入图片描述

然而本代单处理器核心数、内存带宽及 I/O 带宽继续增加，片上通信的需求随之增加。倘若此时仍采用落后的环形架构，则可能会导致片上通信成为处理器性能的瓶颈。

因此本代采用了一种新的架构 – 网格架构(Mesh Architecture)，其包含一系列横竖交叉的通信路径，使得两个核心之间能够以最短的路径进行通信。（这很容易理解，前代的通信路径是固定的，沿着环进行，而本代中，需要通信的两片间存在最短路径）

网孔状架构如下图所示：
在这里插入图片描述

本代还以模块化和分布式的方式将 cache agent、home agent 和 I/O subsystem 集成到了网孔上，以消除访问这些功能的瓶颈。

现在每个核心及其 LLC 切片都有一个 combined Cacheing and Home Agent（CHA），该组件为 intel® Ultra Path Interconnect (Intel® UPI) 缓存一致性功提供了资源跨越的扩展性。

除了降低 core-to-cache 和 core-to-memory 的延迟，该架构还降低了 I/O 启动访问的延迟。以前访问 LLC / memory / IO 的资源时，若 source 和 targets 不在同一个环中，则 core 或 I/O 可能会绕环然后经过环间交换器的仲裁。而本代则可直接在网孔中，以最短路径访问 LLC / memory / IO 的资源。

Intel® Ultra Path Interconnect (Intel® UPI)

本代使用 UPI (Ultra Path Interconnect 超速通道互联) 替代了前代的 QPI (QuickPath Interconnect，快速通道互联)。UPI 是一个一致互联组件，用于共享单地址空间的多处理器的可拓展系统，提供高速、低延迟的处理器间数据传输，可达10.4GT/s的速度。支持 UPI 的处理器会提供两到三个这样的通道。

典型的 2 槽 / 4 槽(ring & crossbar) / 8 槽如图所示：

在这里插入图片描述