第3章 CPU微架构

高性能计算工程师

已于 2023-09-14 18:57:26 修改

阅读量575

点赞数 1

分类专栏：现代CPU性能分析与优化 Bakhvalov 文章标签：性能优化计算机体系结构并行计算

于 2023-08-18 23:00:00 首次发布

本文链接：https://blog.csdn.net/weixin_47955824/article/details/132332933

版权

现代CPU性能分析与优化 Bakhvalov 专栏收录该内容

12 篇文章 7 订阅

订阅专栏

3.1 指令集架构

指令集ISA是软件用来与硬件通信的词汇集合，定义了软件和硬件之间的通信协议。Intel x86、ARM v8、RISC-V是当今广泛使用指令集架构的实例。ISA开发者通常要确保符合规范的软件能在使用该规范构建的任何处理器上执行。广泛部署的ISA组织通常还要保证向后兼容性以便第X代版本处理器编写的代码能够继续在第X+i代上运行。

除了提供标量访存、标量计算和控制指令之外，广泛部署的架构还在继续增强ISA以支持新的计算范式，包括增强的向量处理指令和矩阵/张量指令。

随着深度学习领域的快速发展，业界对其他数字格式变量驱动的显著性能提升重新产生了兴趣。研究表明，在使用更少的位来表示变量、节省算力和内存带宽方面，深度学习模型表现同样出色。

3.2 流水线

流水线是加快CPU速度的基础技术，其中多条指令在执行过程中可以重叠。简单5段流水线：取指、译码、执行、访存、写回。（寄存器重命名、发射、去操作数、提交）

很多现代CPU都是深度流水线化的。流水线的吞吐量定义为单位时间内完成和退出流水线的指令数。任何给定指令的延迟是指经过流水线所有阶段的总时间。将指令从一个阶段移动到另一个阶段所需的时间定义为CPU的基本时钟周期或时钟。流水线运行的时钟周期数通常由流水线最慢的阶段决定。理想流水线中每条指令的执行时间由下式给出：
流水化后每条指令的执行时间=非流水情况/流水阶段数

实际中的流水线会引入几个约束：结构冒险、数据冒险和控制冒险。幸运的是，程序员不需要应对流水线冒险，在现代单核CPU中所有类别的冒险都是由硬件控制的。

结构冒险由资源冲突引起，可以通过复制硬件资源（多端口寄存器）来消除，代价是硅面积和功耗方面的成本会很高昂。

数据冒险中WAW和WAR可以通过寄存器重命名来避免，RAW可以通过旁路网络来减轻损失。

控制冒险由程序执行流程的变化而导致的。它们产生于流水线分支指令和其他更改程序流程的指令。决定分支方向的分支条件在流水线的EXE阶段才能见分晓。因此，除非消除控制冒险，否则下一条指令的获取不能被流水线化。不过可以用动态分支预测和投机执行来克服该冒险。

3.3 利用指令级并行

因为程序中大多数指令是独立的，所以适合流水线化和并行执行。

3.3.1 乱序执行

乱序执行主要用于避免因为依赖而引起的流水线停顿。指令的动态调度是通过复杂的硬件结构（记分板）和诸如寄存器重命名之类的技术实现的。记分板的大小决定了硬件在调度此类独立指令时可以提前多长时间进行。

3.3.2 超标量引擎和超长指令字

目前CPU的典型发射宽度为2~6。为了保证恰当的平衡，这种超标量引擎还支持多个执行单元和流水线执行单元。CPU的多发射功能与深度流水线和乱序执行功能相结合，以获取软件给定片段的最大ILP。

Intel Itanium等架构使用VLIW，将调度超标量和多执行单元处理器的负担从硬件转移到编译器。基本原理在于要求编译器选择正确的指令组合使得机器被充分利用，从而简化硬件。因为硬件受制于指令窗口长度的限制，而编译器可以获取全局信息。

3.3.3 投机执行

如果指令在分支条件得到确定之前停顿，控制冒险可能会导致流水线中显著的性能损失。硬件预测分支逻辑是一种避免这种性能损失的技术。

在条件结果得以明确之前，无法提交对机器状态的修改，以确保机器的架构状态永远不受投机执行指令的影响。当预测错误时，投机执行的结果必须被制止和丢弃，即分支预测错误惩罚。

3.4 利用线程级并行

硬件多线程CPU支持专用硬件资源以独立地跟踪CPU中每个线程的状态，目的是线程由于长时延活动（如内存引用）而被阻塞时，以最小的延迟从一个上下文切换到另一个上下文（不会产生保存和恢复线程上下文的成本）。

同步多线程SMT将指令级并行技术和多线程技术相结合，以最大限度地利用硬件资源。来自多个线程的指令在同一时间周期内执行。为了支持SMT，CPU必须复制硬件来存储线程状态（程序计数器、寄存器等），跟踪乱序执行和投机执行的资源可以在线程间复制或分段共享。

3.5 存储器层次

CPU存储器层次划分基于两个基本特性：时间和空间局部性。

3.5.1 高速缓存层次

高速缓存是CPU流水线发出访存时的存储器层次中的第一级。理想情况下，流水线在具有最小访问延迟和无限容量缓存时表现最佳。实际上高速缓存访问时间随容量的增加而增加。因此，高速缓存被组织为最接近执行单元的小型快速存储块的层次结构，且由更大、更慢的块进行备份。

高速缓存由多个确定大小的块（缓存行）组成，典型大小为64字节。L1大小通常在8KB~32KB，而LLC大小通常在64KB~16MB。任何层级的高速缓存的架构都可以由以下4个属性定义：

3.5.1.1 高速缓存中数据的放置

内存访问请求中的地址可以用来访问高速缓存。在直接映射中，内存块的地址只能出现在高速缓存中的一个位置。在全相联中，给定的缓存块可以放在高速缓存的任何位置。在组相联中，给定地址首先映射到一个组中，该地址可以映射在组中的任何位置。

3.5.1.2 在高速缓存中查找数据

address：标签索引块偏移量

地址中的最低顺序位定义了块内偏移量，组则是基于索引位来选择，一旦组被选定，就可以使用标签位来与该组中的所有标签进行比较。如果其中一个标签与传入请求的标签匹配并且设置了有效位，则缓存命中。与该块条目相关联的数据被提供给流水线。如果不匹配，则缓存未命中。

3.5.1.3 管理缓存未命中

当发生高速未命中，控制器必须在缓存中选择要替换的块，以分配给导致缓存未命中的地址。直接映射只能分配一个位置，组相连可以分配组内任何位置，全相联可以分配所有位置。不过组相连和全相连一般会使用LRU策略来释放缓存块，为未命中地址腾出缓存空间。

3.5.1.4 管理写操作

CPU设计使用2种基本机制来处理高速缓存中的缓存命中写入操作：
1. 写直达：命中的数据同时写入缓存块和层次结构中较低的层级。
2. 写回：命中的数据只写入缓存。因此层次结构较低层级中就会包含过期数据，修改后的缓存行的状态通过标签中的脏标识来追踪。当修改后的缓存行最终被从缓存行中驱逐时，写回操作会强制将缓存行写回层次结构的较低层级中。

写入操作时的高速缓存未命中可以通过2种方式处理：
1. 写分配：未命中位置的数据从层次结构中较低层级加载到高速缓存中，随后像写入命中情况一样处理剩余写入操作。
2. 写不分配：未命中事务直接被发送到层次结构中所有的较低层级，并且缓存块不会被加载到高速缓存中。

大多数设计写分配+写回，写不分配+写直达策略。

3.5.1.5 其他高速缓存优化技术

从流水线的角度来说，任何访问请求的延迟都可以由以下公式计算出来：
平均延迟 = 命中时间 + 未命中比例 * 未命中时间；

未命中比例高度依赖缓存的架构（块大小、关联性）以及运行在机器上的软件。

硬件和软件预取：减少缓存未命中以及后续停顿的方法之一，提前将指令和数据预取到高速缓存层次的不同层级。

硬件预取器观察正在运行的应用程序的行为，并基于重复的高速缓存未命中规律启动预取。硬件预取技术可以自动适应程序行为，并且不需要优化编译器或者剖析功能的支持。另外，硬件预取也不会有额外的地址生成和指令预取开销。

软件预取是对硬件预取的补充，开发者可以通过特定的硬件指令提前指定需要的内存位置。编译器还可以自动将预取指令添加到代码中。预取技术需要平衡实际需求和预取请求，以避免预取流量挤压实际需求流量。

3.5.2 主存

主存使用大容量且成本合适的DRAM技术，主要属性定义为延迟、带宽和容量。延迟包括2部分：
1. 内存访问时间：请求到数据可用时所消耗的时间。
2. 内存周期时间：两个连续的内存访问之间所需的最短时间。

历史上，DRAM带宽每一代都得到提升，而延迟保持不变，甚至更高。

新的DRAM技术，GDDR和HBM在需要更大更宽的定制处理器上使用，所以不被DDR接口支持。

现代CPU支持多个独立通道的DRAM。一般而言，每一个内存通道的宽度是32位或者64位。

3.6 虚拟内存

虚拟内存是让所有运行在CPU上的进程可以共享属于物理内存的机制。虚拟内存提供一种保护机制，可以限制其他进程对分配给指定进程内存的访问。虚拟内存还提供重定位机制，即能将程序加载到物理内存的任意位置而无需改变程序内寻址方式。

虚拟地址由提供虚拟地址和物理地址之间映射的专用硬件表翻译成物理地址，这些表被称为页表。

虚拟地址：虚拟页编号页偏移量

其中虚拟页编号通过页表被转换为物理地址。如果请求的页不在主存内，则会导致缺页问题。

CPU通常使用层级结构的页表格式将虚拟地址位有效地映射到可用的物理内存，缺点是缺页代价很高，需要遍历整个层级结构。为了减少地址翻译时间，CPU支持TLB的硬件结构来缓存最近使用过的翻译。

3.7 SIMD多处理器

向量和矩阵计算都非常适合SIMD架构，因为向量或矩阵的每个元素都需要使用相同的指令进行处理。SIMD多处理器主要用于数据并行并且只需要少量功能和操作的特殊用途任务。MMX-SSE-AVX。起初，新的SIMD指令以汇编的方式编程。后来，引入了特殊的编译器内建函数。

3.9 性能监控单元

现代CPU包含性能检测单元PMU，PMU有一组性能监控计数器PMC，用以收集程序运行过程中发生的各种性能事件。

PMU提供固定功能计数器以及可编程计数器。固定功能计数器总是测量CPU核内的同一事件，而可编程计数器由用户来选择想要测量的事件。通常，每个逻辑核有4个可编程计数器和3个固定功能计数器。固定功能通常被设置为计算核时钟、参考时钟和退休指令。

高性能计算工程师

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
第3章 CPU微架构

地址中的最低顺序位定义了块内偏移量，组则是基于索引位来选择，一旦组被选定，就可以使用标签位来与该组中的所有标签进行比较。如果不匹配，则缓存未命中。硬件多线程CPU支持专用硬件资源以独立地跟踪CPU中每个线程的状态，目的是线程由于长时延活动（如内存引用）而被阻塞时，以最小的延迟从一个上下文切换到另一个上下文（不会产生保存和恢复线程上下文的成本）。指令的动态调度是通过复杂的硬件结构（记分板）和诸如寄存器重命名之类的技术实现的。软件预取是对硬件预取的补充，开发者可以通过特定的硬件指令提前指定需要的内存位置。
复制链接

扫一扫