五段式流水线详解

debug_running_Hu

已于 2024-10-16 22:28:59 修改

阅读量2.3k

点赞数 33

文章标签： linux 运维服务器

于 2024-10-16 22:28:36 首次发布

本文链接：https://blog.csdn.net/weixin_49342084/article/details/142993179

版权

五段式流水线指的是将指令执行过程分解成五个阶段的流水线。每个阶段负责指令执行流程中的一个子任务，多个指令可以同时处于不同的执行阶段，从而提高指令的吞吐率。这五个阶段通常是：

取指 (IF: Instruction Fetch): 从指令存储器中读取下一条指令，并将其放入指令寄存器 (IR)。这涉及到计算下一条指令的地址（通常是当前指令地址加4，或者根据分支指令的结果调整），然后访问内存获取指令。
指令译码 (ID: Instruction Decode): 对取到的指令进行译码，确定指令的操作码、操作数以及操作数的地址。这阶段会读取寄存器文件，获取操作数的值，或者计算操作数的有效地址 (EA)。同时，还会进行一些预处理，例如检查指令的合法性。
执行 (EX: Execute): 执行指令的操作。这取决于指令类型：算术逻辑运算指令在此阶段执行运算；内存访问指令在此阶段计算内存地址；分支指令在此阶段判断分支条件是否满足。
访存 (MEM: Memory Access): 如果指令需要访问内存 (例如 load 和 store 指令)，则在此阶段进行内存读写操作。 load 指令从内存读取数据到数据寄存器；store 指令将数据寄存器中的数据写入内存。其他类型的指令则跳过此阶段。
写回 (WB: Write Back): 将计算结果写入寄存器文件或内存。例如，算术逻辑运算指令的结果写入寄存器；load 指令从内存读取的数据写入寄存器。

流水线工作原理:

想象一下五个工人组成的流水线，组装汽车。每个工人负责一个步骤：

工人1：安装车轮
工人2：安装车门
工人3：安装引擎
工人4：安装座椅
工人5：进行最终检查

当工人1安装完第一辆车的车轮后，他立刻开始安装第二辆车的车轮，而工人2则开始安装第一辆车的车门，依此类推。这样，多个汽车可以同时处于不同的组装阶段，提高了组装效率。

流水线也类似，当第一条指令完成取指阶段后，第二条指令开始取指，第一条指令进入指令译码阶段，以此类推。多个指令在流水线中同时执行不同阶段的任务，从而提高了指令的吞吐率。

流水线 Hazards (冲突):

流水线并非完美无缺，会面临一些冲突：

* 数据冲突

是流水线执行中的一种常见问题，它发生在一条指令依赖于前面一条指令的结果，而前面指令的结果尚未写回寄存器文件或内存时。这会导致指令读取到错误的数据，从而产生错误的结果。数据冲突主要分为三种类型：

1. RAW (Read After Write): 读后写冲突。这是最常见的数据冲突类型。它发生在一条指令读取一个寄存器或内存位置的值，而前面一条指令正在写入同一个寄存器或内存位置。

例子:

指令1: ADD R1, R2, R3  ; R1 = R2 + R3
指令2: SUB R4, R1, R5  ; R4 = R1 - R5

如果指令1和指令2紧密相邻，指令2可能会在指令1将结果写回R1之前就读取R1的值。这会导致指令2使用R1的旧值进行计算，产生错误的结果。

解决方法:
- 数据转发 (Data Forwarding): 这是最有效的方法。当检测到RAW冲突时，处理器会直接将指令1的结果从执行阶段或访存阶段转发到指令2的执行阶段，而无需等待指令1完成写回阶段。这避免了暂停流水线。
- 暂停 (Stalling): 如果数据转发无法实现，或者处理器无法检测到数据冲突，则需要暂停流水线。暂停是指将指令2停留在取指或译码阶段，等待指令1将结果写回寄存器文件后，再继续执行。这会降低流水线的效率，但保证了结果的正确性。

2. WAR (Write After Read): 写后读冲突。它发生在一条指令写入一个寄存器或内存位置，而前面一条指令已经读取了该位置的值。

例子 (较为少见，因为编译器通常会优化):

指令1: MOV R1, R2  ; R1 = R2
指令2: ADD R2, R3, R4 ; R2 = R3 + R4

在某些情况下，指令2可能会在指令1将R2的值写入之前读取R2的值。这会让指令2使用旧值R2计算，虽然结果不一定错，但它不是预期的结果。

解决方法: WAR冲突通常可以通过编译器的重排序来避免。编译器会调整指令的顺序，避免出现WAR冲突。处理器通常不需要特殊处理WAR冲突。

3. WAW (Write After Write): 写后写冲突。它发生在两条指令都写入同一个寄存器或内存位置。

例子 (同样，编译器通常会优化):

指令1: ADD R1, R2, R3 ; R1 = R2 + R3
指令2: SUB R1, R4, R5 ; R1 = R4 - R5

指令2的结果会覆盖指令1的结果。虽然这本身不是错误，但最终结果只保留了指令2的结果，指令1的计算是无效的。

解决方法: WAW冲突通常也通过编译器的重排序来避免，或者通过处理器处理，保证指令按照程序顺序写入。

控制冲突

也称为分支冲突 (Branch Hazard)，发生在当处理器遇到分支指令（例如 if 语句、jump 指令、函数调用等）时，在分支条件判断结果出来之前，流水线已经取指并执行了后续指令。由于分支指令改变了程序的执行流程，这些已经取指的后续指令可能实际上并不需要执行，导致执行错误或浪费计算资源。

控制冲突的根本原因在于指令的执行顺序的不确定性。在分支指令执行之前，处理器无法知道分支是否会发生，因此它必须预测分支的结果，并根据预测结果继续执行后续指令。如果预测错误，则需要采取措施来纠正错误。

控制冲突的类型:

虽然没有像数据冲突那样明确的分类（如RAW、WAR、WAW），但我们可以根据分支指令的类型和预测结果，将控制冲突分为以下几类：

条件分支: if 语句等，需要根据条件判断结果决定跳转到哪个地址。预测错误的概率较高。
无条件分支: goto、jump 等，总是跳转到指定的地址。预测错误的概率为零。
函数调用和返回: 类似于无条件分支，但涉及到堆栈的操作。

解决控制冲突的方法:

主要的解决方法有：

预测分支 (Branch Prediction): 这是最常用的方法。处理器使用各种预测技术来预测分支的结果，例如：
- 静态预测: 编译器或处理器根据分支指令的统计信息进行预测，例如总是预测分支不发生，或根据历史数据预测。这种方法简单，但精度较低。
- 动态预测: 处理器根据运行时的分支历史信息进行预测，例如使用分支预测缓冲区 (Branch Prediction Buffer, BTB) 记录最近分支的执行情况。这种方法精度较高，但需要额外的硬件资源。常见的动态预测技术包括：
  - 1-bit预测器: 记录上一次分支是否发生。
  - 2-bit预测器: 使用两个比特来记录分支的历史，可以更准确地预测分支行为。
  - n-bit预测器: 使用更多比特来记录分支历史，进一步提高预测精度。
  - 分支目标缓冲区 (BTB): 存储最近分支的目标地址。
延迟槽 (Delay Slot): 在分支指令之后插入一个或多个指令，这些指令无论分支是否发生都会被执行。编译器会尝试将一些对分支结果无关的指令放到延迟槽中，以减少预测错误的影响。延迟槽的数量取决于流水线的阶段数。
暂停 (Stalling): 当预测错误时，最简单的办法是暂停流水线，直到分支结果确定后，再重新取指正确的指令。这会严重降低性能。通常作为其他方法的补充，用于处理预测失败的情况。
分支预测与回滚机制 (Speculative Execution with Rollback): 处理器在分支预测之后，会执行后续指令，但这些指令的结果只是暂时的，并不会立即写入寄存器文件。如果预测错误，处理器会回滚，丢弃这些错误的结果，并从正确的地址重新开始执行。这需要额外的硬件支持，以跟踪指令的执行状态，以便回滚。

预测错误处理:

当分支预测错误时，处理器需要采取措施来恢复正确的执行状态。这包括：

丢弃错误预测的指令结果: 这些指令的结果不应该写入寄存器文件或内存。
冲刷流水线 (Flush Pipeline): 将流水线中的所有指令清除，重新从正确的地址开始取指。
回滚 (Rollback): 将处理器状态回滚到预测之前的状态。

结构冲突

发生在当多条指令同时需要访问同一个硬件资源时，导致这些指令无法同时执行。这不同于数据冲突，数据冲突是由于指令之间的数据依赖关系导致的，而结构冲突是由于硬件资源的限制导致的。

导致结构冲突的硬件资源限制：

结构冲突的根本原因是硬件资源的有限性。常见的导致结构冲突的硬件资源包括：

内存: 如果多条指令同时需要访问内存（例如，读写操作），而内存只有一个端口，或者端口数不足以满足同时访问的需求，就会产生结构冲突。这尤其在多条指令同时需要访问同一内存地址时更加明显。
ALU (算术逻辑单元): 如果多条指令同时需要使用ALU进行算术或逻辑运算，而处理器只有一个ALU或ALU的数量不足，就会产生结构冲突。
寄存器文件: 虽然现代处理器通常具有多端口寄存器文件，但如果指令同时读写同一寄存器，或者同时读写数量超过寄存器文件端口数量的寄存器，也会产生结构冲突。
总线: 如果多条指令同时需要访问同一个总线（例如，内存总线），就会产生结构冲突。
其他功能单元: 例如，浮点运算单元 (FPU)、内存管理单元 (MMU) 等，如果多条指令同时需要访问这些单元，也会产生结构冲突。

解决结构冲突的方法:

解决结构冲突的主要方法是增加硬件资源或改进硬件设计：

增加硬件资源: 这是最直接的解决方法，例如：
- 多端口内存: 增加内存的端口数量，允许多条指令同时访问内存。
- 多个ALU: 增加ALU的数量，允许多条指令同时进行算术或逻辑运算。
- 多端口寄存器文件: 增加寄存器文件的端口数量，允许多条指令同时读写寄存器。
- 多条总线: 增加总线数量，减少总线竞争。
改进硬件设计: 一些设计上的改进也可以减少结构冲突：
- 流水线设计优化: 精心设计流水线的各个阶段，避免多个阶段同时竞争同一资源。
- 资源共享: 设计更有效的资源共享机制，允许多个指令共享同一资源，但避免冲突。
- 指令调度: 编译器或处理器可以对指令进行重排序，以减少对同一资源的竞争。

结构冲突与其他冲突的区别:

与数据冲突和控制冲突不同，结构冲突是硬件资源的限制造成的，而不是程序本身的逻辑问题。数据冲突和控制冲突可以通过软件或硬件技术（例如数据转发、分支预测）来解决，而结构冲突的解决主要依赖于硬件改进。

例子:

假设一个处理器只有一个ALU，现在有两条指令同时需要使用ALU：

指令1: ADD R1, R2, R3
指令2: SUB R4, R5, R6

这两条指令同时需要ALU进行加法和减法运算，就会发生结构冲突。解决方法是增加一个ALU，或者采用其他设计手段（例如，指令调度）来避免同时访问ALU。

例题1：

让我们假设一个五级流水线：取指(IF)、译码(ID)、执行(EX)、访存(MEM)、写回(WB)。我们也假设寄存器文件可以同时读和写，且没有数据转发。考虑以下指令序列：

I1: ADD R1, R2, R3   ; R1 = R2 + R3
I2: SUB R4, R1, R5   ; R4 = R1 - R5
I3: MUL R6, R4, R7   ; R6 = R4 * R7

由于没有数据转发，I2依赖I1的结果，I3依赖I2的结果。下面是流水线执行的示意图，每个阶段用一个时钟周期完成：

时钟周期	IF	ID	EX	MEM	WB
1	I1
2	I2	I1
3	I3	I2	I1
4		I3	I2	I1
5			I3	I2	I1
6				I3	I2
7					I3

解释:

I1: 在时钟周期1取指，2译码，3执行，4访存(因为ADD没有访存操作，此阶段空闲)，5写回。
I2: 依赖I1的结果，在时钟周期2取指，3译码，4执行，5访存，6写回。注意，I2在执行阶段(EX)需要读取R1的值，但R1的值在I1的WB阶段才写入。由于没有数据转发，I2必须等待I1完成写回，导致I2在EX阶段暂停一个周期。
I3: 类似地，I3依赖I2的结果，其执行阶段也需要等待I2完成写回。

关键点:

没有数据转发: 这导致了流水线停顿(Stalling)。 I2和I3都因为等待前一条指令的结果而停顿。
寄存器同时读写: 虽然寄存器文件可以同时读写，但这并不能解决数据依赖问题。 I1写入R1的同时，I2读取R1，但由于没有数据转发机制，I2读取的是R1的旧值，而不是I1写入的新值。
流水线停顿: 由于数据依赖，流水线在多个时钟周期内出现停顿，降低了效率。实际的处理器会使用数据转发技术来避免这些停顿。

这个例子清晰地展示了在没有数据转发的情况下，数据依赖如何导致流水线停顿，并极大地降低流水线的效率。数据转发正是为了解决这种由RAW数据冲突带来的性能损失。

例题2：

我们考虑另一个包含更多指令的例子，仍然假设五级流水线 (IF, ID, EX, MEM, WB)，寄存器文件可以同时读写，并且没有数据转发机制。以下指令序列展示了更复杂的依赖关系：

I1:  LOAD R1, 1000    ; R1 = Memory[1000]
I2:  ADD R2, R1, R3   ; R2 = R1 + R3
I3:  SUB R4, R2, R5   ; R4 = R2 - R5
I4:  STORE R4, 2000   ; Memory[2000] = R4
I5:  ADD R6, R4, R7   ; R6 = R4 + R7

以下是流水线执行示意图：

时钟周期	IF	ID	EX	MEM	WB
1	I1
2	I2	I1
3	I3	I2	I1
4	I4	I3	I2	I1
5	I5	I4	I3	I2	I1
6		I5	I4	I3	I2
7			I5	I4	I3
8				I5	I4
9					I5

解释:

I1 (LOAD): 需要一个内存访问周期 (MEM)，因此在时钟周期 5 完成写回。
I2 (ADD): 依赖 I1 的结果 (R1)，在 EX 阶段等待 I1 写回。这导致 I2 的执行阶段延迟到时钟周期 6。
I3 (SUB): 依赖 I2 的结果 (R2)，同样需要等待，延迟到时钟周期 7 执行。
I4 (STORE): 依赖 I3 的结果 (R4)，执行和访存阶段也需要等待。
I5 (ADD): 依赖 I4 的结果 (R4)，进一步延迟。

关键的停顿点:

I2 等待 I1 的写回 (WB)。
I3 等待 I2 的写回 (WB)。
I4 等待 I3 的写回 (WB)。
I5 等待 I4 的写回 (WB)。

这个例子比之前的例子更复杂，因为它展示了多个指令之间复杂的依赖关系，以及这些依赖关系如何导致显著的流水线停顿。如果没有数据转发，每个数据依赖都会导致一个或多个时钟周期的停顿，严重降低了流水线的吞吐量。现代处理器使用各种技术（包括数据转发）来最小化或消除这些停顿。这个例子强调了数据转发等优化技术在提升流水线性能方面的关键作用。

总结:

五段式流水线通过将指令执行过程分解成多个阶段，并行执行多个指令的不同阶段，提高了指令的吞吐率。然而，需要通过各种技术来解决流水线中的冲突，以保证指令执行的正确性和效率。现代处理器通常使用比五段式更复杂的流水线结构，以追求更高的性能。