前言摘录

高性能计算工程师

已于 2024-04-08 09:29:08 修改

阅读量1.3k

点赞数 2

分类专栏：超标量处理器设计姚永斌文章标签：硬件架构计算机结构性能优化并行计算

于 2022-05-10 19:43:56 首次发布

本文链接：https://blog.csdn.net/weixin_47955824/article/details/124694766

版权

超标量处理器设计姚永斌专栏收录该内容

11 篇文章 84 订阅

订阅专栏

目前的通用处理器在指令集方面可分为RISC和CISC。最开始的处理器都是CISC指令集，力求在一条指令内完成很多事情，并且使用尽可能多的指令，覆盖到各种各样的操作，这就可以降低对存储器的需求，并且简化编译器的设计。

当存储器和编译器不在是问题时，RISC产生了。因为80%的CISC指令只在20%的代码被使用，于是将经常使用的20%的CISC指令使用硬件来实现，剩余80%的指令可以使用软件来模拟，简化硬件的设计，也便于使用流水线。

不像可以变化长度的CISC指令，RISC指令采用32位等长方法。降低解码难度，易于流水线的设计。使得RISC指令集有着更高的频率，同时功耗和成本相对也更低。

标量处理器是指：每周期最多只能执行一条指令，它一般都是按照程序中指定的顺序来执行指令，称为顺序执行(in-order)，但是制约了处理器性能的提高。

超标量处理器：一个周期执行多条指令。处理器可以按照程序中指定的顺序来执行，也可以不遵守这个顺序。只要指令的源操作数都准备好了，它就可以被执行，被称为乱序执行(out-of-order)。当然有一些方法使这些乱序执行的指令看起来仍然按照程序中指定的顺序来更改处理器的状态，在超标量处理器中的这些功能注定了它的复杂性，以及更多的硬件资源和更高的功耗，目的就是性能提升。

上述的CISC和RISC、以及scalar和superscalar是相互正交的。产生四种组合：

Scalar CISC：处理器最开始的时候采用的结构，这种结构一般会直接对CISC指令进行解码，甚至可能不使用流水线，目前已逐渐淘汰。

Scalar RISC：这是RISC处理器刚刚出现的时候采用的结构。由于RISC指令集降低了对硬件的要求，并且便于流水线的实现，所以此结构多使用流水线来提高性能，它的主频一般比较高，成本也低。嵌入式低功耗领域的处理器均采用这种结构。

Supercalar RISC：随着对处理器性能需求越来越高，每周期执行一条指令的处理器已经不能满足需求了。为什么首先出现在RISC处理器呢？因为RISC指令集比较规整，便于硬件实现。主要服务于嵌入式的高性能应用领域。

Superscalar CISC：尽管CISC并不容易使用流水线来实现，更难直接使用超标量结构来实现，但是Intel和AMD在处理器内部使用硬件将一条CISC的指令转换为RISC指令，这样充分使用了RISC指令集的优势。当然，比普通的RISC处理器要付出更多的硬件资源，功耗也会偏大。

在上述4种结构中，本文重点关注Superscalar RISC处理器设计。该处理器的流水线则贯穿本书的主线，一条指令从程序存储器中取出来之后，需要经过流水线的各个阶段，最后才能得到结果，并更新处理器的状态。

本书内容按指令的轨迹来组织：

第1章：介绍普通处理器和超标量处理器的一些背景知识。

第2章： Cache，这是由于一般的指令都是从I-Cache中取出来并送到流水线中，因此流水线始于I-Cache。当然，处理器也存在D-Cache。不同结构的Cache对处理器的性能有着重要的影响，尤其在超标量处理器中，每周期需要同时执行多条指令，这给Cache的设计带来一些挑战。

第3章：虚拟存储器(Virtual Memory)，因为处理器在取指令的时候，如果送出来的是虚拟地址，那么首先需要转化为物理地址，然后才能取到指令，对数据的访问也是类似的，虚拟存储器是现代操作系统运行的基础，在处理器中需要软硬件配合工作，才可以对虚拟存储器提供完整的支持。

第4章：分支预测(Branch Prediction)，也是取指令阶段发生的事情，因为超标量处理器的流水线一般比较深，导致分支指令的结果在很晚的时间才可以得到，一旦发现这个结果跟预想的不一样，那么流水线中很多指令都是没有用的，需要抹掉并从正确的地址取指令，这样就降低了处理器的执行效率，因此需要对分支指令使用比较准确的预测算法，从而在取指令阶段就得到可以提前知道分支指令的结果。

第5章：指令集体系(ISA)，一旦指令在从存储器中取出来之后，下一步就需要进行解码，不同的指令集需要不同的解码方式，因此本书在介绍指令的解码之前，首先对基本的RISC指令集进行介绍，这样便于对后续流水线的理解。

第6章：指令解码(Decode)，在超标量处理器中，由于每周期需要对多条指令进行解码，这会引入一些新的问题，比如指令之间的相关性，以及一些复杂指令的处理等，相比于普通的处理器，它的解码过程要复杂一些，但是相比于超标量CISC处理器这种解码过程仍然是比较简单的。

第7章：硬件的寄存器重命名(Register Renaming)，指令经过解码之后，就可以得到它的源寄存器和目的寄存器了，但是为了尽量并行地执行指令，需要消除指令之间存在的假相关性，这些假相关性都是和寄存器的名字相关的，通过使用不同的寄存器名字，可以消除这些相关性，于是在处理器内部使用了数量多于指令集中定义的寄存器，称之为物理寄存器，而指令集中定义的寄存器则称为逻辑寄存器，寄存器重命名的过程就是将逻辑寄存器动态地映射到不同的物理寄存器，以消除指令之间存在的假的相关性，从而使这些指令可以并行执行。

第8章：指令发射(Issue)，当指令经过寄存器重命名后，就可以在处理器内部的功能单元(FU)中执行了。但是为了获得更高性能，超标量处理器多采用乱序执行的方式，只要一条指令的操作数准备好了，即使它之前的指令还没有准备好，它也可以送到FU中执行，这种方式可以最大限度地利用处理器内部的硬件资源，从而提高处理器的执行效率，而发射阶段实现此功能。所有经过寄存器重命名的指令都会放到一个缓存中，这个缓存称为发射队列(Issue Queue)，在其中检测每条指令是否已经准备好了，并按照一定算法，从那些已经准备好的指令中选择合适的指令送到FU中执行，这个过程就成为发射，指令到了这个阶段，就变成乱序执行了。而在此阶段之前，都遵循着程序中指定的顺序。

第9章：指令在功能单元的执行(Execute)，指令被发射之后，就会到相应的FU中开始执行，不同种类的指令需要不同的FU，在超标量处理器中，都会使用多个FU，它们可以并行地执行不同的指令。本章除了介绍常见的FU之外，还会介绍旁路网络(Bypassing Network)，它可以缩短相关指令之间执行的时间，但是却使处理器内部的布线资源变得更复杂，因此现代的一些处理器采用了Cluster结构来缓解这种矛盾，同时，访问存储器的load/store指令也需要一些特殊的方法来加速它们的执行速度。

第10章：流水线最后阶段：提交(Commit)，指令经过FU的执行而得到结果后，并不会马上使用这个结果来对处理器状态进行更新，这是由于指令的执行是按照乱序来进行的，由于分支预测失败(mis-prediction)和异常(exception)等原因，一条指令的结果未必是正确的。而且，为了使程序在处理器内部的执行看起来和程序指定的顺序是一样的(这是串行程序必须的)，也需乱序执行的指令按照程序中指定的顺序对处理器状态进行更新。为了实现这个功能，一条指令在FU中执行完毕后，并不会马上对处理器的状态进行更新，而是先将它的结果写到一个缓存中，这个缓存称为重排序缓存(Reorder Buffer, ROB)。在流水线的寄存器重命名阶段，每条指令都已经按照程序中指定的顺序写到ROB中，当一条指令在FU中执行完毕，就可以将结果写到ROB对应的地方，当ROB中最旧的那条指令(或者几条指令)已经得到结果，并且不存在分支预测失败或者异常等特殊情况，它就可以离开ROB，使用它的结果对处理器的状态进行更新，这个过程称为指令的退休(retire)，一旦指令经过这个状态，它就再不能被撤销了。

第11章：RISC处理器案例：Alpha 21264处理器。