[处理器芯片]-3 超标量CPU实现之取指

行置水穷处

已于 2024-05-26 16:36:35 修改

阅读量991

点赞数 10

文章标签：开发语言 risc-v verilog

于 2024-05-26 16:00:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wendywm0496/article/details/139215915

版权

1 超标量CPU结构

前端（Frontend）

前端负责从程序中提取指令，并将其转换为微操作送入CPU的流水线中。

1）取指单元：从指令缓存或内存中提取指令，并将其送入流水线。

2）分支预测单元：负责预测分支指令的执行路径，以提前加载正确的指令，减少分支带来的流水线停顿。

3）译码器：将获取到的指令解码成CPU内部理解的格式，以便后续阶段的执行。

4）寄存器重命名：将逻辑寄存器重命名为物理寄存器，以解决数据依赖关系，避免数据冒险，并提高指令级并行度。

5）分发和发射：将已经译码并重命名的指令发送到相应的执行单元，并在需要时进行缓存或排队。在发射阶段，指令被提交给调度器进行后续处理。

6）调度器：负责根据指令的依赖关系和可用资源，将指令调度到可用的执行单元中，包括确定指令的执行顺序，管理执行单元的利用率，并确保指令的正确执行。调度器还负责管理处理器的资源，包括执行单元、寄存器文件等，它会跟踪资源的使用情况，以确保所有指令都能够得到充分利用，同时避免资源冲突和竞争。

后端（Backend）

后端负责实际执行指令和处理数据。

1）执行单元：包括整数单元、浮点单元、加载/存储单元等，负责执行各种不同类型的指令。

2）寄存器文件：存储CPU中的通用寄存器和状态寄存器，执行单元从寄存器文件中读取操作数并将结果写回。

3）乱序引擎：实现乱序执行功能，动态地重新排序指令以最大程度地利用可用的执行单元。

4）访存单元：处理加载和存储操作，包括数据缓存和地址生成单元等。

5）写回单元：将执行单元计算得到的结果写回到寄存器文件或内存中。

2 取指单元

取指单元是CPU运行第一个阶段，主要由指令缓存和计算取指地址的逻辑单元构成，指令缓存是该阶段的核心内容。

1）内存结构

CPU 内存结构通常分为多层，从高速、小容量的高级缓存到低速、大容量的主存储器，以及可能的外部存储器（例如磁盘）,每一层都有不同的访问速度、容量和成本。

L1 缓存（一级缓存）：

现代处理器的 L1 缓存一般分为 L1 ICache（指令缓存）和 L1 DCache（数据缓存），每个缓存大小通常在16KB到64KB之间，访问延迟在1个时钟周期。

L2 缓存（二级缓存）：

L2 缓存的大小通常在数百KB到数MB之间，访问延迟相对于 L1 缓存会更长，大约在5到15个时钟周期之间。

L3 缓存（三级缓存）：

L3 缓存通常是共享的，用于多个 CPU 核心之间共享数据。它的大小通常在几MB到数十MB之间，访问延迟相对于 L2 缓存会更长，大约在10到30个时钟周期之间。

主存储器（主内存）：

主存储器是 CPU 访问数据的主要来源，其容量通常在几GB到数十GB之间，访问延迟相对于缓存会更长，通常在几十到数百个时钟周期之间。

2）指令缓存

指令缓存是一种特殊的高速缓存用于存储 CPU 执行的指令，提供快速访问指令的能力，以减少指令的访问延迟。

指令缓存分类

直接映射缓存：指令地址被映射到缓存中的一个固定的位置，每个指令地址只有一个可能的缓存位置。直接映射缓存的实现简单，在命中时可实现快速访问，但容易产生冲突。

全相联缓存：指令可以存储在缓存中的任何位置，没有固定的映射规则，每个指令地址都可以在缓存中的任何地方找到。全相联缓存通常需要更复杂的替换算法来管理缓存中的数据。

组相联缓存：缓存被分为多个组，每个组包含多个缓存行，指令地址被映射到某个组中的一个缓存行。组相联缓存结合了直接映射缓存和全相联缓存的优点，提供了更好的性能和成本效益。

替换策略选择

当需要访问的内存卡不在缓存中，触发缓存未命中，需要在缓存中选择剔除块进行替换，替换策略决定了当缓存满了时，哪个缓存块应该被替换掉，以便为新的数据腾出空间。

先进先出（FIFO）：替换最早进入缓存的块，不管最近的访问情况。使用一个队列来跟踪缓存块的进入顺序，最早进入的块在需要替换时最先被移出，实现简单硬件开销低，但命中率可能较低，不能有效利用缓存块的访问历史信息。

最近最少使用（LRU）：最近最少使用的指令被替换出去，需要维护一个访问记录列表或计数器，来跟踪每个缓存块的使用历史。具体实现可以通过链表、堆栈或计数器来记录每个缓存块的最近使用情况，具备较高的命中率，尤其是在具有较强局部性的访问模式下表现良好，是最简单的也是使用最广泛的一种替换策略。

随机替换策略（Random）：随机选择一个缓存行来替换，命中率通常较低，无法利用缓存块的访问历史信息。

最少使用（LFU）：替换访问次数最少的缓存块，假设使用频率较低的数据将来也不会被频繁访问。需要维护每个缓存块的访问计数器，对于具有固定访问模式的数据集，表现良好；对于变化频繁的访问模式，效果不佳。

最近最常使用（MRU）：替换最近最常使用的缓存块。需要跟踪每个缓存块的使用情况，与 LRU 类似，对于某些特定的工作负载，可能有优势。

分段最近最少使用（SLRU）：将缓存分为多个段例如冷热段，新加载的数据首先进入冷段，冷段的数据如果再次访问则提升到热段。分段缓存的管理需要两个或多个 LRU 列表，每个段有独立的 LRU 管理，提供更高的灵活性和命中率。

实例说明

L1 缓存：通常会采用 LRU 或 SLRU，因为这些缓存非常小（16KB到64KB），命中率至关重要，且访问速度要非常快。

L2 缓存：可能采用 SLRU 或 LFU，因为 L2 缓存的大小较大（256KB到2MB），需要在命中率和硬件开销之间取得平衡。

L3 缓存：可能采用更简单的替换策略如 FIFO 或 Random，因为 L3 缓存共享多个核心，且更关注缓存管理的整体效率。

指令缓存访问步骤

地址生成：CPU 发出指令访问请求时，会提供一个指令地址。

索引计算：根据缓存的组织结构，计算出指令地址在缓存中的索引。

索引比较：将索引与缓存中的索引进行比较，确定指令是否在缓存中。

标记比较：如果缓存中有匹配的索引，进一步比较标记以确定是否是所需的指令。

数据读取：如果命中缓存，就从缓存中读取所需的指令；如果缓存未命中，就从主存或下一级缓存中读取指令，并将其存储到缓存中以备后续访问。

行置水穷处

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

行置水穷处 CSDN认证博客专家 CSDN认证企业博客

码龄7年

36: 原创

29万+: 周排名

3万+: 总排名

4万+: 访问

: 等级

1148: 积分

751: 粉丝

786: 获赞

9: 评论

645: 收藏

私信

关注

热门文章

最新评论

[自动驾驶技术]-6 Tesla自动驾驶方案之硬件（AI Day 2021）
ha_lydms: 作者对于每个话题的深入分析总是让人眼前一亮。我喜欢他们的批判性思维和独立见解。
[自动驾驶技术]-6 Tesla自动驾驶方案之硬件（AI Day 2021）
征途黯然.: I've learned a lot from this article about 自动驾驶技术6Tesla自动驾驶方案之硬件AIDay2021; it has great depth.
[自动驾驶技术]-5 Tesla自动驾驶方案之算法（AI Day 2021）
CSDN-Ada助手: 恭喜您在自动驾驶技术领域的持续探索与分享！这篇关于Tesla自动驾驶方案算法的博客内容丰富，让读者对AI Day 2021有了更深入的了解。希望您在未来的创作中可以继续深挖各家自动驾驶技术方案的特点与优劣势，或者结合实际案例进行更具深度的讨论。期待您的下一篇作品！
[自动驾驶技术]-6 Tesla自动驾驶方案之硬件（AI Day 2021）
CSDN-Ada助手: 恭喜您撰写了第13篇博客，内容涵盖了Tesla自动驾驶方案的硬件部分，对于关注自动驾驶技术的读者们必定是一篇极具价值的文章。在下一篇博客中，或许可以深入探讨一下Tesla自动驾驶方案的软件部分，或是与其他品牌的自动驾驶技术进行比较分析，以便读者们更全面地了解这一领域的发展情况。希望您能继续保持创作热情，为大家带来更多有趣且有价值的内容。
[自动驾驶技术]-4 决策规划系统
CSDN-Ada助手: 恭喜作者第11篇博客《[自动驾驶技术]-4 决策规划系统》的发布！内容涉及决策规划系统，非常深入和专业。在自动驾驶技术领域的探索与分享让人受益匪浅。希望作者在未来的创作中可以继续深挖自动驾驶技术的细节，例如与人工智能的结合、实践案例的分析等方面，以期能够给读者带来更多的启发和收获。期待您的下一篇精彩作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。