CPU Study - Fetch

最新推荐文章于 2024-11-01 14:55:25 发布

( ･ㅂ･)

最新推荐文章于 2024-11-01 14:55:25 发布

阅读量264

点赞数 3

分类专栏：超标量处理器学习笔记文章标签：后端

本文链接：https://blog.csdn.net/weixin_43948262/article/details/142618677

版权

超标量处理器学习笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

N-Way CPU 取指问题

如果CPU可以在每个周期内同时解码N条指令，则此类CPU为N-Way超标量处理器。
N-Way超标量处理器需要每个周期从I-Cache中至少取得N条指令，这N条指令成为一组Fetch Group。
为了保证处理器能够每个周期在I-Cache取得N条指令，最简单的方法就是把I-Cache的Data Block大小设置为N。
Data Block = N words
理想情况下，CPU的取指令也是N Words对齐，那么I-Cache命中时，可以直接输出Cache Line中的value。
但是真实场景下，由于存在跳转指令，取指令地址不总是N Words对齐。
指令分散在2行的Cache Line里
这就导致一个周期内需要访问2行Cache Line才能一次取出N条指令，但是CPU设计中单周期只能访问一个Cache Line。

Solution - Instruction Buffer

对于N-Way CPU，假设一次能够从Cache中取出M条指令，只要满足M>N就能够满足性能最大化。
因此某些处理器中采用每周期取出来的指令数量大于能够解码数量的设计，通过一个缓存 Instruction Buffer将多余指令保存，避免硬件资源浪费。
并且除了分支指令以及异常的场景，取指令的地址都会按照字节对齐方式增加。

Solution - 增加Data Block

增加Data Block为8，只要取指令地址不在最后的三个Word上就可以每周期读取四个指令。
每周期取4指令
不过在Cache Size固定场景下，增加Cache Line Size会减少Cache Set数量，导致Cache Miss概率增加。
并且如果Cache Line Size为8Byte，就需要8个32位SRAM电路及保护电路，但最终只输出4个字会比较浪费资源。
因此实际当中，仍然只使用4个SRAM实现八个字的data block。
4块SRAM的Cache
一个Cache Line的8个Byte数据占用4个SRAM的两行。
每次Cache Line命中，SRAM命中的两行均为有效。
命中后需要根据指令顺序对SRAM0/1/2/3进行重排序。