gem5学习（19）：gem5内存系统——The gem5 Memory System

zhenz0729

于 2024-02-10 22:51:15 发布

阅读量1.5k

点赞数 9

分类专栏： gem5学习文章标签：学习

本文链接：https://blog.csdn.net/zhenz0729/article/details/136092984

版权

gem5学习专栏收录该内容

25 篇文章 21 订阅

订阅专栏

五、MSHR and Write Buffer Queues

六、Memory Access Ordering

七、Coherent Bus Object

八、Simple Memory Object

九、Message Flow

1、Memory Access Ordering（read access）

2、Memory Access Ordering（write access）

官网教程：gem5: gem5_memory_system

这个教程描述了gem5中的内存子系统，重点关注CPU在进行简单内存事务（读取或写入）期间的程序流程。

一、Model Hierarchy

该教程中使用的模型包括两个乱序（O3）ARM v7 CPU，带有相应的L1数据缓存和简单内存。通过以下参数在gem5中运行来创建该模型：

configs/example/fs.py –-caches –-cpu-type=arm_detailed –-num-cpus=2

针对gem5的示例配置文件configs/example/fs.py的命令行参数。命令行指定了以下参数：

--caches：启用缓存子系统，包括L1指令缓存和L1数据缓存。
--cpu-type=arm_detailed：使用ARM详细模型的CPU类型，这是一种准确模拟ARM处理器行为的CPU模型。
--num-cpus=2：指定使用两个CPU进行模拟。

（总之，这行命令就是通过使用这些参数，运行模拟器，并使用示例配置文件fs.py来模拟具有缓存子系统的两个ARM处理器的行为。）

Gem5使用派生对象的模拟对象作为构建内存系统的基本块。它们通过端口连接，并建立了主/从层次结构。数据流从主端口发起，而响应消息和嗅探查询则出现在从端口上。（这个在前面的教程已经介绍过了，master port和slave port分别为主端口和从端口）

二、CPU

数据缓存对象（Data Cache object）实现了标准的缓存结构。

【其中比较陌生的MSHR，是指“Miss Status Holding Register”（缺失状态保存寄存器）。MSHR用于在缓存发生缺失（miss）时跟踪和处理缺失的数据。它类似于一个缓存的“等待区域”，用于存储等待从主存加载的数据块。当发生缺失时，MSHR负责发起内存请求，并在数据返回后将其传递给等待的CPU或缓存行。】

教程中并没有详细介绍有关O3 CPU的具体细节，大概讲了一些和模型相关的注意点：

1、读取访问（Read access）是通过将消息发送到指向DCache对象的端口来启动的。如果DCache拒绝该消息（因为被阻塞或忙碌），CPU将清空流水线，并在稍后重新尝试访问。接收到来自DCache的回复消息（ReadRep）后，访问完成。

2、写入访问（Write access）是通过将请求存储到存储缓冲区中，其上下文在每个时钟周期被清空并发送到DCache。DCache也可能拒绝该请求。当接收到DCache的写入回复（WriteRep）消息时，写入访问完成。

3、读取和写入访问的加载和存储缓冲区（Load & store buffers (for read and write access)）不对活动内存访问的数量施加任何限制。因此，CPU模拟对象对CPU的内存访问请求的最大数量没有限制，而是受底层内存系统模型的限制。

4、分割内存访问（Split memory access）是在gem5中已经实现的。这意味着当一个内存访问请求涉及到多个连续的内存地址时，gem5可以将其分割为多个较小的子请求进行处理。通过分割内存访问，gem5可以更好地处理大型、连续的内存访问请求。这样可以提高内存系统的效率，并允许其他的处理任务在大型内存操作进行时继续进行，从而提高整体的系统性能。分割内存访问的实现确保了内存操作的正确性和一致性。

CPU发送的消息包含访问区域的内存类型（Normal、Device、Strongly Ordered和可缓存性）。然而，其余模型对内存类型采用了更简化的方法，因此并未使用这些信息。

三、Data Cache Object

数据缓存对象实现了标准的缓存结构：

Cached memory reads：匹配特定缓存标签（具有有效和读取标志）的缓存内存读取将在可配置的时间后完成（通过向CPU发送ReadResp）。否则，请求将转发到缺失状态和处理寄存器（MSHR）块。

Cached memory writes：匹配特定缓存标签（具有有效、读取和写入标志）的缓存内存写入将在相同可配置的时间后完成（通过向CPU发送WriteResp）。否则，请求将转发到缺失状态和处理寄存器（MSHR）块。

Uncached memory reads：未缓存的内存读取将转发到缺失状态和处理寄存器（MSHR）块。这表示需要从主存中读取数据，而不是从数据缓存中获取。MSHR是用于跟踪缺失状态的寄存器，它类似于一个缓冲区，用于存储等待从主存加载的数据块。当发生未缓存的内存读取时，该读取请求将被添加到MSHR中，gem5会向主存发送请求以获取所需的数据。一旦数据返回，gem5将通过向CPU发送ReadResp来完成未缓存的内存读取操作。

Uncached memory writes：未缓存的内存写入将转发到写入缓冲区（WriteBuffer）块。这意味着需要将数据写入主存，而不是仅在数据缓存中进行修改。写入缓冲区是一个专门用于暂存待写入主存的数据的缓冲区。当发生未缓存的内存写入时，该写入请求将被添加到写入缓冲区中。然后，gem5会周期性地将写入缓冲区中的数据上载到主存中，以确保数据的持久化。

Evicted (& dirty) cache lines：被替换（且脏）的缓存行将转发到写入缓冲区（WriteBuffer）块。gem5会将被替换的脏缓存行转发到写入缓冲区（WriteBuffer）块进行处理。当缓存行被替换并且被标记为脏时，gem5会将该脏缓存行数据添加到写入缓冲区中。然后，写入缓冲区的数据将周期性地写入主存，以确保脏数据的持久化。通过使用写入缓冲区，gem5可以将脏缓存行的写入操作与后续的主存写入操作解耦。

如果满足以下任何条件，则阻塞CPU对数据缓存的访问：

MSHR块已满（MSHR缓冲区的大小可配置）。
写回块已满（块缓冲区的大小可配置）。
针对同一内存缓存行的未完成内存访问数量达到可配置的阈值。

数据缓存处于阻塞状态时，无论是缓存命中还是缓存未命中，都会拒绝来自从端口（CPU）的请求。请注意，主端口上的传入消息（响应消息和嗅探请求）永远不会被拒绝。

对不可缓存内存区域的缓存命中（根据ARM ARM的不可预测行为）将使缓存行失效并从内存中获取数据。

四、Tags & Data Block

缓存行（在源代码中称为块）按照可配置的关联度和大小组织成集合。它们具有以下状态标志：

Valid（有效）：表示缓存行中存储的数据是有效的，地址标签也是有效的。
Read（读取）：在设置了该标志之前，不会接受读取请求。例如，当缓存行等待写入标志完成写入访问时，它是有效的但不可读取。
Write（写入）：可以接受写入操作。带有写入标志的缓存行表示唯一状态 - 没有其他缓存存储器持有该副本。
Dirty（脏）：当被替换时，需要执行写回（Writeback）操作。

如果地址标签匹配，并且设置了Valid和Read标志，读取访问将命中缓存行。如果地址标签匹配，并且设置了Valid、Read和Write标志，写入访问将命中缓存行。

五、MSHR and Write Buffer Queues

缺失状态和处理寄存器（MSHR）队列保存了CPU的未完成内存请求的列表，这些请求需要对较低内存级别进行读取访问。它们包括：

缓存读取未命中（Cached Read misses）。
缓存写入未命中（Cached Write misses）。
未缓存的读取（Uncached reads）。

写入缓冲区队列保存了以下内存请求：

未缓存的写入（Uncached writes）。
来自被替换（且脏）的缓存行的写回（Writeback）【Writeback from evicted (& dirty) cache lines】。

每个内存请求都分配给相应的MSHR对象（上图中的读或写），该对象表示必须读取或写入的特定内存块（缓存行），以完成相应的命令。如上图所示，针对同一缓存行的缓存读取/写入具有共同的MSHR对象，并将通过单个内存访问完成。

块的大小（因此也是对较低内存的读写访问的大小）如下：

对于缓存访问和写回，使用缓存行的大小；
对于未缓存访问，根据CPU指令指定的大小。

一般来说，数据缓存模型区分了两种内存类型：

普通缓存内存：始终被视为写回、读取和写入分配。
普通未缓存、设备和强序类型被等同对待（视为未缓存内存）。

六、Memory Access Ordering

对于每个CPU读/写请求（按照它们在从属端口上出现的顺序），都会分配一个唯一的顺序号。MSHR对象的顺序号是从第一个分配的读/写请求中复制而来的。

这两个队列中的内存读取/写入将按照分配的顺序号依次执行。当这两个队列都不为空时，模型将从MSHR块执行内存读取，除非写入缓冲区已满。然而，它总是保持相同（或重叠）内存缓存行（块）上读取/写入的顺序。

总结一下：

对于缓存内存的访问顺序不会被保留，除非它们针对同一缓存行。例如，访问#1、#5和#10将在同一个时钟周期内同时完成（仍然按顺序）。访问#5将在访问#3之前完成。
所有未缓存内存写入的顺序都会被保留。Write#6始终在Write#13之前完成。
所有未缓存内存读取的顺序都会被保留。Read#2始终在Read#8之前完成。
未缓存访问的读取和写入的顺序不一定被保留，除非它们的访问区域重叠。因此，Write#6始终在Read#8之前完成（它们针对同一内存块）。然而，Write#13可能在Read#8之前完成。