【计算机组成与设计硬件/软件接口-5】存储器层次结构

最新推荐文章于 2023-12-05 22:32:56 发布

AndyZzz~

最新推荐文章于 2023-12-05 22:32:56 发布

阅读量829

点赞数

分类专栏：计算机组成原理

本文链接：https://blog.csdn.net/weixin_44026604/article/details/112203812

版权

计算机组成原理专栏收录该内容

5 篇文章 20 订阅

订阅专栏

在这里插入图片描述

大容量和高速度：开发存储器层次结构

引言

现代计算机为了满足高速度、低价格、大容量的需求，采用的存储结构几乎都是层级结构，从最靠近CPU的寄存器，到下一级集成在芯片上的若干级cache，到内存，到磁盘，到分布式文件系统等。有一些概念需要我们先有底：

块：也称作行，是可存在于或不存在于cache中的信息的最小单元
命中率：在高层存储器中找到目标数据的存储访问比例
缺失率：在高层存储器中没有找到目标数据的存储访问比例
命中时间：访问某存储器层次结构所需要的时间，包括了判断当前访问是否命中还是缺失所需的时间
缺失代价：将相应的块从低层存储器替换到高层存储器所需的时间，包括访问块，将数据逐层传输、将数据插入发生缺失的层和将信息块传送给请求者的时间。

下面的内容将基于上述概念。

存储器技术

存储层次	访问时间	价格
缓存	0.5ns – 2.5ns	RMB 2000 – 5000 / GB
主存	50ns – 70ns	RMB 20 – 75 / GB
磁盘	5ms – 20ms	RMB 0.10–2/GB (HDD) 或 RMB 1–12/GB (SSD)

对于理想寄存器来说，需要满足：访问时间近似于SRAM，存储容量和价格接近于磁盘。目前没有一种存储器能够满足以上要求，必须通过开发存储器的层次结构来实现。

有关于存储技术较为全面的介绍，请参考这里。

cache的基本原理

我们都知道，cache缓存来自内存的数据，使得CPU可以在很短时间内就取到所需要的数据。但是，我们还需要了解cache机制的原理。

cache如何组织数据？一般来讲有三种方式：直接映射、组相联和全相联。

直接映射

每个存储器地址仅仅对应到cache中的唯一的一个位置，一般计算公式为：(块地址) 取模 (cache中的块数)。
在这里插入图片描述
由于cache中每个位置可能对应于主存多个不同的地址，如何知道cache中的数据项是否是所请求的字？我们可以在cache中增加一组标记，标记中包含了地址信息，利用这个地址信息，我们就能判断cache中的字是否就是所请求的字。标记只需包含地址的高位，也就是没有用来检索cache的那些位。

我们还需要检查cache块中确实包含的信息为有效。最常用的方法就是增加一个有效位来标记一个块是否含有一个有效地址。如果该位没有被设置，则不能使用该块中的内容。

下面是直接映射的一个例子，假设当前cache为空，共有8块：

初始状态图：
现CPU请求地址为22的数据，22的二进制表示为10 110，因此找到cache中索引位为110的块，发现这个时候有效位为0，缓存不命中，因此从内存中将地址为22的数据加载进cache，之后置为有效位，Tag置为高两位。
同理，请求地址为26的数据：
请求地址为18的数据，18的二进制位为10 010，发现该块是有效的，进一步检查其Tag，发现对不上，因此缓存不命中，将Index为010的块进行更新，这里就不上图展示了。

上面其实就很形象地说明了，我们将一个地址划分为标记域和cache索引，一个简易的逻辑示意图如下：
在这里插入图片描述
只有当Cache对应的Index中的Valid位有效且Tag位与地址高位一致的时候，缓存命中。

cache性能的评估和改进

写直达（Write-Through）： 数据写命中时，同时更新cache和主存。
写回（Write-Back）： 当写数据命中时，仅更新cache中的数据块。

CPU时间由程序执行的时钟周期数和存储器阻塞的时钟周期数组成。
在这里插入图片描述
下面是一个例子。
【假设指令Cache的缺失率为2%，数据Cache的缺失率为4%，缺失代价为100个clock cycle，处理器的CPI为2，Load/Store占全部36%的指令。则如果配置一个从不发生缺失的理想Cache，处理器的速度快多少？】

发生缺失的时钟周期数为：

I-cache: 0.02 × 100 × I = 2 I
D-cache: 0.36 × 0.04 × 100 × I = 1.44 I

实际CPI计算为2+2+1.44=5.44
因此，处理机的速度快5.44/2=2.72倍

我们定义：
平均存储器访问时间（AMAT）为：命中时间+ 缺失率 × 缺失代价。

全相联

一个块可以被放置在cache中的任何位置，这要求检查数据是否命中时，需要检索cache中所有的项，每个Cache项都需要比较器（开销大）。

组相联

组相联其实就是直接映射和全相联的一个折中，组相联将cache分成了若干组，这些组采用的是直接映射的方式；而组内包含若干块，这些块采用的是全相联的方式。

相联度

如下图是一个拥有8个块的cache被配置成直接映射、两路组相联、四路组相联、八路组相联的结构
在这里插入图片描述
一般来说，增加相联度可以降低缺失率，但是收益是逐级递减的。缺失率一般和相联度、缓存容量、算法设计有关。这里还要了解一下缺失在计算机系统中分成三类（3C模型）：

强制缺失：对从没有在cache中出现的块第一次访问引起的缺失，或称为冷启动缺失
容量缺失：Cache的容量不足以容纳一个程序执行所需的所有块所引起的缺失
冲突缺失：在组相联或者直接映射的cache中，多个块竞争同一个组时而引起的cache缺失，也称为碰撞缺失

下图是多路组相联的Cache结构：
在这里插入图片描述

替换策略

当我们必须将新数据加载到Cache中，而Cache中却又发生已有数据占用的情况，我们需要进行替换：

直接映射：没有别的选择，直接覆盖
组相联：倾向于选择存储Valid位为0的块
如果Valid都为1，则可以参考最近最少使用原则或随机替换原则进行数据更新。

可信存储器层次（了解）

前面的讨论集中在如何提高存储器层次的性能上，但是不能忘记如果可信性不够，即使速度再快也毫无吸引力。
在这里插入图片描述
可信存储的度量标准：

可靠性：平均无故障时间 mean time to failure (MTTF)
服务中断：平均维修时间 mean time to repair (MTTR)
失效间隔平均时间：MTBF = MTTF + MTTR
可用性：MTTF / (MTTF + MTTR)

虚拟机（了解）

虚拟机最早出现在上世纪60年代，虚拟机：

模拟客户操作系统和机器资源，提升了多个用户之间的隔离，规避了安全和可靠性的问题，有助于资源共享
对性能有影响，适合于现代高性能计算机

虚拟存储器

虚拟存储，这个概念一上来不是很容易就能理解。简单来说，可以理解为利用主存作为二级存储（磁盘）的 “cache”，也就是说内存地址可能会映射到硬盘上去。虚拟内存是计算机系统内存管理的一种技术。它使得应用程序认为它拥有连续可用的内存（一个连续完整的地址空间），而实际上，它通常是被分隔成多个物理内存碎片，还有部分暂时存储在外部磁盘存储器上，在需要时进行数据交换。理解虚拟内存的关键，在于理解：对虚拟内存的定义是基于对地址空间的重定义的，即把地址空间定义为“连续的虚拟内存地址”，以借此“欺骗”程序，使它们以为自己正在使用一大块的“连续”地址。在虚拟存储器中，我们之前称呼的“块”，变成了“页”，“缺失”变成了“缺页”。

地址映射

一般来说，页的大小都是固定的。地址映射要做的一件事，就是要将虚页号映射到物理页号。
在这里插入图片描述
虚拟内存也会发生缺页。如果发生了缺页，则必须从磁盘取回该页，这个过程花费的时间代价是巨大的，因此，对于虚拟存储，我们也要尽量降低缺页率。

页表

页表保存着虚拟地址和物理地址之间转换关系。页表保存在主存中，通常使用虚页号来索引。CPU中的页表寄存器指向物理内存中存储的页表位置。每个程序都有它自己的页表，用来将程序的虚拟地址空间映射到主存中。一个页表的逻辑图如下面图示：
在这里插入图片描述

缺页故障

如果虚拟页的有效位为0，就会发生缺页故障。控制转移交给OS，OS在下一级存储器层次找到该页，然后决定将其放到主存中。由于我们无法提起获知存储器中的某一页什么时候将被替换出去，因此OS在创建进程的时候会在闪存或磁盘上为进程中所有的页创建空间，这个空间称为交换区。同时，它也会创建一个数据结构来记录每个虚拟页在磁盘上的存放位置。

利用TLB加快地址转换

所谓TLB，可以理解为是页表的Cache。因为页表存放在内存中，访问速度还是太慢；因此，我们把页表的子集放在Cache中，能够加快地址转换的速度。这个子集就是TLB，称为快表。快表的逻辑图示如下：
在这里插入图片描述
当TLB命中时，利用TLB将虚拟地址转换为物理地址是很简单的一件事情。但是处理TLB缺失和缺页要复杂得多。TLB缺失有下面两种可能性之一：