七、虚拟内存管理
虚拟内存是计算机系统内存管理的一种技术。它使得应用程序认为它拥有连续可用的内存(一个连续完整的地址空间),而实际上,它通常是被分隔成多个物理内存碎片,还有部分暂时存储在外部磁盘存储器上,在需要时进行数据交换。
基于高速缓存技术来实现的,且必须有相应的硬件来支持。
虚拟内存的最大容量:由计算机的地址结构(CPU寻址结构)确定。
虚拟内存的实际容量 = min{内存、外存容量之和,CPU寻址范围}。
例:32位计算机,按字节编址,内存大小为512MB,外存2G.
最大容量 = 232B = 4GB
实际容量 = min(232B, 512MB+2GB) = 512MB+2GB
1.常规存储器特征
传统存储管理方式的特征、缺点:
1.1一次性
作业必须一次性全部装入内存后才能开始运行。这会造成两个问题:
-
作业很大时,不能全部装入内存,导致大作业无法运行;
-
当大量作业要求运行时,由于内存无法容纳所有作业,因此只有少量作业能运行,导致多道程序并发度下降。
1.2驻留性
一旦作业被装入内存,就会一直驻留在内存中,直至作业运行结束。
事实上,在一个时间段内,只需要访问作业的一小部分数据即可正常运行,这就导致了内存中会驻留大量的、暂时用不到的数据,浪费了宝贵的内存资源。
2.虚拟内存特征
2.1局部性原理
时间局部性:如果执行了程序中的某条指令,那么不久后这条指令很有可能再次执行;如果某个数据被访问过,不久之后该数据很可能再次被访问。(因为程序中存在大量的循环)
空间局部性:一旦程序访问了某个存储单元,在不久之后,其附近的存储单元也很有可能被访问。(因为很多数据在内存中都是连续存放的)
高速缓存技术:使用频繁的数据放到更高速的存储器中。(如:快表)
基于局部性原理,在程序装入时,可以将程序中很快会用到的部分装入内存,暂时用不到的部分留在外存,就可以让程序开始执行。
在程序执行过程中,当所访问的信息不在内存时,由操作系统负责将所需信息从外存调入内存,然后继续执行程序。若内存空间不够,由操作系统负责将内存中暂时用不到的信息换出到外存。
在操作系统的管理下,在用户看来似乎有一个比实际内存大得多的内存,这就是虚拟内存。
- 3种特性:
2.2多次性
对应“一次性”。
无需在作业运行时一次性全部装入内存,而是允许被分成多次调入内存。
2.3对换性
对应“驻留性”。
在作业运行时无需一直常驻内存,而是允许在作业运行过程中,将作业换入、换出。
2.4虚拟性
从逻辑上扩充了内存的容量,使用户看到的内存容量,远大于实际的容量。
2.5虚拟存储器的容量
【2023年408真题】虚拟存储器的最大容量(虚拟地址空间):由计算机的地址结构决定,与主存、外存容量没有关系。
eg. 一个计算机系统的地址寄存器有32位,那么虚拟存储器的最大容量是 232。
【2020年408真题】一个数组在虚拟空间存放是连续的,但是在物理空间存放可以是不连续的。
3.虚拟内存的实现
使用虚拟技术之后,再采用传统的连续分配方式就不是很方便,所以虚拟内存的实现需要建立在离散分配的内存管理上。
那么传统的非连续分配存储管理方式:
- 分页存储管理
- 分段存储管理
- 段页式存储管理
就变成了:(关键就在于“请求”)
- 请求分页存储管理
- 请求分段存储管理
- 请求段页式存储管理
- 它与传统的非连续分配存储管理区别:(请求页表的两大功能)
- 在程序执行过程中,当所访问的信息不在内存时,由操作系统负责将所需的信息从外存中调入内存,然后继续执行程序。就有了请求调页(或请求调段)功能。
- 若内存不够,操作系统负责将内存中暂时用不到的信息调出到外存。就有了页面置换(或段置换)功能。
❗3.1缺页率
缺页率 = 缺页次数 访问页面的总数 缺页率=\frac{缺页次数}{访问页面的总数} 缺页率=访问页面的总数缺页次数
影响因素:
-
页面大小
-
工作集的大小:决定进程所分配的物理块数目
物理块越多,缺页率越低。
-
页面置换算法
-
程序固有的特性
-
进程的数量
进程越多,进程所分配的物理块数目就越少,缺页率越高。
【2022年408真题】不会影响缺页率的是:页缓冲队列的长度。
页缓冲队列:是将置换淘汰下的页面进行缓存,暂时不写回磁盘,会影响页面置换速度,但不影响缺页率。
3.2请求分页(请求页表)
只有页号、块号的页表叫基本页表(基本分页)。
新增4个字段的页表叫请求页表(请求分页)。
它们的区别就是:请求页表有两大功能:
- 请求调页:在程序执行过程中,当所访问的信息不在内存时,由操作系统负责将所需的信息从外存中调入内存,然后继续执行程序。
- 页面置换:若内存不够,操作系统负责将内存中暂时用不到的信息调出到外存。
为了实现“请求分页”,新增了4个字段,使用页表机制:
3.2.1页表机制
增加4个字段
状态位P:页面是否调入内存。1是在内存,0不在。
访问字段A:记录这个页面被访问过几次,或是多久没被访问。
修改位M:记录页面是否被修改过,1修改过。
外存地址:页面在外存中存放的位置。
❗3.2.2缺页中断机构
缺页中断是因为当前执行的指令想要访问的目标页面未调入内存而产生的,因此属于内中断:故障(fault)。
在请求分页系统中,每当要访问的页面不在内存时,便产生一个缺页中断,然后由操作系统的缺页中断处理程序处理中断,当系统处理之后,应该执行被中断的那一条指令。
此时缺页的进程阻塞,放入阻塞队列,调页完成之后再将其唤醒,放入就绪队列。
- 如果内存中有空闲块,则为进程分配一个空闲块,将所缺页面装入该块,并修改页表中相应的页表项。
- 如果内存中没有空闲块,则由页面置换算法选择一个页面进行淘汰。该页面在内存期间被修改过,则要将其写回外存;未修改过的页面不用写回外存。
3.2.3地址变换机构
当程序执行的过程中,所访问的信息不在内存之中,操作系统需要把信息从外存中调入内存,然后再执行程序。若内存空间不够,操作系统把内存中暂时用不到的信息调出到外存,腾出空间。
补充细节:
- 只有“写指令”才需要修改“修改位”。并且,一般来说只需修改快表中的数据,只有要将快表项删除时才需要写回内存中的慢表。这样可以减少访存次数。
- 和普通的中断处理一样,缺页中断处理依然需要保留CPU现场。
- 需要用某种“页面置换算法”来决定一个换出页面。
- 换入/换出页面都需要启动速度较慢的I/O操作,如果换入/换出太频繁,会有很大的开销。
- 页面调入内存后,需要修改慢表,同时也需要将表项复制到快表中。
❗4.页面置换算法
【注意】
-
无论使用什么页面置换算法,第一次访存都不可能就已经在内存中,必然会发生缺页,所以 缺页次数(失效次数)不会少于页面(页帧,内存容量的页面)的数量。计算缺页率,应该算上这些。
但是,注意用词:页置换次数 ≠ 缺页次数。页置换应该是新进入的序号不仅没有,而且还需要把已有的换出来。
-
所有的算法,都会发生抖动。
4.1最佳置换算法OPT
optimal
每次选择淘汰的页面将是以后永不使用,或者在最长时间内不再被访问的页面,这样可以保证最低的缺页率。
既往前看、也往后看,相当于预见未来。不可实现。
4.2先进先出置换算法FIFO
Frist in Frist out
每次选择淘汰的页面是最早进入内存的页面。
这里的缺页率是9/12
这个题,如果变成4个物理块,那么就会有10次缺页。这就是belady 异常。
Belady 异常
Belady 异常:当为进程分配物理块增大时,缺页次数不减反增的现象。
只有FIFO算法会产生belady异常,因此FIFO算法性能差。
4.3最近最久未使用置换算法❗LRU
least recently used
每次淘汰的页面是最近最久未使用的页面。
实现方法:赋予每个页面对应的页表项中,用访问字段记录该页面自上次被访问以来所经历的时间t。当需要淘汰一个页面时,选择现有页面中t值最大的,即最近最久未使用的页面。
页号 | 内存块号 | 状态位 | 访问字段(t) | 修改位 | 外存地址 |
---|
该算法的实现需要专门的硬件支持,虽然算法性能好,但是实现困难,开销大(因为要进行排序)。但是同时也是最接近OPT算法的。
【技巧】在手动做题时,若需要淘汰页面,可以逆向检查此时在内存中的几个页面号。在逆向扫描过程中最后一个出现的页号就是要淘汰的页面。
4.4时钟置换算法CLOCK
又称最近未用算法NRU(not recently used)
因为最佳置换算法性能最好,但无法实现;先进先出置换算法实现简单,但算法性能差;最近最久未使用置换算法性能好,是最接近OPT算法性能的,但是实现起来需要专门的硬件支持,算法开销大。
所以提出时钟置换算法,是一种性能和开销较均衡的算法,又称CLOCK算法,或最近未用算法(NRU,Not
Recently Used)
简单的CLOCK算法实现方法:为每个页面设置一个访问位,再将内存中的页面都通过链接指针链接成一个循环队列。
当某页被访问时,其访问位置为1。当需要淘汰一个页面时,只需检查页的访问位:
- 如果是0,表示最近没访问过。就选择该页换出;
- 如果是1,表示最近访问过。则将它置为0,暂不换出,继续检查下一个页面。
若第一轮扫描中所有页面都是1,则将这些页面的访问位依次置为0后,再进行第二轮扫描(第二轮扫描中一定会有访问位为0的页面,因此简单的CLOCK算法选择一个淘汰页面最多会经过两轮扫描)。
页号 | 内存块号 | 状态位 | 访问位(0,1) | 修改位 | 外存地址 |
---|
❗4.5改进型clock置换算法
简单的时钟置换算法仅考虑到一个页面最近是否被访问过。事实上,如果被淘汰的页面没有被修改过,就不需要执行I/O操作写回外存。只有被淘汰的页面被修改过时,才需要写回外存。
因此,除了考虑一个页面最近有没有被访问过之外,操作系统还应考虑页面有没有被修改过。在其他条件都相同时,应优先淘汰没有修改过的页面,避免I/O操作。这就是改进型的时钟置换算法的思想。
- 修改位是0,表示页面没有被修改过;
- 修改位是1,表示页面被修改过。
为方便讨论,用**(访问位,修改位)**的形式表示各页面状态。如(0,0)表示一个页面近期没有被访问过,且没有被修改过。
【2016年408真题】优先级:(0,0)→(0,1)→(1,0)→(1,1)
算法规则:将所有可能被置换的页面排成一个循环队列。
- 第一轮:找到近期没有被访问过,且没有被修改过的页面(0,0)。
本轮扫描不修改任何标志位。 - 第二轮:找到近期没有被访问过,但是被修改过的页面(0,1)。
本轮扫描后,把访问位(前位)置为0。 - 第三轮:找到近期被访问过(第二轮访问修改了访问位),但是没有被修改过的页面(0,0)。
本轮扫描不修改任何标志位。 - 第四轮:找到近期被访问过,且被修改过的页面(0,1)。
由于第二轮已将所有帧的访问位设为0,因此经过第三轮、第四轮扫描一定会有一个帧被选中,因此改进型CLOCK置换算法选择一个淘汰页面最多会进行四轮扫描。
5.页面分配策略(驻留集)
- 驻留集
- 页面分配、置换策略
- 固定分配局部置换
- 可变分配全局置换
- 可变分配局部置换
- 调入页面的时机
- 从何处调页
- 抖动(颠簸)现象
- 工作集
驻留集:指请求分页存储管理中给进程分配的物理块的集合。
在采用了虚拟存储技术的系统中,驻留集大小一般小于进程的总大小。
- 若驻留集太小,会导致缺页频繁,系统要花大量的时间来处理缺页,实际用于进程推进的时间很少;
- 若驻留集太大,又会导致多道程序并发度下降,资源利用率降低。
所以应该选择一个合适的驻留集大小。
有4种页面分配、置换策略:
-
固定分配:操作系统为每个进程分配一组固定数目的物理块,在进程运行期间不再改变。
即,驻留集大小不变。
-
可变分配:先为每个进程分配一定数目的物理块,在进程运行期间,可根据情况做适当的增加或减少。
即,驻留集大小可变。
-
局部置换:发生缺页时只能选进程自己的物理块进行置换。
-
全局置换:可以将操作系统保留的空闲物理块分配给缺页进程,也可以将别的进程持有的物理块置换到外存,再分配给缺页进程。
它们两两组合,形成3种策略:
全局置换 | 局部置换 | |
---|---|---|
固定分配 | - | √ |
可变分配 | √ | √ |
- 固定分配局部置换
- 可变分配全局置换
- 可变分配局部置换
- 为什么没有固定分配全局置换?
全局置换意味着一个进程拥有的物理块数量必然会改变,因此不可能是固定分配。
5.1驻留集的页面分配、置换策略
5.1.1固定分配局部置换
系统为每个进程分配一定数量的物理块,在整个运行期间都不改变。
若进程在运行中发生缺页,则只能从该进程在内存中的页面中选出一页换出,然后再调入需要的页面。
这种策略的缺点是:很难在刚开始就确定应为每个进程分配多少个物理块才算合理。(采用这种策略的系统可以根据进程大小、优先级、或是根据程序员给出的参数来确定为一个进程分配的内存块数)
5.1.2可变分配全局置换
刚开始会为每个进程分配一定数量的物理块。操作系统会保持一个空闲物理块队列。
当某进程发生缺页时,从空闲物理块中取出一块分配给该进程;若已无空闲物理块,则可选择一个未锁定的页面换出外存,再将该物理块分配给缺页的进程。
采用这种策略时,只要某进程发生缺页,都将获得新的物理块,仅当空闲物理块用完时,系统才选择一个未锁定的页面调出。被选择调出的页可能是系统中任何一个进程中的页,因此这个被选中的进程拥有的物理块会减少,缺页率会增加。
5.1.3可变分配局部置换
刚开始会为每个进程分配一定数量的物理块。
当某进程发生缺页时,只允许从该进程自己的物理块中选出一个进行换出外存。
如果进程在运行中频繁地缺页,系统会为该进程多分配几个物理块,直至该进程缺页率趋势适当程度;反之,如果进程在运行中缺页率特别低,则可适当减少分配给该进程的物理块。
总结区别:
- 可变分配全局置换:只要缺页就给分配新物理块。
- 可变分配局部置换:要根据发生缺页的频率,来动态地增加或减少进程的物理块。
5.2何时调入页面
5.2.1预调页策略
根据局部性原理,一次调入若干个相邻的页面可能比一次调入一个页面更高效。但如果提前调入的页面中大多数都没被访问过,则又是低效的。因此可以预测不久之后可能访问到的页面,将它们预先调入内存,但目前预测成功率只有50%左右。
故这种策略主要用于进程的首次调入,由程序员指出应该先调入哪些部分,在运行前调入。
5.2.2请求调页策略
进程在运行期间发现缺页时才将所缺页面调入内存。
由这种策略调入的页面一定会被访问到,但由于每次只能调入一页,而每次调页都要磁盘I/O操作,因此I/O开销较大。
5.3从何处调入内存
系统拥有足够的对换区空间:页面的调入、调出都是在内存与对换区之间进行,这样可以保证页面的调入、调出速度很快。在进程运行前,需将进程相关的数据从文件区复制到对换区。
系统缺少足够的对换区空间:凡是不会被修改的数据都直接从文件区调入,由于这些页面不会被修改,因此换出时不必写回磁盘,下次需要时再从文件区调入即可。对于可能被修改的部分,换出时需写回磁盘对换区,下次需要时再从对换区调入。
UNIX方式:运行之前进程有关的数据全部放在文件区,故未使用过的页面,都可从文件区调入。若被使用过的页面需要换出,则写回对换区,下次需要时从对换区调入。
5.4抖动(颠簸)现象
抖动(颠簸):刚刚换出的页面马上又要换入内存,刚刚换入的页面马上又要换出外存,这种频繁的页面调度行为称为抖动或颠簸。
现象:CPU利用率低,磁盘利用率极高。
产生抖动的主要原因是:进程频繁访问的页面数目高于可用的物理块数(分配给进程的物理块不够)。
- 为进程分配的物理块太少,会使进程发生抖动现象。
- 为进程分配的物理块太多,又会降低系统整体的并发度,降低某些资源的利用率。
为了研究为应该为每个进程分配多少个物理块,Denning提出了进程“工作集”的概念。
5.5进程工作集
驻留集:指请求分页存储管理中给进程分配的内存块的集合。
工作集:指在某段时间间隔里,进程实际访问页面的集合。
工作集大小可能小于窗口尺寸,实际应用中,操作系统可以统计进程的工作集大小,根据工作集大小给进程分配若干内存块。
【2016年年408真题】如果工作集窗口大小确定,但是向前找t时刻的工作集时候发现前面的序列有重复,那么就需要去掉重复的,只保留一个。
eg. 虽然工作集窗口大小为6,但是{6,0,3,2,3,2} 应该为:{6,0,3,2}。
【注意】进程运行时,若工作集都在主存储器(注意不是虚拟存储器)内,那么进程可以有效运行;否则会中断。
如:窗口尺寸为5,经过一段时间的监测,发现进程的工作集最大为3,那么说明该进程有很好的局部性,可以给这个进程分配3个以上的内存块即可满足进程的运行需要。
一般来说,驻留集大小不能小于工作集大小,否则进程运行过程中将频繁缺页。
驻留集大小
≥
工作集大小
驻留集大小≥工作集大小
驻留集大小≥工作集大小
【拓展】基于局部性原理可知,进程在一段时间内访问的页面与不久之后会访问的页面是有相关性的。因此,可以根据进程近期访问的页面集合(工作集)来设计一种页面置换算法――选择一个不在工作集中的页面进行淘汰。
6.内存映射文件
内存映射文件(Memory-Mapped Files):操作系统向上层程序员提供的功能(系统调用)。
优点:
- 方便程序员访问文件数据。
- 程序员编程更简单,已建立映射的文件,只需按访问内存的方式读写即可。
- 文件数据的读入/写出完全由操作系统负责,I/O效率可以由操作系统负责优化。
- 方便多个进程共享同一个文件。
6.1方便程序员访问文件数据
【注意】数据在磁盘是随机存放的。
传统的文件访问方式:
- open系统调用——打开文件。
- seek系统调用一一将读写指针移到某个位置。
- read系统调用――从读写指针所指位置读入若干数据(从磁盘读入内存)。
- write系统调用――将内存中的指定数据,写回磁盘(根据读写指针确定要写回什么位置)。
内存映射文件的访问方式:
- open系统调用―—打开文件。
- mmap系统调用一一将文件映射到进程的虚拟地址空间。
mmap之后,文件是数据就被虚拟地放在了内存,程序员不需要自己去磁盘调用,当以访问内存的方式访问文件数据时候,数据因为是虚拟的,所以会发生缺页,那么操作系统就会自动从磁盘读入内存。
进程关闭文件时,操作系统自动将文件被修改的数据写回磁盘。
6.2方便多个进程共享同一个文件
多个进程可以映射同一个文件,实现共享。
在物理内存中,一个文件对应同一份数据,当一个进程修改文件数据时,另一个进程可以立马“看到”。