1. 奇怪的现象
我们先看一个现象:
为什么父子进程从“同一块地址中”读取到的值不一样呢?
因为这个地址不是物理内存的地址 ,如果是物理内存的地址是绝对不可能出现该现象的!
在Linux地址下,这种地址叫做虚拟地址(线性地址)。
我们在用C/C++语言所看到的地址,全部都是虚拟地址!物理地址,用户一概看不到,由OS统一管理。
相信大家在未学习Linux之前一定看过下图中C/C++中程序内存区间划分图,但是它根本不是一个程序的内存布局,它应该叫做进程地址空间布局,它不属于语言的范畴,属于系统范畴。
2. 虚拟地址空间
对操作系统而言,物理空间是有限的,为了避免进程之间“不合理的”使用,OS会给每个进程都画一张进程地址空间布局的“大饼”,它让每个进程都自以为自己可以使用大小为空间布局中所示的空间
(上图右图所示),在进程申请空间的时候,OS再确定空间是否足够,是否分配给进程。
OS对于所画的“饼”也要进行管理,这个“饼”就是进程虚拟地址空间,本质上是一种内核数据结构的对象(mm_struct)(类似于PCB)。
所以当我们创建一个进程的时候,会有一个task_struct对应的数据结构,为了不让该进程直接访问物理内存,因此在二者之间,OS设计了一种数据结构mm_struct(当前进程的地址空间,即饼)。每个进程都随时随地携带被画的“饼”,每次它访问物理内存时,都要通过饼进行访问。
对于虚拟地址空间中的划分,是如何做的呢?
- 因为虚拟地址空间对应的是一个数据结构,所以就可以在其内部设置各个区域的开始和结束位置即可,下图为Linux内核源代码
尽管有了虚拟地址空间区域划分后,但是进程的代码和数据也是需要占据物理内存的,每一个数据都要占据物理地址,那如何从划分的区域找出对应的物理地址呢?
在操作系统内部,会构建一个叫做页表的东西。
所以,一个进程所能看到的所有的地址,全部都会经过页表的映射,映射到特定的物理内存中;然后让用户使用虚拟地址,去访问对应的物理地址。
所以,虚拟地址空间+页表 = 虚拟内存的管理方案
在创建子进程时,子进程会以父进程为模板,构建自己的PCB、虚拟地址空间、页表。所以父子进程指向同样的物理内存。
在父子不修改指向的同一块地址时,数据其实是共享的。
在一个进程修改数据时,由于进程具有独立性,会先发生写时拷贝,页表中虚拟地址的内容不变,只对要修改的数据重新申请一个新的物理地址,同时修改页表中物理地址的内容即可。
这也就能解释最开始时我们所看到的奇怪现象了。仅仅是它们的虚拟地址相同,物理地址不同罢了
所以我们可以更新一下进程的定义了,进程 = 内核数据结构(task_struct、mm_struct、页表)+ 自己的代码和数据。
所以为什么进程具有独立性呢?
- 因为它们的PCB、虚拟地址空间、页表都是各自一份;对于代码和数据采用写时拷贝的机制各自私有一份。
- 由于它的内核数据结构各自一份,代码和数据也是独立的,所以进程也就是独立的。
因此,进程与虚拟地址空间mm_struct是强绑定的。那么虚拟地址空间中的已初始化、未初始化、字符常量区也就会随着进程一直存在,直到进程结束,虚拟地址空间被释放。
那么全局变量的虚拟地址也就一直被大家看到,所以我们所定义的全局变量具有全局性。
3. 关于页表
页表中除了虚拟地址和物理地址的映射以外,还有很多的标记位,例如:
- 权限标记位rwx
用于标记当前虚拟地址所映射的物理地址是否具有rwx权限。
- 当具有w权限时,你就可以对物理地址上的内容进行写入;
- 当没有w权限,如果对物理地址进行写入,操作系统就可能将进程杀掉。
- 对常量字符串进行修改,程序崩掉就是该原因。char *str = “hello”; *str = ‘C’;
- 运行崩溃,编译不报错,因为这是操作系统运行时才能发现的问题。所以编译器为了检查该类问题,引入了const关键字
- isexists
用于标记虚拟地址所对应的物理地址是否在内存中存在
(目标数据是否在内存中)。为什么存在这个标记位呢?
- 当磁盘中的代码量过大,超出内存的大小,无法一次性全部加载到内存中;而且代码中已经跑过的代码没有必要继续在存放在内存中,所以代码不是一下子全部加载到内存中,而是分批加载到内存中。
- 那么该标记位的作用就是:目标数据是否加载到内存中,通过该标记位就可以知道。
- 如果已经加载到内存中了,直接按照虚拟与物理的映射进行访问;
- 如果未加载到内存中,操作系统会帮我们加载。
- 有了该标记位,就可以支持分批加载 、挂起等操作。
4. 为什么要有虚拟地址
- 虚拟地址空间+页表,可保护内存
- 检查所访问的地址是否正确。
- 例如野指针,野指针对应的虚拟地址在页表中根本不存在,也就没有映射关系或者映射关系权限不对,操作系统直接拦住,不允许你访问物理内存。
- 虚拟地址允许操作系统实施更精细的权限控制,通过设置不同的虚拟地址空间,操作系统可以控制哪些部分是只读、可写、可执行的,进一步提高了系统的安全性。
- 进程管理与内存管理解耦合
-
进程管理
- 虚拟地址为每个进程提供了一个独立的地址空间,使得每个进程都认为它是在独占的内存空间中运行,这个空间在逻辑上是连续的,但实际上是由操作系统进行分段和分页管理的。
进程管理模块只需要关注进程的创建、调度和终止等操作
,而无需关心物理内存的实际布局和大小,而是通过一个统一的虚拟地址来访问内存。
-
内存管理
- 内存管理模块则负责内存资源的分配、回收和优化等操作,可以根据系统的实际内存情况和需求进行独立管理。
简而言之,进程要被创建,和内存没关系。进程只需要将PCB、地址空间、页表构建好,进程中申请的各种空间,全部在虚拟地址中设置完毕,来骗过进程,等进程后续真正使用的时候,物理内存才真正被申请,以提高物理内存的使用率,虚拟和物理地址二者具有滞后性,各自独立。
如果没有虚拟地址,在对进程进行管理时,还需要考虑内存管理的问题。此时进程若申请内存,就会立马给它,所以还要考虑内存管理的问题(内存分配、回收和置换等复杂操作。)
- 让进程以统一的视角看待物理内存
由于有了页表做映射,所以代码和数据在物理内存中可以任意存放,即代码和数据可以加载到物理内存的任意地方。
尽管你在物理内存中是无序的,但我进程看虚拟地址永远是有序的,是一个无序变有序的过程。