【Linux篇】第七篇——进程地址空间（程序地址空间+虚拟地址空间）

呆呆兽学编程

已于 2022-03-31 17:05:31 修改

阅读量6.1k

点赞数 33

分类专栏： Linux 文章标签： c语言 c++ 开发语言操作系统

于 2022-03-13 20:36:33 首次发布

本文链接：https://blog.csdn.net/weixin_58450087/article/details/123461959

版权

Linux 专栏收录该内容

21 篇文章 53 订阅

订阅专栏

本文详细介绍了进程地址空间的概念，通过实例展示了父子进程间地址空间的差异。当子进程修改共享数据时，虽然虚拟地址保持不变，但实际物理地址发生了变化，体现了虚拟地址空间的写时拷贝机制。虚拟地址空间提供了进程间的独立性、内存保护、内存管理解耦等优势。同时，伪造的虚拟地址无法访问，进一步保护了物理内存。通过对进程地址空间的理解，有助于深入认识操作系统的工作原理。

摘要由CSDN通过智能技术生成

⭐️这篇博客就要和大家介绍进程地址空间相关内容，学完这个部分，我们会对进程的地址空间有一个全新的了解

🌏程序地址空间

先看厦门下面一张图，在之前C/C+博客的内存管理中放过这张图，相信大家对这个不陌生吧。这篇博客有详细的介绍——C/C++内存管理
在这里插入图片描述
下面我们通过一个代码来证明上面的地址空间分布图：

代码运行结果如下：
在这里插入图片描述
为了更深入地理解，我们用做了这样一个测试：

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val = 10;

int main()
{
	int ret = fork();
	if (ret < 0){
		// error
		perror("fork error");
		return 0;
	}
	else if (ret == 0){
		// child
		while (1){
			printf("I am child,pid:%d %d:%p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	else{
		// parent
		while (1){
			printf("I am parent:pid:%d %d:%p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	return 0;
}

代码运行结果如下：
在这里插入图片描述
可以看出的是，父子进程中对于同一个变量打印的地址是一样的，这是因为子进程以父进程为模板，因为都没有对数据进行修改，所以这里变量地址也是一样的。
我们再看一段代码，对上面的代码进行一些修改：

[wxj@VM-0-9-centos test_3_13]$ cat test.c
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val = 10;

int main()
{
	int ret = fork();
	if (ret < 0){
		// error
		perror("fork error");
		return 0;
	}
	else if (ret == 0){
		// child
		int count = 0;
	    while (1){
	      printf("修改数据前：\n");
	      printf("I am child,pid:%d %d:%p\n", getpid(), g_val, &g_val);
	      sleep(1);
	      count++;
	      if (count == 3){
	        g_val = 20;// 子进程对数据进行修改
	        printf("修改数据后：\n");
	    }
	}
	else{
		// parent
		while (1){
			printf("I am parent:pid:%d %d:%p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	return 0;
}

代码运行结果如下：
在这里插入图片描述
可以发现，子进程对数据进行修改后，父子进程打印g_val的值是不一样的，但是地址却是一样的。
分析结果得出的原因：

在fork创建子进程那一篇博客中，我们说过，父子进程共享代码和数据，但是如果有一方对数据做出了修改，那么修改方将堆被修改的这一份数据写实拷贝，这一份数据各自私有，所以根据我们现有的知识可以推断出变量g_val在父子进程中的地址应该是不一样的，但是测试发现他们的这个变量地址是一样的，但是内容却不一样。
难道对于同一块空间可以有两份不同的数据吗？
答案是否定的。
所以我们可以得出结论，我们上面看到的地址绝对不是物理地址。

事实上，在Linux地址下，这种地址叫做虚拟地址（下面讨论）。且平时我们在C/C++语言打印所看到的地址都是虚拟地址，物理地址对于我们用户是看不到的，由OS管理。

🌏进程地址空间

我们之前所说的程序地址空间是不准确的，准确的说应该是进程地址空间。进程地址空间也是由OS所创建的一个结构体——mm_struct，其中对虚拟地址每个区域进行了对应的划分（从0x00000000到0xffffffff）它也是被放在PCB中管理起来的，可以通过PCB找到对应的进程地址空间。每个进程都要一个进程地址空间，也就是每个进程都认为自己独享内存资源。所以说进程地址空间其实是一个虚拟地址空间。
虚拟地址空间 每个进程存放的是一个虚拟地址空间，OS会将虚拟地址通过某种映射关系映射到对应的物理地址空间，从而得到自己的那一份数据。（看图）
在这里插入图片描述

父子进程各种有一份虚拟空间地址，在子进程刚被创建时，父子进程代码和数据共享，所以此时虚拟地址空间的内容是基本一样的（当然有部分数据不同，比如各子的id等），且映射关系也是一样的，但是当子进程对数据进行修改时，子进程对那份数据进行写时拷贝，所以物理空间地址发生了变化，但是虚拟地址还是没有发生变化，只是改变了子进程的页表中那份虚拟地址的映射关系而已，所以两个相同的虚拟地址在父子进程分别看到了不同的物理地址空间。

下面我们再来思考几个问题：

父子进制之间如何做到具有独立性？

父子进程的数据和代码都是共享一份的，但是如果有一方试图写入数据，那么写入方将对修改的数据进行写时拷贝，且修改页表中该数据的虚拟地址映射到物理地址的关系。从而父子进程可以看到属于各自的那一份数据，从而达到独立性

虚拟地址空间带来的好处有哪些？

a.有了虚拟地址空间，它和物理内存中间添加了一个软件层（页表），这样可以完成有效地对进程内存操作的权限管理，每个进程就要通过虚拟地址和页表中的映射关系来访问各自的物理内存，从而起到保护物理内存的作用。
b.将内存申请和内存使用的概念在时间上划分清楚，通过虚拟地址空间来屏蔽底层内存申请的过程（进程也不再关心该过程），从而达到进程和OS进行内存管理操作，进行进程调度和内存管理进行解耦。
c.虚拟地址空间可以将空间连续化，降低了异常越界访问的概率。
d.有了虚拟地址空间，每个进程认为自己独享整个内存资源。每个进程将以相同的方式看待内存，这样就大大地提高了操作系统的工作效率。举例：CPU在对每个进程中的代码执行时，要找到代码的起始地址，且只需要查找固定的虚拟地址，因为对于不同的进程地址空间有不同的映射关系，所以这个固定的虚拟地址在不同的进程中会映射到不同的物理地址中，找到相关代码和数据，所以CPU可以很快地查找到程序运行的起始位置。
e.站在CPU和应用层角度，看待内存的方式是统一的，且每个空间区域的相对位置是比较确定的。

伪造的虚拟地址能够进行访问吗？

答案是不可以的。因为伪造的虚拟地址在页表中可能找不到。页表中其实是有对应的权限管理的，比如代码区是只读的，常量字符串是只读的，某些数据是可读可写的，所以即使找到了，由于该虚拟地址有相应的权限限制，伪造的虚拟地址也不能够进行访问，这样也是保护物理内存的一种机制。

再次理解进程和进程的创建？

进程是被加载到内存中的程序，其中包含代码和相关的数据，还有操作系统为之创建的相关的数据结构，其中有PCB（task_struct）、进程地址空间（mm_struct）和页表，我们可以通过PCB找到对应的mm_struct。

🌐总结

了解了进程地址空间的内容，我们有重新认识了每个进程中的内存地址分布。操作系统给每个进程都画了一张大饼，让他们感觉自己独享一块空间，这样它就不会关心物理内存使用情况，这样真的是大大提高了操作系统工作效率。是否感觉写操作系统的大佬是有多么的牛逼了吗？个人感觉实在是牛。今天的内容就先到这里了，喜欢的话，欢迎点赞、关注和收藏~
在这里插入图片描述