通过fork创建的子进程会拷贝父进程的代码段、数据段、静态数据段、堆、栈、IO缓冲区

最新推荐文章于 2022-04-24 14:17:28 发布

Mikoto_10032

最新推荐文章于 2022-04-24 14:17:28 发布

阅读量1.6k

点赞数 2

分类专栏：操作系统文章标签： linux 内存管理操作系统 c语言

原文链接：https://blog.csdn.net/xiaocherry1128/article/details/77717328

版权

操作系统专栏收录该内容

26 篇文章 0 订阅

订阅专栏

本文详细探讨了Linux中的fork系统调用以及写时复制（Copy-On-Write, COW）技术。在fork时，子进程继承了父进程的虚拟地址空间，但物理地址在写操作前保持共享。COW机制提高了效率，仅在需要时才复制页面。子进程先调度以优化exec使用，避免不必要的内存拷贝。通过这个机制，父子进程可以拥有相同的虚拟地址，但物理地址可能不同，确保了各自独立性。

摘要由CSDN通过智能技术生成

通过fork创建的子进程会拷贝父进程的代码段、数据段、静态数据段、堆、栈、IO缓冲区

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

void func()
{
    printf("我是函数%s\n",__func__);
}
int num = 0;
int main()
{
    static int num_s;
    int* p = malloc(4);
    pid_t pid = fork();
    printf("haha\n");
    if(0 == pid)
    {   
        func();
        *p = 1234;
        num = 1234;
        num_s = 1234;
        printf("我是子进程%u %p %p %p\n",pid,p,&num,&num_s);
    }   
    else
    {   
        func();
        *p = 4567;
        num = 4567;
        num_s = 4567;
        printf("我是父进程%u %p %p %p\n",pid,p,&num,&num_s);
    }   
}

从下图的结果中也可以看出子进程中的变量地址和父进程中的一样。
在这里插入图片描述
这里就涉及到物理地址和虚拟地址（或称逻辑地址）的概念。

从逻辑地址到物理地址的映射称为地址重定向。分为：

静态重定向–在程序装入主存时已经完成了逻辑地址到物理地址和变换，在程序执行期间不会再发生改变。

动态重定向–程序执行期间完成，其实现依赖于硬件地址变换机构，如基址寄存器。

虚拟地址：CPU所生成的地址。CPU产生的逻辑地址被分为 :p （页号）它包含每个页在物理内存中的基址，用来作为页表的索引；d （页偏移），同基址相结合，用来确定送入内存设备的物理内存地址。

物理地址：内存单元所看到的地址。
用户程序看不见真正的物理地址。用户只生成逻辑地址，且认为进程的地址空间为0到max。物理地址范围从R+0到R+max，R为基地址,地址映射－将程序地址空间中使用的逻辑地址变换成内存中的物理地址的过程。由内存管理单元（MMU）来完成。

fork（）会产生一个和父进程完全相同的子进程，但子进程在此后多会exec系统调用，出于效率考虑，linux中引入了“写时复制“技术，也就是只有进程空间的各段的内容要发生变化时，才会将父进程的内容复制一份给子进程。在fork之后exec之前两个进程用的是相同的物理空间（内存区），子进程的代码段、数据段、堆栈都是指向父进程的物理空间，也就是说，两者的虚拟空间不同，但其对应的物理空间是同一个。当父子进程中有更改相应段的行为发生时，再为子进程相应的段分配物理空间，如果不是因为exec，内核会给子进程的数据段、堆栈段分配相应的物理空间（至此两者有各自的进程空间，互不影响），而代码段继续共享父进程的物理空间（两者的代码完全相同）。而如果是因为exec，由于两者执行的代码不同，子进程的代码段也会分配单独的物理空间。

fork时子进程获得父进程代码和数据段、共享库、堆和栈的复制，所以变量的地址（当然是虚拟地址）也是一样的。

每个进程都有自己的虚拟地址空间，不同进程的相同的虚拟地址显然可以对应不同的物理地址。因此地址相同（虚拟地址）而值不同没什么奇怪。
具体过程是这样的：
fork子进程完全复制父进程的栈空间，也复制了页表，但没有复制物理页面，所以这时虚拟地址相同，物理地址也相同，但是会把父子共享的页面标记为“只读”（类似mmap的private的方式），如果父子进程一直对这个页面是同一个页面，知道其中任何一个进程要对共享的页面“写操作”，这时内核会复制一个物理页面给这个进程使用，同时修改页表。而把原来的只读页面标记为“可写”，留给另外一个进程使用。

这就是所谓的“写时复制”。正因为fork采用了这种写时复制的机制，所以fork出来子进程之后，父子进程哪个先调度呢？内核一般会先调度子进程，因为很多情况下子进程是要马上执行exec，会清空栈、堆。。这些和父进程共享的空间，加载新的代码段。。。，这就避免了“写时复制”拷贝共享页面的机会。如果父进程先调度很可能写共享页面，会产生“写时复制”的无用功。所以，一般是子进程先调度滴。

假定父进程malloc的指针指向0x12345678, fork 后，子进程中的指针也是指向0x12345678，但是这两个地址都是虚拟内存地址（virtual memory)，经过内存地址转换后所对应的物理地址是不一样的。所以两个进城中的这两个地址相互之间没有任何关系。

（注1：在理解时，你可以认为fork后，这两个相同的虚拟地址指向的是不同的物理地址，这样方便理解父子进程之间的独立性）
（注2：但实际上，Linux为了提高 fork 的效率，采用了 copy-on-write 技术，fork后，这两个虚拟地址实际上指向相同的物理地址（内存页），只有任何一个进程试图修改这个虚拟地址里的内容前，两个虚拟地址才会指向不同的物理地址（新的物理地址的内容从原物理地址中复制得到））