【Linux进程】进程的基本概念 {PCB结构体，进程表，Linux中的task_struct，查看进程，获取进程PID，使用fork创建子进程}

52Hertz_Echo

已于 2024-08-12 13:24:07 修改

阅读量2.5k

点赞数 2

分类专栏： Linux # 并发编程文章标签： linux 运维服务器进程

于 2023-06-28 17:37:43 首次发布

本文链接：https://blog.csdn.net/zty857016148/article/details/131439296

版权

Linux 同时被 2 个专栏收录

56 篇文章

订阅专栏

并发编程

29 篇文章

订阅专栏

本文深入探讨了Linux进程的基本概念，包括进程的描述与管理、PCB结构体与进程表的作用、查看与获取进程信息的方法，以及如何创建子进程。通过实例代码展示了如何使用`ps`、`top`命令查看进程信息，获取进程PID，并利用`fork`系统调用创建子进程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

一、进程的基本概念

1.1 什么是进程？

进程是计算机中正在运行的程序的实例。它是操作系统进行资源分配和调度的基本单位。每个进程都有自己的内存空间、代码、数据和执行状态。进程可以独立运行，相互之间不会干扰。操作系统可以同时运行多个进程，通过分配时间片轮流执行它们，从而实现多任务处理。进程可以与其他进程进行通信和协作，共享资源和数据。

1.2 如何管理进程？

操作系统同样需要对进程进行管理。操作系统是怎样管理进程的呢？很简单，先把进程描述起来，再把进程组织起来！

描述进程：使用PCB结构体描述进程的各种属性
组织进程：使用数据结构将各进程的PCB结构体组织起来，形成进程表；再通过对进程表的增删查改实现对进程的管理。

要让存储在磁盘中的可执行文件变为进程，一是要将其代码和数据拷贝的内存中，二是要为其创建一个PCB结构体并初始化其属性，三是要将创建好的PCB加入到操作系统的进程队列。这样就形成了一个可被操作系统管理的进程了。

总结：进程=代码和数据+PCB结构体

1.3 PCB结构体、进程表是什么？

PCB：进程的属性信息被放在一个叫做进程控制块的数据结构中，可以理解为进程属性的集合。这类数据结构被称为PCB（process control block）。

提示：不同的操作系统有属于自己的不同的PCB。

进程表：进程表是操作系统中的数据结构，用于组织记录系统中所有进程的PCB。每个进程都有一个对应的进程表项(PCB)，包含进程的标识符、状态、优先级、资源使用情况等信息。进程表可以用于管理和调度进程，操作系统可以根据进程表中的信息对进程进行分配资源、切换上下文等操作。

1.4 Linux中的PCB——task_struct

在Linux中描述进程属性的PCB结构体叫做task_struct。
task_struct是Linux内核的一种数据结构，它会被装载到RAM(内存)里并且包含着进程的属性信息。
Linux内核使用双向链表组织和维护所有进程的PCB，用于管理和调度进程。

task_ struct中记录的进程属性有：

标示符(PID): 描述本进程的唯一标示符，用来区别其他进程。
状态: 任务状态，退出代码，退出信号等。
优先级: 相对于其他进程的优先级。
程序计数器: 程序中即将被执行的下一条指令的地址。
内存指针: 包括程序代码和进程相关数据的指针，还有和其他进程共享的内存块的指针
上下文数据: 进程执行时处理器的寄存器中的数据。
I／O状态信息: 包括显示的I/O请求,分配给进程的I／O设备和被进程使用的文件列表。
记账信息: 可能包括处理器时间总和，使用的时钟数总和，时间限制，记账号等。
其他信息

二、查看进程

2.1 使用ps或top工具获取进程信息

ps命令：查看当前终端的所有进程加axj选项查看系统所有进程

在这里插入图片描述

以下是一个持续监控指定进程的脚本：

[zty@192 ~]$ while :; do ps axj | head -1 && ps axj | grep myproc | grep -v grep; echo "###########################"; sleep 1; done

这段代码是一个无限循环的脚本。它的作用是每隔1秒钟打印出当前正在运行的进程中包含"myproc"关键字的进程信息。

具体解释如下：

while :; do：表示开始一个无限循环，:是一个永远返回true的命令，所以这个循环会一直执行下去。
ps axj | head -1：通过ps axj命令获取当前所有进程的信息，并通过head -1命令只取第一行，即进程信息的标题行。这一行会被打印出来。
ps axj | grep myproc | grep -v grep：通过ps axj命令获取当前所有进程的信息，并通过grep myproc过滤出包含"myproc"关键字的进程信息，然后通过grep -v grep去除掉包含"grep"关键字的行。这样就只剩下包含"myproc"关键字的进程信息了，它们会被打印出来。
echo "###########################"：打印一行分隔符，用于区分不同时间点的进程信息。
sleep 1：暂停1秒钟，等待下一次循环。

top命令：查看系统所有进程，类似于windows下的任务管理器
在这里插入图片描述

2.2 通过proc目录查看进程信息

进程的信息可以通过/proc 系统目录查看

系统中进程的属性数据都保存在/proc下以其PID为名的目录下：在这里插入图片描述

/proc目录下的文件是动态的，每创建进程就会新增一个PID目录，进程结束该PID目录同时也会被删除。

PID目录如下：
在这里插入图片描述

cwd：当前进程的工作目录，是读写文件的默认路径。
exe：可执行程序的路径
fd：进程打开的所有文件描述符

三、获取进程PID

3.1 什么是进程PID？

进程PID（Process ID）是操作系统为每个正在运行的进程分配的唯一标识符。 PID是一个整数值，用于在操作系统中唯一标识一个进程。每当一个新的进程被创建时，操作系统会为其分配一个唯一的PID。
PID在操作系统中起到了重要的作用，它可以用来识别和管理进程。通过PID，操作系统可以追踪进程的状态、资源使用情况以及与其他进程的关系。PID还可以用于进程间通信、进程调度和资源分配等操作。
在Linux中，进程PID的数据类型是pid_t，它定义在<sys/types.h>头文件中。pid_t类型是一个有符号整数类型，通常是int类型。
需要注意的是，虽然PID是有符号整数类型，但在实际使用中，PID的值始终是非负整数，不会出现负数的情况。

在这里插入图片描述

3.2 如何获取进程PID？

getpid：获取调用进程的PID

头文件<unistd.h>和<sys/types.h>是由Linux操作系统提供的，和语言无关。
pid_t：由操作系统提供的数据类型，实际上是一个无符号整数。

kill -9 pid：向指定进程发送9号指令，终止指定进程。

getppid：获取父进程的PID

无论是直接调用系统命令还是通过./运行自己编写的程序，其父进程都是bash
bash会通过创建子进程来执行命令
每一次登录，都会创建一个独属于当前终端的bash。

测试代码：

void Test1(){                                                                                                                    
  while(1)    
  {    
    pid_t pid = getpid();    
    pid_t ppid = getppid();    
    cout << "hello world!";    
    cout << " pid:" << pid;    
    cout << " ppid:" << ppid << endl;    
    sleep(1);    
  }    
}

运行结果：
在这里插入图片描述

在这里插入图片描述

每次运行程序，进程的pid都不同，但其父进程ppid都是9031——bash

四、创建子进程

4.1 初识fork

在这里插入图片描述

测试代码：

void Test2(){                                                                                
  cout  << "I'm parent process:" << getpid() << endl;    
  pid_t ret = fork();    
  //下面的代码由父进程和子进程执行    
  cout << "ret:" << ret << " ";    
  cout << "pid:" << getpid() << " ";       
  cout << "ppid:" << getppid() << endl;    
}

运行结果：

在这里插入图片描述

fork之后的代码由两个进程执行，一个是父进程，一个是子进程
fork创建子进程成功返回给父进程子进程的PID，返回给子进程0
fork创建进程失败返回-1

4.2 fork的基本用法

fork之后的代码是父子进程共享的
可通过判断fork的返回值使用分支语句对父子进程进行分流，即让父子进程执行不同的代码。

测试代码：

int Test1(){
  pid_t id = fork();
  if(id < 0)
  {
    //创建失败
    cerr << "fork" << endl;
    return 1;
  }
  else if(id == 0)
  {
    //子进程执行流
    while(1)
    {
      cout << "I'm child process, ";
      cout << "pid:" << getpid() << " ";
      cout << "ppid:" << getppid() << endl;                                                    
      sleep(1);
    }
    return 0;
  }
  else{
    //父进程执行流
   while(1)
    {
      cout << "I'm parent process, ";
      cout << "pid:" << getpid() << " ";                                                       
      cout << "ppid:" << getppid() << endl;
      sleep(1);
    }
    return 0;
  }
}

运行结果：

在这里插入图片描述
为什么fork能有两个返回值？

fork是一个系统调用接口（C函数），由Linux内核实现
在fork内部，return之前子进程就已经被创建出来了。父子进程会执行各自的return语句，因此会有两个返回值。
两个返回值返回到两个不同的进程；一个进程中只有一个确切的返回值。

为什么fork给父进程返回子进程PID，给子进程返回0？

因为一个父进程可以有多个子进程，所以需要子进程PID对子进程进行标识。而每个子进程都只有一个父进程，所以不需要父进程PID，返回0即可。
代码中需要区分父子进程以进行分流操作，因此不能返回父进程PID。

创建出子进程后，父子进程哪一个先运行呢？

创建子进程的本质是以父进程为模版创建一个子进程的task_struct，并加入到进程表，交由操作系统进行进程管理。
操作系统会创建一个CPU运行队列，调度器会根据进程的优先级，状态等信息，将进程的task_struct加入到运行队列。CPU会依次执行队列中的进程
无法确定父子进程的运行顺序，因为进程运行的先后顺序有多种影响因素，最终由操作系统的调度器决定。

CPU运行队列

CPU运行队列是操作系统中的一个数据结构，用于存放等待在CPU上执行的进程。当操作系统决定将CPU分配给某个进程时，该进程会被放入CPU运行队列中等待执行。 CPU运行队列可以根据不同的调度算法来确定进程的执行顺序，例如先来先服务、短作业优先、时间片轮转等。
进程表和CPU运行队列是相关但不完全相同的概念。简而言之，进程表是记录系统中所有进程的信息的数据结构，而CPU运行队列是存放等待在CPU上执行的进程的数据结构。进程表可以用于管理和调度进程，而CPU运行队列则是用于确定进程的执行顺序。