操作系统进程详解


一、进程是什么?

进程是指在系统中正在运行的一个应用程序,程序一旦运行就是进程。

进程是系统进行资源分配的独立实体, 且每个进程拥有独立的地址空间。

二、进程信息

1.PCB(process control block)

进程信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合。Linux操作系统下的进程控制块是:task_struct

2.task_struct

task_struct是Linux内核的一种数据结构,它会被装载到RAM(内存)里并且包含着进程的信息。

其内容主要包括:

  • 标识符: 描述本进程的唯一标示符,用来区别其他进程。
  • 状态: 任务状态,退出代码,退出信号等。
  • 优先级: 相对于其他进程的优先级。
  • 程序计数器: 程序中即将被执行的下一条指令的地址。
  • 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
  • 上下文数据: 进程执行时处理器的寄存器中的数据[休学例子,要加图CPU,寄存器]。
  • I/O状态信息: 包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表。
  • 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。

三、进程状态

为了弄明白正在运行的进程是什么意思,我们需要知道进程的不同状态。一个进程可以有几个状态(在Linux内核里,进程有时候也叫做任务)。

kernel源代码里定义的进程状态:

static const char * const task_state_array[] = {
	"R (running)", /* 0 */
	
	"S (sleeping)", /* 1 */
	
	"D (disk sleep)", /* 2 */
	
	"T (stopped)", /* 4 */
	
	"t (tracing stop)", /* 8 */
	
	"X (dead)", /* 16 */
	
	"Z (zombie)", /* 32 */
};
  • R运行状态(running): 并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。
  • S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡眠(interruptible sleep))。
  • D磁盘休眠状态(Disk sleep): 有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的进程通常会等待IO的结束。
  • T停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。
  • t追踪停止状态(tracing stop): 一般在调试模式下程序运行到断点处会出现此种状态。
  • X死亡状态(dead): 这个状态只是一个返回状态,你不会在任务列表里看到这个状态。
  • Z僵尸状态(zombie): 子进程已经结束,等待父进程处理子进程的进程控制块的信息(不处理就一直维护进程控制块的信息)。

僵尸状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用)没有读取到子进程退出的返回代码时就会产生僵尸进程,僵尸进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。

所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态

僵尸进程的危害

  • 进程的退出状态必须被维持下去,因为他要告诉关心它的进程(父进程),你交给我的任务,我办的怎么样了。可父进程如果一直不读取,那子进程就一直处于Z状态!
  • 维护退出状态本身就是要用数据维护,也属于进程基本信息,所以保存在task_struct(PCB)中,换句话说,Z状态一直不退出,PCB一直都要维护!
  • 如果父进程创建了很多子进程,却不回收,就会造成内存资源的浪费!因为数据结构对象本身就要占用内存!
  • 造成内存泄漏
  • 如何避免僵尸进程?

另外,还有一种进程叫做孤儿进程:父进程先退出,子进程就称之为“孤儿进程”,孤儿进程被1号init进程(就是操作系统)领养,也由init进程回收。

四、进程优先级

  • cpu资源分配的先后顺序,就是指进程的优先权(priority)。
  • 优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。
  • 还可以把进程运行到指定的CPU上,这样一来,把不重要的进程安排到某个CPU,可以大大改善系统整体性能。
ps -l  //查看进程相关信息

在这里插入图片描述
UID : 代表执行者的身份

PID : 代表这个进程的代号

PPID :代表这个进程是由哪个进程发展衍生而来的,亦即父进程的代号

PRI :代表这个进程可被执行的优先级,其值越小越早被执行

NI :代表这个进程的nice值

nice值其表示为进程可被执行的优先级的修正数值,PRI值越小越快被执行,那么加入nice值后,将会使得PRI变为:PRI(new)=PRI(old)+nice,nice其取值范围是-20至19,一共40个级别。

用top命令可以更改已存在进程的nice:输入top,进入top后按“r”–>输入进程PID–>输入nice值

进程相关概念

竞争性:

系统进程数目众多,而CPU资源只有少量,甚至1个,所以进程之间是具有竞争属性的。为了高
效完成任务,更合理竞争相关资源,便具有了优先级。

独立性:

多进程运行,需要独享各种资源,多进程运行期间互不干扰。

并行:

多个进程在多个CPU下分别,同时进行运行,这称之为并行。

并发:

多个进程在一个CPU下采用进程切换的方式,在一段时间之内,让多个进程都得以推进,称之为
并发。

五、环境变量

环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数,例如:我们在编写C/C++代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但是照样可以链接成功,生成可执行程序,原因就是有相关环境变量帮助编译器进行查找。环境变量通常具有某些特殊用途,还有在系统当中通常具有全局特性。

以下是一些常见的环境变量:

  • PATH:指定命令的搜索路径。
  • HOME:指定用户的主工作目录(即用户登录到Linux系统时,默认的目录)
  • SHELL:当前shell,它的值通常都是/bin/bash。

以下是环境变量相关命令:

echo $NAME //NAME:你的环境变量名称

export 设置一个新的环境变量

env 显示所有环境变量

unset 清除环境变量

set 显示本地定义的shell变量和环境变量

六、进程地址空间

当C/C++程序运行起来时,每个进程(正在运行的程序的一种抽象)看到的内存是一致的,就好像每个进程都在独占的使用主存一样,称为虚拟地址空间。如下:
在这里插入图片描述
为什么说它是虚拟的呢,因为其并不是对应的物理内存的相应位置。
在这里插入图片描述
来看一下这段代码的结果:
在这里插入图片描述
我们可以发现,父子进程的flag变量对应的地址是一样的,但是值却不一样?

上面说到过,进程地址空间是虚拟的,而通过操作系统可以将虚拟地址映射到对应的物理地址上。而在进程运行时,会有一个进程控制块来管理进程,同时进程控制块维护了一个结构体,结构体中包含了对应虚拟内存各种区域的边界,这时就好像虚拟内存是真的存在一样。但其实它要通过页表,将对应的虚拟内存地址映射到物理地址上。

所以,虽然上述两个进程的虚拟地址是一样的,但是其页表的映射是不同的,才能将不同的数据映射到不同的物理地址上。

七、创建进程

1.fork函数

在linux中fork函数时非常重要的函数,它从已存在进程中创建一个新进程。新进程为子进程,而原进程为父进程。
在这里插入图片描述
当进程调用fork,控制转移到操作系统内核中的fork代码后,会进行下列操作:

  • 分配新的内存块和内核数据结构给子进程
  • 将父进程部分数据结构内容拷贝至子进程
  • 添加子进程到系统进程列表当中
  • fork返回,开始调度器调度

fork之前父进程独立执行,fork之后,父子两个执行流分别执行。注意,fork之后,谁先执行完全由调度器决定。

fork用法:

一个父进程希望复制自己,使父子进程同时执行不同的代码段。例如,父进程等待客户端请求,生成子进程来处理请求。一个进程要执行一个不同的程序。例如子进程从fork返回后,调用exec函数。

而当系统中进程太多时,或是用户进程数超过了限制,就会造成调用失败。

2.写时拷贝

通常,父子代码共享(但是子进程是从fork之后才开始执行的),父子再不写入时,数据也是共享的,当任意一方试图写入,便以写时拷贝的方式各自一份副本。具体见下图:
在这里插入图片描述

当fork执行之后,子进程被创建出来,包括了进程控制块和虚拟内存存储区域的结构体以及页表,代码继承父进程。如果父子进程没有修改数据,那其页表的状态都会记录为只读,同时指向物理内存的相同地方,当二者需要修改数据时,就更改页表状态,同时修改页表映射关系,并在对应物理内存位置拷贝数据进行修改。

八、进程终止

进程终止有三种场景:

  • 代码运行完毕,结果正确
  • 代码运行完毕,结果错误
  • 代码异常终止

对于前两者,可以通过echo $?指令来查看进程退出码(从main函数返回,调用exit和_exit的都表示进程退出,其他函数则不然)

#include <unistd.h>

void _exit(int status);
void exit(int status);

//参数:status(进程退出码) 定义了进程的终止状态,父进程通过wait来获取该值

说明:虽然status是int,但是仅有低8位可以被父进程所用。所以_exit(-1)时,在终端执行$?发现返回值是255。

不同之处在于,exit最后也会调用_exit, 但在调用_exit之前,还做了其他工作:

  1. 执行用户通过 atexit或on_exit定义的清理函数。
  2. 关闭所有打开的流,所有的缓存数据均被写入
  3. 调用_exit

九、进程等待

1.为何要有进程等待

  • 子进程退出,父进程如果不管不顾,就可能造成‘僵尸进程’的问题,进而造成内存泄漏。
  • 父进程派给子进程的任务完成的如何,我们需要知道。如,子进程运行完成,结果对还是不对,或者是否正常退出。
  • 父进程通过进程等待的方式,回收子进程资源,获取子进程退出信息

2.进程等待的方式

wait()

#include<sys/types.h>
#include<sys/wait.h>

//等待任意一个退出的子进程
pid_t wait(int*status);

返回值: 成功返回被等待进程pid,失败返回-1。
参数: 输出型参数,获取子进程退出状态,不关心则可以设置成为NULL.

waitpid()

#include<sys/types.h>
#include<sys/wait.h>

pid_ t waitpid(pid_t pid, int *status, int options);

返回值:
当正常返回的时候waitpid返回收集到的子进程的进程ID;
如果设置了选项WNOHANG,而调用中waitpid发现没有已退出的子进程可收集,则返回0;
如果调用中出错,则返回-1,这时errno会被设置成相应的值以指示错误所在;

参数:
pid: pid=-1,等待任一个子进程。与wait等效。 pid>0.等待其进程ID与pid相等的子进程。
status: WIFEXITED(status): 若为正常终止子进程返回的状态,则为真。(查看进程是否是正常退出) WEXITSTATUS(status): 若WIFEXITED非零,提取子进程退出码。(查看进程的退出码)
options: 为0表示阻塞等待

对于这两者而言:

  • 如果子进程已经退出,调用wait/waitpid时,wait/waitpid会立即返回,并且释放资源,获得子进程退出信息。
  • 如果在任意时刻调用wait/waitpid,子进程存在且正常运行,则进程可能阻塞。
  • 如果不存在该子进程,则立即出错返回。

注意:这两者都是系统调用!

3.获取子进程status

  • wait和waitpid,都有一个status参数,该参数是一个输出型参数,由操作系统填充。
  • 如果传递NULL,表示不关心子进程的退出状态信息。否则,操作系统会根据该参数,将子进程的退出信息反馈给父进程。
  • status不能简单的当作整形来看待,可以当作位图来看待。其次低八位表示的就是退出状态!

十、进程替换

用fork创建子进程后执行的是和父进程相同的程序(但有可能执行不同的代码分支),子进程往往要调用一种exec函数以执行另一个程序。当进程调用一种exec函数时,该进程的用户空间代码和数据完全被新程序替换,从新程序的启动例程开始执行。调用exec并不创建新进程,所以调用exec前后该进程的id并未改变。

以下是六种替换函数:

#include <unistd.h>`

int execl(const char *path, const char *arg, ...);
int execlp(const char *file, const char *arg, ...);
int execle(const char *path, const char *arg, ...,char *const envp[]);
int execv(const char *path, char *const argv[]);
int execvp(const char *file, char *const argv[]);

这些函数如果调用成功则加载新的程序从启动代码开始执行,不再返回。如果调用出错则返回-1,所以exec函数只有出错的返回值而没有成功的返回值。

  • l(list) : 表示参数采用列表
  • v(vector) : 参数用数组
  • p(path) : 有p自动搜索环境变量PATH
  • e(env) : 表示自己维护环境变量

代码如下:

#include <unistd.h>
int main()
{
	 char *const argv[] = {"ps", "-ef", NULL};
	 char *const envp[] = {"PATH=/bin:/usr/bin", "TERM=console", NULL};

	 //结束时需要在结尾加上NULL
	 execl("/bin/ps", "ps", "-ef", NULL);
	 // 带p的,可以使用环境变量PATH,无需写全路径
	 execlp("ps", "ps", "-ef", NULL);
	 // 带e的,需要自己组装环境变量
	 execle("ps", "ps", "-ef", NULL, envp);
	 execv("/bin/ps", argv);
	 
	 // 带p的,可以使用环境变量PATH,无需写全路径
	 execvp("ps", argv);
	 // 带e的,需要自己组装环境变量
	 xecve("/bin/ps", argv, envp);
	 exit(0);
}
  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
《深入解析Windows操作系统 第6版》是一本关于Windows操作系统的详细介绍和分析的书籍。本书旨在深入剖析Windows操作系统的各个方面,包括系统结构、内存管理、文件系统、进程与线程、设备驱动程序等。 在系统结构方面,本书详细介绍了Windows操作系统的内核结构和组件,包括用户模式和内核模式的区别,用户空间和内核空间的切换过程等。读者可以通过学习了解到Windows操作系统是如何管理和调度资源的。 在内存管理方面,本书介绍了Windows操作系统的虚拟内存管理机制,包括分页和分段技术,页面置换算法等。读者可以了解到Windows操作系统是如何管理内存资源,提高系统的运行效率和稳定性。 在文件系统方面,本书深入介绍了NTFS文件系统的结构和特点,包括文件的存储和管理方式,文件的权限控制机制等。读者可以通过学习了解到Windows操作系统是如何管理和操作文件的。 在进程与线程方面,本书详细介绍了Windows操作系统进程管理和线程调度机制,包括进程的创建和终止,线程的同步和通信等。读者可以了解到Windows操作系统是如何管理和调度多任务的。 在设备驱动程序方面,本书介绍了Windows操作系统的设备管理和驱动程序开发,包括设备的枚举和配置,驱动程序的加载和运行等。读者可以通过学习了解到Windows操作系统是如何与外部设备进行交互和通信的。 总之,《深入解析Windows操作系统 第6版》是一本详细介绍Windows操作系统各个方面的书籍,读者可以通过学习深入理解Windows操作系统的原理和机制,为开发和运维工作提供指导和参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值