有关于死循环子线程引起的bug,linux下Popen子进程退出后的poll状态依旧是None,僵尸进程处理

关于主进程、子进程,主线程,子线程停止结束的关系:
对于linux:
对于程序来说,如果主进程在子进程还未结束时就已经退出,那么Linux内核会将子进程的父进程ID改为1(也就是init进程),当子进程结束后会由init进程来回收该子进程。
主线程退出后子线程的状态依赖于它所在的进程,如果进程没有退出的话子线程依然正常运转。如果进程退出了,那么它所有的线程都会退出,所以子线程也就退出了。

主线程退出,进程等待所有子线程执行完毕后才结束
进程启动后会默认产生一个主线程,默认情况下主线程创建的子线程都不是守护线程(setDaemon(False))。因此主线程结束后,子线程会继续执行,进程会等待所有子线程执行完毕后才结束
也就是说,在linux中,如果有死循环的子线程,最好设置一下子线程为守护线程。
对于windows:
没有实测所有情况,但在主进程结束,子线程会强制结束。

subprocess 的使用

常常用subprocess中的Popen来开启外部进程,然后利用Popen.poll 来获取进程的状态从而判断下一步做啥。
在这之前不明白子线程和主进程结束的关系,我在用Popen开启的外部子进程中有一个死循环子线程。然后在主进程中我监控Popen开启的外部子进程状态(用poll),结果子进程报错或者达到条件中断了,poll的返回值依旧是None,从而无法触发子进程结束后的语句,百思不得其解。搞了半天终于找到问题所在以及解决方案,问题在于由于子线程并没有结束,Linux内核会将子进程的父进程ID改为1(也就是init进程),当子进程结束后会由init进程来回收该子进程。此时子进程还存在,用ps可以看到,对于Popen来说它无法判断,只能依旧认为进程还没结束从而返回none,解决办法就是设置子进程中的子线程为守护线程,从而使得主进程在子进程还未结束时就已经退出的情况下,linux不去回收子进程,守护线程的特性会让这里进程退出时,对于守护子线程强制退出(守护线程即子线程依赖于主线程)。最后Popen就可以正常判断进程状态从而返回非None值了。

测试代码,非守护:linux下一直返回None值,windows下正常结束后返回非none值
a.py 开启Popen的脚本

# -*-coding:utf-8-*-
from subprocess import Popen,PIPE


if __name__ == '__main__':
    command = ['python3', 'ceshi.py']
    p = Popen(command, shell=False, stdout=PIPE)
    while True:
        if p.poll()!=None:
            print(p.poll())
            p.terminate()
            break
        else:
            print('status:',p.poll())


b.py 被开启子进程的脚本

# -*-coding:utf-8-*-
import threading
def threadceshi():
    while True:#死循环
        pass
def addd(a,b):
    # print(a/0)
    # assert False,'asdfasfsda'
    p = threading.Thread(target=threadceshi)#未设置守护,设置守护之后问题解决
    p.start()
    count = 0
    while True:
        count+=1
        if count>100:
            break

if __name__ == '__main__':
    addd(1,2)

当前问题查资料发现一些其他有意思的问题:

https://blog.csdn.net/qq_15718805/article/details/105133501 缓存 死锁等。
https://bbs.csdn.net/topics/390596479

参考:

https://www.cnblogs.com/luozx207/p/11944120.html
https://blog.csdn.net/u012351051/article/details/109480055

有关subprocess产生僵尸进程的解决,方法一、二

方法一,不太好也可用:
上面提到的死循环是产生僵尸进程的一个诱因,通过守护来简介的解决了僵尸进程,但僵尸进程产生的根本原因是什么?
一下基于linux来谈:
复杂点的情况,subprocess开启的子进程再去开一些进程即孙进程,也就是被运行的父进程可能没那么听话。父进程可能会再 fork 一些子进程来工作,自己则只当监工 —— 这是不少 Web Server 的做法。 对这种被运行程序如果简单地 terminate,也即对其 pid 发 SIGTERM, 那就相当于谋杀了监工进程,真正的工作进程也就因此被托孤给 init,变成畸形的守护进程,然后资源得不到释放……

这个问题稍微有点棘手,因为自从被运行程序 fork 以后,产生的子进程都享有独立的进程空间和 pid,也就是它超出了我们触碰的范围。好在 subprocess.Popen 有个 preexec_fn 参数,它接受一个回调函数,并在 fork 之后 exec 之前的间隙中执行它。我们可以利用这个特性对被运行的子进程做出一些修改,比如执行 setsid() 成立一个独立的进程组。

Linux 的进程组是一个进程的集合,任何进程用系统调用 setsid 可以创建一个新的进程组,并让自己成为首领进程。首领进程的子子孙孙只要没有再调用 setsid 成立自己的独立进程组,那么它都将成为这个进程组的成员。 之后进程组内只要还有一个存活的进程,那么这个进程组就还是存在的,即使首领进程已经死亡也不例外。 而这个存在的意义在于,我们只要知道了首领进程的 pid (同时也是进程组的 pgid), 那么可以给整个进程组发送 signal,组内的所有进程都会收到。

因此利用这个特性,就可以通过 preexec_fn 参数让 Popen 成立自己的进程组, 然后再向进程组发送 SIGTERM 或 SIGKILL,中止 subprocess.Popen 所启动进程的子子孙孙。当然,前提是这些子子孙孙中没有进程再调用 setsid 分裂自立门户。

Python 3.2 之后 subprocess.Popen 新增了一个选项 start_new_session, Popen(args, start_new_session=True) 即等效于 preexec_fn=os.setsid 。

这种利用进程组来清理子进程的后代的方法,比简单地中止子进程本身更加“干净”。基于 Python 实现的 Procfile 进程管理工具 Honcho 也采用了这个方法。当然,因为不能保证被运行进程的子进程一定不会调用 setsid, 所以这个方法不能算“通用”,只能算“相对可用”。如果真的要百分之百通用,那么像 systemd 那样使用 cgroups 来追溯进程创建过程也许是唯一的办法。也难怪说 systemd 是第一个能正确地关闭服务的 init 工具。

也就是后续kill进程可以考虑通过向进程组发送信号来关闭

proc = subprocess.Popen(shell_args, preexec_fn=os.setsid)
proc = subprocess.Popen(shell_args,start_new_session=True)
#不需要terminate kill之类的操作了……
     try:
         os.killpg(proc。pid, signal.SIGTERM)
     except OSError as e:
         warnings.warn(e)

方法一的缺陷在于,由于你是单开了进程组,跟脚本的进程一点关系都没有了,如果直接kill脚本那个进程,那么这个单开的进程组是没任何影响的,孤单的在哪里运行。
参考:https://blog.tonyseek.com/post/kill-the-descendants-of-subprocess/

方法二,完美的解决:
其实核心问题就是subprocess开启的子进程又开了进程,导致了孙进程的出现,而用subprocess的kill、terminate等命令杀死该进程时,孙进程常常形成僵尸进程,那么,粗暴的办法就是,我能不能每次关闭子进程时,先关闭它的孙进程?哈哈哈对的,一个个进程杀过去!本来差点上演一出通过shell脚本来获取孙进程的戏码,结果无意中发现了psutil这个库,这个库可用通过进程pid找到该进程的子进程……孙进程等

def kill_process(pid):
    try:
        p = psutil.Process(pid)
        for child in p.children(recursive=True):
            child.terminate()
        p.terminate()
        # os.killpg(pid, signal.SIGTERM)
        # os.killpg(os.getpgid(pid), signal.SIGKILL)
    except OSError as e:
        print(e)

方法三,windows 和 linux两个平台下分别调用命令行杀死进程

def kill_group(pid: int) -> bool:
    """
    杀死对应的进程
    @param pid:进程的id
    @return: 是否杀死进程
    """
    # 本函数用于中止传入pid所对应的进程
    if os.name == 'nt':
        # Windows系统
        cmd = 'taskkill /pid ' + str(pid) + ' /f'
        try:
            os.system(cmd)
            print(pid, 'killed')
            return True
        except Exception as e:
            print(e)
            return False
    elif os.name == 'posix':
        # Linux系统
        cmd = 'kill ' + str(pid)
        # cmd = 'kill -9 ' + str(pid)
        try:
            os.system(cmd)
            print(pid, 'killed')
            return True
        except Exception as e:
            print(e)
            return False
    else:
        print('Undefined os.name')
        return False
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值