问题描述
[18:30:00] WARNING Received 1 death signal, shutting down workers api.py:729
WARNING Sending process 24340 closing signal SIGHUP api.py:698
问题分析
- SSH 会话超时中断
- 问题出在命令nohup上,即使我们指定了命令nohup,由SIGHUP操作的分布式训练,进程在关闭终端时也会收到上述nohup信号。切换到tmux将解决此问题。
问题解决1
问题解决2
- 进入tmux(未安装需先安装)
(promptist) 客户端@服务器:~/code/promptist$ tmux
- 运行语句
客户端@服务器:~/code/promptist$ python XXX.py
- 关闭运行窗口但未关闭程序(在另一个terminal用)
(promptist) 客户端@服务器:~/code/promptist$ tmux detach
- 查看在跑的窗口
(promptist) 客户端@服务器:~/code/promptist$ tmux ls
0: 1 windows (created Thu Mar 21 10:51:54 2024) [119x36]
# 第0号只有一个terminal在跑
- 重新进入窗口
(promptist) 客户端@服务器:~/code/promptist$ tmux attach -t 0
- 浏览tmux的terminal输出结果(翻页模式)
- 进入tmux翻屏模式
先按 ctrl +b,松开,然后再按 [ - 实现上下翻页
进入翻屏模式后,PgUp PgDn 实现上下翻页 - 退出
q
- 杀死会话
(promptist) 客户端@服务器:~/code/promptist$ tmux kill-session -t 0
参考
Error: Received 1 death signal, shutting down workers #210
nohup训练pytorch模型时的报错以及tmux的简单使用
Tmux 使用教程
CodeWithMe:万能编辑器VSCode——文本操作,词云,ipython,tmux
tmux翻页,翻屏