【踩坑日记8】用nohub命令在服务器上跑代码被中断

问题描述

[18:30:00] WARNING  Received 1 death signal, shutting down workers    api.py:729
           WARNING  Sending process 24340 closing signal SIGHUP       api.py:698

问题分析

  • SSH 会话超时中断
  • 问题出在命令nohup上,即使我们指定了命令nohup,由SIGHUP操作的分布式训练,进程在关闭终端时也会收到上述nohup信号。切换到tmux将解决此问题。

问题解决1

问题解决2

  • 进入tmux(未安装需先安装)
(promptist) 客户端@服务器:~/code/promptist$ tmux
  • 运行语句
客户端@服务器:~/code/promptist$ python XXX.py
  • 关闭运行窗口但未关闭程序(在另一个terminal用)
(promptist) 客户端@服务器:~/code/promptist$ tmux detach
  • 查看在跑的窗口
(promptist) 客户端@服务器:~/code/promptist$ tmux ls
0: 1 windows (created Thu Mar 21 10:51:54 2024) [119x36]
# 第0号只有一个terminal在跑
  • 重新进入窗口
(promptist) 客户端@服务器:~/code/promptist$ tmux attach -t 0
  • 浏览tmux的terminal输出结果(翻页模式)
  1. 进入tmux翻屏模式
    先按 ctrl +b,松开,然后再按 [
  2. 实现上下翻页
    进入翻屏模式后,PgUp PgDn 实现上下翻页
  3. 退出
    q
  • 杀死会话
(promptist) 客户端@服务器:~/code/promptist$ tmux kill-session -t 0

参考

Error: Received 1 death signal, shutting down workers #210
nohup训练pytorch模型时的报错以及tmux的简单使用
Tmux 使用教程
CodeWithMe:万能编辑器VSCode——文本操作,词云,ipython,tmux
tmux翻页,翻屏

  • 8
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值