打算在服务器上后台训练一个网络,然后由于用了visdom跟踪训练和验证的过程:
先要启动visdom:
python -m visdom.server
然后再python train.py
由于这两个都需要在后台运行,所以涉及到nohup多个命令,但是我一开始各自使用nohup时,发现运行python train.py输出到的日志文件中没有同步的记录,只有visdom那个日志文件有实时记录。
有点类似这位兄弟遇到问题:https://bbs.csdn.net/topics/396523544
网上查的很多方法都没用,弄了好久,最后解决方案如下(实际上很简单...开始真没注意到):
如果你这两个文件里面的一些内容是用print打印输出的话,那么这些输出应该被正确地重定向到你设定的日志文件中。而如果你仍然没有在日志文件中看到实时的输出,可能是由于缓冲导致的延迟。
你可以尝试使用 -u 选项来运行 Python 脚本,以禁用输出缓冲。在你的脚本中,将命令修改为:
nohup python -m visdom.server > log_vis.txt 2>&1 &
nohup python -u train.py >> log_train.txt 2>&1 &
另外,最好把这两个命令写到一个脚本文件中:如写到my_script.sh:
#!/bin/bash
nohup python -m visdom.server > log_vis.txt 2>&1 &
nohup python -u train.py >> log_train.txt 2>&1 &
然后授予脚本文件执行权限。使用以下命令将脚本文件设置为可执行:
chmod +x my_script.sh
然后运行脚本文件。使用以下命令执行脚本文件,即可将多个程序在后台同时运行,并将输出记录到各自的日志文件中:
./my_script.sh
最后,如果要在本地电脑上随时查看远程服务器上运行的visdom情况,可以在本地打开git bash(因为我平时用的都是git的ssh远程连接的),然后输入
ssh -N -L 8097:localhost:8097 username@server_ip -p port_number
username
是你在远程服务器上的用户名,server_ip
是远程服务器的 IP 地址,port_number
是 SSH 连接的端口号。
连接上之后,现在就可以在本地计算机上打开浏览器,并访问 http://localhost:8097
了。此时能够直接访问远程服务器上运行的 Visdom 服务器,并查看其状态和可视化界面,如下图:
要断开本地电脑与远程服务器之间的 SSH 连接,而不影响远程服务器上的运行:则按下 Ctrl + C
组合键,即中断当前正在运行的命令。