在 linux 系统进行 AI 任务训练时,运行时间较长,除了使用 screen 命令来获取运行日志外,还可以使用命令脚本来获取执行任务的运行日志。
通常来讲,python 的程序是可以通过类似 python train.py > run20200101.log 2>&1 & 这种命令形式来运行并获得取日志的。这在 Python 单进程运行的情况下没有问题,但如果是 train.py 创建了几个子工作进程来执行训练任务,子进程的日志输出并不能记录到 run20200101.log 文件中。在这种情况下就需要借助 shell 程序来完成执行任务了,一个例子程序如下:
$ vi run.sh
python train.py --work-num=4
保存后,运行
$ chmod +x run.sh
$ ./run.sh > run20200101.log 2>&1 &
$ tail -f run20200101.log
在这里重定向写在 run.sh 命令之后,而不是 python 命令之后,这样所有进程及子进程的标准输出以及错误输出都会记录在运行日志之中。