打开记事本 输入
#!/bin/sh
#SBATCH -J yanghao
#SBATCH -o output/log.out.%j
#SBATCH -e output/log.err.%j
#SBATCH --partition=gpuA100_2
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --ntasks-per-node=1
#SBATCH --gpus=1
python train.py
#SBATCH -J:作业名
#SBATCH -o:输出信息保存到output下面,记得提前建一个文件夹
#SBATCH -e:报错信息保存到output下面,同上
#SBATCH --partition=:指定显卡集群
#SBATCH --nodes=:申请节点
#SBATCH --ntasks=:每个节点的任务数
#SBATCH --ntasks-per-node:cpu核心使用数
#SBATCH --gpus=:指定gpu个数
python train.py:运行代码名称
保存为run.slum
放到代码目录下
命令行输入
sbatch run.slum
得到输出
Submitted batch job 1077
代码执行完成
如图生成日志文件
可以打开看到输出信息
如想动态看输入日志 命令行输入tail -f ./output/log.out.(日志ID)
tail -f ./output/log.out.1077
(kujouriu) [kujouriu@master vision_transformer]$ tail -f output/log.out.1077
[valid epoch 41] loss: 1.215, acc: 0.616: 100%|██████████| 18/18 [00:06<00:00, 2.63it/s]
[train epoch 42] loss: 1.234, acc: 0.617: 100%|██████████| 72/72 [00:45<00:00, 1.59it/s]
[valid epoch 42] loss: 1.209, acc: 0.626: 100%|██████████| 18/18 [00:06<00:00, 2.62it/s]
[train epoch 43] loss: 1.239, acc: 0.612: 100%|██████████| 72/72 [00:45<00:00, 1.59it/s]
[valid epoch 43] loss: 1.154, acc: 0.638: 100%|██████████| 18/18 [00:06<00:00, 2.65it/s]
查看任务
squeue #查看目前正在运行的任务
(kujouriu) [kujouriu@master vision_transformer]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
1077 gpuA100_2 yanghao kujouriu R 49:45 1 gpu01
取消任务
scancel 1077 #取消挂起或等待或者运行的作业