Slurm集群运行代码指令

打开记事本 输入

#!/bin/sh
#SBATCH -J yanghao
#SBATCH -o output/log.out.%j
#SBATCH -e output/log.err.%j
#SBATCH --partition=gpuA100_2
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --ntasks-per-node=1
#SBATCH --gpus=1
python train.py

#SBATCH -J:作业名

#SBATCH -o:输出信息保存到output下面,记得提前建一个文件夹

#SBATCH -e:报错信息保存到output下面,同上

#SBATCH --partition=:指定显卡集群

#SBATCH --nodes=:申请节点

#SBATCH --ntasks=:每个节点的任务数

#SBATCH --ntasks-per-node:cpu核心使用数

#SBATCH --gpus=:指定gpu个数

python train.py:运行代码名称

保存为run.slum

放到代码目录下

命令行输入

sbatch run.slum

得到输出

Submitted batch job 1077

代码执行完成

如图生成日志文件 

可以打开看到输出信息

如想动态看输入日志 命令行输入tail -f  ./output/log.out.(日志ID)

tail -f  ./output/log.out.1077
(kujouriu) [kujouriu@master vision_transformer]$ tail -f output/log.out.1077
[valid epoch 41] loss: 1.215, acc: 0.616: 100%|██████████| 18/18 [00:06<00:00,  2.63it/s]
[train epoch 42] loss: 1.234, acc: 0.617: 100%|██████████| 72/72 [00:45<00:00,  1.59it/s]
[valid epoch 42] loss: 1.209, acc: 0.626: 100%|██████████| 18/18 [00:06<00:00,  2.62it/s]
[train epoch 43] loss: 1.239, acc: 0.612: 100%|██████████| 72/72 [00:45<00:00,  1.59it/s]
[valid epoch 43] loss: 1.154, acc: 0.638: 100%|██████████| 18/18 [00:06<00:00,  2.65it/s]

查看任务

squeue   #查看目前正在运行的任务
(kujouriu) [kujouriu@master vision_transformer]$ squeue
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
              1077 gpuA100_2  yanghao kujouriu  R      49:45      1 gpu01

取消任务

scancel 1077 #取消挂起或等待或者运行的作业

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值