在使用HPC跑模型时常常需要批量取消提交的job,本文将三种常见的作业调度系统的批量取消作业方法进行介绍,方便平时使用。
一、Slurm
Slurm取消/删除作业的命令为scancel
,其基本的使用方法有:
命令 | 说明 |
---|---|
scancel < jobid > | 删除指定作业 |
scancel -t ST | 删除指定状态的作业 |
scancel --account=< name > | 删除指定账号的作业 |
scancel --name=< name > | 删除指定名称的作业 |
scancel --partition=< names > | 删除指定分区的作业 |
scancel --reservation=< name > | 删除指定预约名称的作业 |
scancel --state=< names > | 删除指定状态的作业 |
scancel --user=< name > | 删除指定用户的作业 |
scancel --nodelist=< names > | 删除指定节点的作业 |
而在实际shell脚本和命令行中,需要批量取消作业,这时有以下几种方式:
- 方法1(常用)
# 1.取消所有作业
scancel -u <user_name>
#2.不过滤取消
squeue --me -h