python -m torch.distributed.launch --nproc_per_node=8

weixin_45833431

已于 2023-05-17 11:27:12 修改

阅读量3.1k

点赞数 11

文章标签： python 深度学习人工智能

于 2023-05-17 11:21:02 首次发布

本文链接：https://blog.csdn.net/weixin_45833431/article/details/130721985

版权

一、

多GPU启动指令:python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_gpu_using_launch.py,指令,nproc_per_node参数为使用GPU数量。我们使用了use_env传入了这个参数，它就会在环境变量中存入一系列参数，包括RANK,WORLD_SIZE,LOCAL_RANK

二、

torch.distributed.launch命令介绍
我们在训练分布式时候，会使用到 torch.distributed.launch
可以通过命令，来打印该模块提供的可选参数 python -m torch.distributed.launch --help

usage: launch.py [-h] [--nnodes NNODES] [--node_rank NODE_RANK]
[--nproc_per_node NPROC_PER_NODE] [--master_addr MASTER_ADDR] [--master_port MASTER_PORT]
[--use_env] [-m] [--no_python] [--logdir LOGDIR]
training_script ...

torch.ditributed.launch参数解析（终端运行命令的参数）：

nnodes：节点的数量，通常一个节点对应一个主机，方便记忆，直接表述为主机
node_rank：节点的序号，从0开始
nproc_per_node：一个节点中显卡的数量
-master_addr：master节点的ip地址，也就是0号主机的IP地址，该参数是为了让其他节点知道0号节点的位，来将自己训练的参数传送过去处理
-master_port：master节点的port号，在不同的节点上master_addr和master_port的设置是一样的，用来进行通信

torch.ditributed.launch相关环境变量解析（代码中os.environ中的参数）：

WORLD_SIZE：os.environ[“WORLD_SIZE”]所有进程的数量
LOCAL_RANK：os.environ[“LOCAL_RANK”]每张显卡在自己主机中的序号，从0开始
RANK：os.environ[“RANK”]进程的序号，一般是1个gpu对应一个进程

三、

多机多卡的分布式
在0号机器上调用
python -m torch.distributed.launch --nproc_per_node 4 --nnodes 2 --node_rank 0 --master_addr='172.18.39.122' --master_port='29500' train.py
在1号机器上调用
python -m torch.distributed.launch --nproc_per_node 4 --nnodes 2 --node_rank 1 --master_addr='172.18.39.122' --master_port='29500' train.py
注意:

命令中的【–master_addr=‘172.18.39.122’】指的是0号机器的IP，在0号机器上运行的命令中【node_rank】必须为0
只有当【nnodes】个机器全部运行，代码才会进行分布式的训练操作，否则一直处于等待状态

四、

单机多卡训练
只需要说明想要使用GPU的[编号]、[数量]即可。由于不需要不同机器之间的通信，就少了其余4个参数的设定
export CUDA_VISIBLE_DEVICES=0,1
python -m torch.distributed.launch --nproc_per_node=2 train.py

单机单卡训练
当工程提供的是分布式训练代码，但我们只想用单张显卡运行。
机器上只有一张显卡：
python -m torch.distributed.launch train.py
机器上有多张显卡：
export CUDA_VISIBLE_DEVICES=1
python -m torch.distributed.launch train.py

五、

大家使用的服务器中有多个GPU，而这个大服务器又在被很多人使用，比如你的课题组的同学。

为了资源合理分配，不占用别人正在使用的GPU，我们可以指定自己要使用的GPU组（也就是在你的代码中使用的某一个或某几个GPU），这样就很有效的避免了GPU的资源占用，实现资源的最大化，也不用因为占用特别大的GPU被课题组的“拉黑举报”了！HHH~~~

选择特定的GPU组运行程序可在程序运行命令前，如【train.py】开头部分使用如下命令：

CUDA_VISIBLE_DEVICES=0
0为服务器中的GPU编号，可以为0, 1, 2, 3等，表明对该程序LInux服务器可见的GPU编号。

weixin_45833431

关注

11
点赞
踩
40

收藏

觉得还不错? 一键收藏
1
评论
python -m torch.distributed.launch --nproc_per_node=8

多GPU启动指令:python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_gpu_using_launch.py,指令,nproc_per_node参数为使用GPU数量。我们使用了use_env传入了这个参数，它就会在环境变量中存入一系列参数，包括RANK,WORLD_SIZE,LOCAL_RANK。
复制链接

扫一扫