Pytorch多卡/多GPU/分布式DPP的基本概念

学习代码阶段,看到了local_rank的概念,学习了此链接,受益匪浅。

  • node:物理节点,就是一台机器,节点内部可以有多个GPU(一台机器有多卡)
  • rank & local_rank:用于表示进程的序号,用于进程之间的通讯。
    • 每一个进程对用了一个rank,rank是指整个分布式任务中进程的序号
    • rank=0的进程就是master进程
    • local_rank是指在一台机器(node)上进程的相对序号,例如机器一上有0,1,2,3,4,5,6,7.机器二上也有0,1,2,3,4,5,6,7。local_rank在node之间相互独立。
    • 单机多卡时,rank就等于loacl_rank
  • nnodes物理节点数量
  • node_rank物理节点的序号
  • nproc_per_node每个物理节点上面进程的数量
  • group进程组,默认只有一个组
  • world_size全局的并行数,全局(一个分布式任务)中,rank的数量
    • 每个node包括16个GPU,且nproc_per_node= 8,nnodes=3,机器的node_rank=5,请问world_size是多少,world_size=3*8 = 24
  • 展示图如下:
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值