unhandled cuda error, NCCL version 2.7.8问题解决

unhandled cuda error, NCCL version 2.7.8问题解决

1. 问题背景

使用torch框架进行分布式训练时,python -m torch.distributed.launch --nproc_per_node=4遇到NCLL相关错误

RuntimeError: unhandled cuda error, NCCL version 2.7.8

2. 解决

参考:

https://github.com/NVIDIA/nccl/issues/290

  1. 设置环境变量来获取更详细的错误信息。

    import os
    os.environ['NCCL_DEBUG'] = 'INFO'
    
    import torch
    torch.distributed.init_process_group(backend='nccl')
    
  2. 我遇到的问题是include/shm.h:28 NCCL WARN Call to posix_fallocate failed : No space left on device

    • 问题原因:我的运行环境是docker容器,创建容器的时候没有指定shm-size,默认shm-size值是64M(可以通过df -h /dev/shm命令查看);对于2.7.8版本的NCLL,其运行过程中试图创建一个共享内存段,而/dev/shm空间不足,导致该调用失败。
    • 解决方法(推荐方法2):
      • 方法1:重新创建一个容器,在创建时指定shm-size为更大的值,例如docker run -it --shm-size=512m ubuntu /bin/bash (或者通过修改配置文件修改已经运行的容器的shm-size
      • 方法2:设置环境变量NCCL_SHM_DISABLE=1禁用SHM (Shared Memory)传输,并强制使用NCCL2.6默认的P2P传输方式。例如NCCL_SHM_DISABLE=1 CUDA_VISIBLE_DEVICES=1,2,3,4 python -m torch.distributed.launch --nproc_per_node=4 run.py
  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值