pytorch 使用dataparallel时不支持 nccl

问题出现在我将torch1.5.1升级到1.7.0时,使用分布式计算出现了不支持nccl,从而无法进行单机多卡计算。所以这提醒我们环境能用的情况下千万千万不要去更新(未更新之前我是可以使用分布式计算的。。。)。


  1. 扯远了,回归正题。当出现这个问题的时候我先将cuda10.1与对应的cudnn重新安装。然后重新跑程序发现还是不能进行分布式。

  1. 然后我将torch1.7.0退回1.5.1再跑,发现还是不能进行分布式,而且还出现了新问题:RuntimeError: CUDA out of memory. Tried to allocate 2.18 GiB (GPU 0; 15.92 GiB total capacity; 13.71 GiB already allocated; 1.25 GiB free; 13.74 GiB reserved in total by PyTorch) 是的你没看错就是显存爆炸问题。具体解决方案请见我另一篇博客显存爆炸解决方案

  1. 接下来重头戏来了我使用了终极绝招,卸载anaconda并卸载所有环境,然后重新安装所有的包,最后问题迎刃而解。哈哈。但是我不能肯定就是重装就是解决问题的关键所以我将解决问题的过程记录下来以防再遇见。

2020.11.20更新:此方案无效,后续跑程序时又出现不支持NCCL。具体原因未知,一会有一会没有,但是并不妨碍并行的正常使用。猜测可能时torch底层可能出现了问题。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: PyTorch是一个非常流行的深度学习框架,支持多任务训练。然而,有候在使用PyTorch进行多任务训练会遇到卡死和NCCL内存损坏的问题。 卡死和NCCL内存损坏通常是由于内存管理问题引起的。在多任务训练过程中,每个任务都需要占用一定的内存资源。当这些任务同执行,并且内存资源不足,就可能导致卡死和NCCL内存损坏的问题。 要解决这个问题,可以尝试以下几种方法: 1. 减小批量大小:通过减小每个任务的批量大小,可以降低单个任务的内存占用,从而减少卡死和内存损坏的风险。但这也可能会影响模型的训练效果,需要根据具体情况进行权衡。 2. 减少并行度:如果使用了多个GPU并行训练多个任务,可以尝试减少并行度,例如减少使用的GPU数量。这样可以减少每个任务所需的内存资源,并降低卡死和内存损坏的概率。 3. 增加内存资源:如果硬件条件允许,可以尝试增加系统的内存资源。这样可以提供更多的内存给每个任务使用,减少卡死和内存损坏的可能性。 4. 优化模型和代码:还可以尝试对模型和代码进行优化,减少内存的占用。例如,可以使用更小的模型或者减少不必要的计算,以减少内存的使用量。 总之,卡死和NCCL内存损坏是PyTorch多任务训练中常见的问题,但可以通过减小批量大小、减少并行度、增加内存资源或优化模型和代码来解决。 ### 回答2: 在PyTorch中,多任务并行运行可能会遇到卡死和NCCL内存损坏的问题。这通常是因为多个任务同访问同一GPU设备上的内存而导致的。 要解决该问题,可以考虑以下几点: 1. 使用多个GPU设备进行任务并行运行:将多个任务分配到不同的GPU设备上,以避免内存访问冲突。可以使用`torch.nn.DataParallel`或`torch.nn.parallel.DistributedDataParallel`来实现多GPU任务并行。 2. 减少模型的内存占用:可以采取多种措施来减少模型的内存占用。例如,可以减少模型的参数数量、减少卷积层或全连接层的尺寸,或者使用更轻量级的模型。 3. 减小每个任务的批量大小:在多任务并行运行中,每个任务的批量大小可能会导致内存占用过高。可以尝试减小每个任务的批量大小,以减少内存压力。 4. 检查GPU驱动和CUDA版本的兼容性:卡死和内存损坏问题有也可能与GPU驱动和CUDA版本的兼容性有关。建议更新或降低驱动和CUDA版本,并确保它们与PyTorch版本兼容。 5. 优化模型和训练过程:进行模型和训练过程的优化也可能有助于解决问题。可以尝试使用更高效的模型结构、优化算法和超参数设置,以减少对GPU内存的需求。 总而言之,卡死和NCCL内存损坏问题通常是由于多任务并行运行中的内存访问冲突所导致的。通过合理分配任务到不同GPU、减少内存占用、调整批量大小、检查驱动和CUDA版本的兼容性,以及优化模型和训练过程,可以减少或解决该问题。 ### 回答3: PyTorch 是一个流行的深度学习框架,允许用户在GPU上进行高效的深度学习任务。多任务是指在一个模型中同执行多个不同的任务。"卡死 nccl memory corruption" 是一个错误信息,指出发生了内存损坏和卡死。 造成这个错误的原因可能有多种,一些常见的原因包括以下几点: 1. GPU 内存不足:多任务执行,每个任务需要分配一定的GPU内存。如果模型或数据量过大,可能导致内存不足,从而出现内存损坏和卡死现象。 2. 跨 GPU 通信问题:当多个 GPU 同执行多个任务,它们之间需要进行通信以共享参数和梯度。如果通信不正确,可能导致内存损坏和程序卡死。 解决这个问题的方法有以下几种: 1. 减小模型或数据规模:可以尝试减小深度学习模型的大小或缩小输入数据规模,以减少内存占用。 2. 使用更大的内存:如果内存不足,可以考虑升级GPU,使用具备更大内存容量的显卡。 3. 使用分布式训练:如果使用多个GPU进行多任务训练,可以尝试使用PyTorch的分布式训练功能,将任务分配到多个节点上,以减少单个GPU的内存占用。 4. 检查代码错误:检查代码中是否有内存管理、并行处理或通信方面的错误,例如确保正确使用PyTorch的GPU内存管理和通信函数、正确调用分布式训练 API 等。 总之,修复"卡死 nccl memory corruption"错误需要进一步调查具体原因,并根据原因采取相应的解决方法。这可能涉及调整模型或数据规模,升级硬件,使用分布式训练,或者检查代码中的错误。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值