DDP分布式训练中遇到的一些问题

xx_xjm

已于 2023-06-14 15:38:42 修改

阅读量1.7k

点赞数 3

文章标签： python

于 2023-06-11 16:27:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xx_xjm/article/details/131154564

版权

1：所有forward的输出必须参与到loss计算并回传

2：类似于layer_norm这样的操作是无需进行分布式通信的，也无法进行分布式通信，所以在DDP的时候必须把find_unused_parameters设置为True

3：当报错形式为如下时，即在某一个进程的显卡上没有接收到梯度

这个时候可以在命令行前面加上TORCH_DISTRIBUTED_DEBUG=DETAIL, 这样，将找出具体时哪些参数没有接收到梯度，以此更好的调整代码

4：关于0号卡的显存为什么远高于其他卡

一方面是需要设置torch.cuda.set_device(rank)和torch.cuda.empty_cache()，一般设置在dist.init_process_grop之后（个人习惯），至于为什么，参考一下这篇文章

(4条消息) Pytorch清空显存缓冲区(torch.cuda.empty_cache)_pytorch 释放显存_hxxjxw的博客-CSDN博客

但实验发现，重点其实在torch.cuda.set_device(rank)，所以DDP一定要加这个代码，即使已经用了CUDA_VISIBLE_DEVICES

另一方面是要保证下载预训练模型的时候，torch.load（）的时候加上map_location="cpu"

遇到在补充..........

博客等级

码龄5年

88
原创

133
点赞

359
收藏

44
粉丝

关注

私信

热门文章

分类专栏

CV笔记 62篇
pytorch扩展 1篇
c++笔记 3篇
NLP笔记 1篇

展开全部收起

上一篇：: 简单记录下pylighting

下一篇：: 张量的is_leaf参数和required_grad参数

最新评论

关于pytorch扩展的几个问题
weixin_48143332: 系统安装了cuda，也设置了环境变量，print(torch.utils.cpp_extension.CUDA_HOME) print('CUDA版本:',torch.version.cuda) print('Pytorch版本:',torch.__version__) 都正常，为什么 cuda_home = os.environ.get('CUDA_HOME') if cuda_home: print("CUDA_HOME环境变量设置为:", cuda_home) else: print("CUDA_HOME环境变量未设置") print(torch.utils.cpp_extension.CUDA_HOME) 都是None呢
torch.distributed补充
destiny44123: 加req也不对，这里看上去对是因为你传输的tensor太小；本质上isend和irecv都是异步操作，接收端在访问前应调用wait方法。
pytorch分布式训练
jxqbuct: isend得有返回值，然后wait就行了
pytorch自定义forward和backward函数
xx_xjm: 不是吧，函数有几个输入，反传就应该有几个，输入等于自变量，求导等于求偏导吧！！
pytorch自定义forward和backward函数
过◎往: 应该是前向return了几个参数 backward要对这几个参数求导吧

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。