PyTorch DistributedDataParallel使用小结

最新推荐文章于 2024-01-23 01:35:51 发布

shizue.yy

最新推荐文章于 2024-01-23 01:35:51 发布

阅读量1.8k

点赞数 2

分类专栏： PyTorch学习笔记文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanye_yuanye/article/details/108226183

版权

PyTorch学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

PyTorch DistributedDataParallel使用小结

最近在做一些pretrain的工作，需要用到单机多卡。PyTorch上单机多卡常用的办法是DataParallel，但是由于一些问题官方建议已经改用DistributedDataParallel，它既可以用作单机多卡也可以用作多机多卡，以下找到两个例子可以作为参考：

参考一：简单使用
参考二：官方的ImageNet例子
这个例子中包含了如何在使用DistributedDataParallel的时候加载和保存ckeckpoint；

这里记录一下遇到的几个问题：

在建立Dataloader的过程中，如果sampler参数不为None，那么shuffle参数不应该被设置；
使用DistributedDataParallel意味着使用多进程，如果直接保存模型会保存两次checkpoint，注意此时只能使用主进程保存，
在参考二中对应的代码片段为：保存模型片段
在使用单机多卡的情况下应该：

if local_rank == 0:
	save_ckecpoint()

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
PyTorch DistributedDataParallel使用小结

PyTorch DistributedDataParallel使用小结最近在做一些pretrain的工作，需要用到单机多卡。PyTorch上单机多卡常用的办法是DataParallel，但是由于一些问题官方建议已经改用DistributedDataParallel，它既可以用作单机多卡也可以用作多机多卡，以下找到两个例子可以作为参考：参考一：简单使用参考二：官方的ImageNet例子这个例子中包含了如何在使用DistributedDataParallel的时候加载和保存ckeckpoint；这
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。