pytorch中多卡训练

最新推荐文章于 2024-03-03 00:54:10 发布

ytusdc

最新推荐文章于 2024-03-03 00:54:10 发布

阅读量2k

点赞数 1

分类专栏： AI之路 - Face

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ytusdc/article/details/119890946

版权

AI之路 - Face 专栏收录该内容

71 篇文章 31 订阅

订阅专栏

- pytorch中多卡训练的过程是怎样的？

- 每张卡都有模型的话BN的参数一样吗？

- pytorch的DistributedDataParallel每个GPU上的模型参数是完全一样的么？

参数一样，但某些时刻梯度不一样。

DDP工作模式下，流程可以想像成：

并行计算各自的loss
并行backward
不同卡之间同步梯度
反向传播

因为不同卡之间的随机初始化是相同的，DDP可以保证不同进程之间的model参数总是一样的.

你看源码的时候应该也看到了类注释里的NOTICE和WARNING，遵守就可以保证进程之间参数一致. 当然还是不放心可以把evaluation在每个进程都做一次，应当输出一样的结果.

- 多卡训练的时候batchsize变大了精度反而掉了，这是为什么？有想过怎么解决吗？

多卡训练 large batchsize：

理论上的优点：

数据中的噪声影响可能会变小，可能容易接近最优点；

缺点和问题：

降低了梯度的variance；(理论上，对于凸优化问题，低的梯度variance可以得到更好的优化效果; 但是实际上Keskar et al验证了增大batchsize会导致差的泛化能力);

对于非凸优化问题，损失函数包含多个局部最优点，小的batchsize有噪声的干扰可能容易跳出局部最优点，而大的batchsize有可能停在局部最优点跳不出来。

解决方法：

增大learning_rate，但是可能出现问题，在训练开始就用很大的learning_rate 可能导致模型不收敛

使用warming up 减少large learning_rate 模型不收敛的问题

warmup

链接：深度学习训练策略--学习率预热Warmup

在训练初期就用很大的learning_rate可能会导致训练不收敛的问题，warmup的思想是在训练初期用小的学习率，随着训练慢慢变大学习率，直到base learning_rate，再使用其他decay（CosineAnnealingLR）的方式训练

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pytorch中多卡训练

- pytorch中多卡训练的过程是怎样的？- 每张卡都有模型的话BN的参数一样吗？- pytorch的DistributedDataParallel每个GPU上的模型参数是完全一样的么？参数一样，但某些时刻梯度不一样。DDP工作模式下，流程可以想像成：并行计算各自的loss 并行backward 不同卡之间同步梯度反向传播因为不同卡之间的随机初始化是相同的，DDP可以保证不同进程之间的model参数总是一样的.你看源码的时候应该也看到了类注释里的NOTICE和WAR...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。