Pytorch并行和分布式

最新推荐文章于 2024-07-12 13:51:22 发布

芯光智能

最新推荐文章于 2024-07-12 13:51:22 发布

阅读量242

点赞数

分类专栏：深度学习V2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzhrsh/article/details/110074420

版权

深度学习V2 专栏收录该内容

9 篇文章 3 订阅

订阅专栏

本文介绍了PyTorch从v1.6.0版本开始的分布式和并行训练功能，包括分布式数据并行训练（DDP）、基于RPC的分布式训练以及c10d集体通信库。DDP用于在多个进程中复制模型并处理梯度同步，RPC则适用于不适应数据并行的复杂结构，c10d库提供集体和点对点通信API，支持跨进程张量传递。尽管DDP和RPC通常足够使用，但在特定场景下，开发者可能需要直接利用c10d API进行更细粒度的通信控制。

摘要由CSDN通过智能技术生成

从PyTorch v1.6.0开始，中的功能torch.distributed可以分为三个主要组件：

分布式数据并行培训（DDP）是一种广泛采用的单程序多数据培训范例。使用DDP，可以在每个流程上复制模型，并且每个模型副本都将获得一组不同的输入数据样本。DDP负责梯度通信，以保持模型副本同步，并使其与梯度计算重叠，以加快训练速度。
基于RPC的分布式培训（RPC）旨在支持无法适应数据并行培训的常规培训结构，例如分布式管道并行性，参数服务器范式以及DDP与其他培训范式的组合。它有助于管理远程对象的生命周期，并将自动分级引擎扩展到机器范围之外。
集体通信（c10d）库支持跨组内的进程发送张量。它提供了集体通信API（例如 all_reduce 和all_gather）和P2P通信API（例如 send 和isend）。DDP和RPC（ProcessGroup后端）是从v1.6.0版本起的c10d构建的，其中前者使用集体通信，而后者使用P2P通信。通常，开发人员无需直接使用此原始通信API，因为上述DDP和RPC功能可以满足许多分布式培训方案的需求。但是，在某些情况下，此API仍然很有帮助。一个示例是分布式参数平均，其中应用程序希望在向后传递之后计算所有模型参数的平均值，而不是使用DDP来传递梯度。这可以使通信与计算脱钩，并允许对通信内容进行更细粒度的控制，但另一方面，它也放弃了DDP提供的性能优化。在与PyTorch编写分布式应用程序显示了使用c10d通信API的示例。

待续。。。。。。。。。。。。。。。。。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

芯光智能 CSDN认证博客专家 CSDN认证企业博客

码龄10年

213: 原创

2万+: 周排名

162万+: 总排名

85万+: 访问

: 等级

6361: 积分

3410: 粉丝

503: 获赞

122: 评论

2155: 收藏

私信

关注

分类专栏

最新评论

VS如何解决Cannot find or open the PDB file问题
Ray612: 请问需要联网嘛
std::cout 与 cout 有什么区别
2301_81112567: 博主说的很清楚了吧
tensorflow lite源码编译与android部署
笙丶: 请问有安卓调用SO文件的源码么
查找两张图像差异的地方并标记 python版&c++版
qq_37231938: 解决办法这篇https://blog.csdn.net/BC_COM/article/details/104546310?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167940726816800222834903%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=167940726816800222834903&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-2-104546310-null-null.142^v75^control_1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=%28-215%3AAssertion%20failed%29%20npoints%20%3E%3D%200%20%26%26%20%28depth%20%3D%3D%20CV_32F%20%7C%7C%20depth%20%3D%3D%20CV_32S%29%20in%20function%20cv%3A%3ApointSetBoundingRect&spm=1018.2226.3001.4187
机器学习求职60问答案
Frankheaven1: 答案在哪呀？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。