mindspore在gpu上进行多机分布式训练问题

最新推荐文章于 2024-08-04 21:19:50 发布

小乐快乐

最新推荐文章于 2024-08-04 21:19:50 发布

阅读量483

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45666880/article/details/125770247

版权

mindspore在gpu上进行多机分布式训练

【操作步骤&问题现象】

1、如何指定每个节点的显卡编号？例如pytorch是通过这种方式，os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'，那mindspore 呢

2、mpirun进行多机分布式时，mindspore是如何进行多机并行的，能否详细描述一下原理？具体来说，能否说明一下多个节点之间如何进行通信，数据和可执行代码需要放在多个节点的共享文件系统中吗，还是只需要放在主节点，再通过网络传输给其他节点？

3、mindspore官方文档中关于gpu上的多机分布式训练的教程不够细致和完善，用户很难根据这个教程完成多机分布式训练

【截图信息】

如下图所示，我在进行两个不同服务器（分别为118和52服务器）上的多机gpu分布式，用的是mindspore官方提供的yolov4模型，代码和数据集均放在118服务器上，两个服务器之间已经做好ssh免密通信，但是两个服务器之间没有开启共享文件系统，然后在118服务器上运行 run_train_gpu.sh后，出现下面的错误，提示在52服务器上找不到可执行文件（这个原因是啥），我比较好奇是否一定要建立共享文件系统，可执行文件和数据不能通过网络传输到其他节点吗？麻烦大佬看一下，非常感谢！

解答：

问题1，MindSpore跟Pytorch一样，也是通过os.environ['CUDA_VISIBLE_DEVICES'] = '0,1' 指定每个节点的显卡编号。

问题2，GPU多个节点之间一般是通过TCP或者RDMA进行通信，多机训练要保证节点间网络互通。

问题3，至于数据和可执行代码需要不需要放在多个节点上面，用户根据自己需要去写启动脚本。若不放在多个节点上面，则需要显示的通过ssh的方式(scp)将数据和可执行代码传到其他节点上，然后在进行mpirun。

感谢您提出的问题，MindSpore官网后续会根据您的建议进行改善。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小乐快乐 CSDN认证博客专家 CSDN认证企业博客

码龄5年

969: 原创

1万+: 周排名

3788: 总排名

37万+: 访问

: 等级

1万+: 积分

522: 粉丝

684: 获赞

55: 评论

867: 收藏

私信

关注

热门文章

最新评论

如何可以找到AI核相关指令？
qq_37734620: 博主你好，你是在哪找到文档有关于达芬奇架构的指令的呀
Pytorch中的torch.no_grad对应MindSpore哪个方法
Wu Zhenqing: 根据官方文档的解释，torch.no_grad 在 PyTorch 中，默认情况下，执行正向计算时会记录反向传播所需的信息，在推理阶段或无需反向传播网络中，这一操作是冗余的，会额外耗时，因此，PyTorch 提供了torch.no_grad 来取消该过程。而 MindSpore 只有在调用grad才会根据正向图结构来构建反向图，正向执行时不会记录任何信息，所以 MindSpore 并不需要该接口，也可以理解为 MindSpore 的正向计算均在torch.no_grad 情况下进行的。参考https://www.mindspore.cn/docs/zh-CN/r2.0/migration_guide/typical_api_comparision.html
MindSpore提供mindyolo套件训练时，预训练模型无法加载
m0_73356506: 你好,你训练过程中会出现loss跑的非常大吗
mindspore训练yolov5时，loss=nan
m0_45652556: 请问问题解决了吗，困扰我一个星期了
MindSpore 如何实现像Torch里面 retain_graph=True 的功能
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。