自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

人工智能

人工智能

UDAIOT1000

CSDN认证博客专家 CSDN认证企业博客

码龄12年

249: 原创

5341: 周排名

5776: 总排名

969万+: 访问

: 等级

5468: 积分

1004: 粉丝

1462: 获赞

35: 评论

2436: 收藏

私信

关注

热门文章

分类专栏

最新评论

vscode 配置rust格式化的正确方法
夜悊: 可以，很实用！！！
Ubuntu下docker compose 安装部署ElasticSearch 和 Kibana 8.15.2
小王毕业啦: 这篇博主的文章让我对在Ubuntu下安装部署ElasticSearch 和 Kibana 8.15.2有了全新的理解，内容非常有价值。从博文中可以感受到博主对主题的深入了解和热情，详细的步骤描述让我能够轻松地跟着操作。希望未来能够看到更多类似的高质量文章，也期待和博主一起学习，共同进步。非常感谢博主的分享和支持！
Docker迁移存储目录
CSDN-Ada助手: Docker Hub 是什么？如何使用它？
Docker Compose安装单节点redis
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
在Ubuntu 24.04 LTS (Noble Numbat)上搭建Kubernetes1.30集群
UDAIOT1000: 找一种上网的代理

最新文章

2024

nccl

关注

关注数：文章数：1 文章阅读量：3815 文章收藏量：9

作者: UDAIOT1000

人工智能Developer

展开

torchrun在验证集使用一个GPU时报NCCL超时：Watchdog caught collective operation timeout的解决方案

有时候在分布式训练时，可能会出现nccl通信超时的问题，出现的原因好像是在某些数据处理、加载等过程，多个进程一起完成，但是某些计算（比如loss具体不知道都有啥）需要rank0自己来做，但是由于默认的30分钟没算完，没完成不同rank之间的正常通信，导致报错。增加超时时间：你可以尝试增加NCCL操作的超时时间。在PyTorch中，你可以通过设置。

原创 2024-03-26 20:28:07 · 3817 阅读 · 0 评论