使用mindspore的ResNet101使用GPU进行训练时报错

最新推荐文章于 2024-05-11 14:21:59 发布

小乐快乐

最新推荐文章于 2024-05-11 14:21:59 发布

阅读量596

点赞数

文章标签： python 深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45666880/article/details/125639207

版权

multiprocessing.context.TimeoutError

RuntimeError: mindspore/ccsrc/backend/session/kernel_build_client.h:109 Response] Response is empty

【操作步骤&问题现象】

1、修改resnet101_imagenet2012_config.yaml中的训练集路径，更改类数量以适应新数据集

2、在models/official/cv/resnet/下使用命令python train.py进行训练

解答：

出现这个问题大概率是开了图算融合特性，然后AKG算子编译卡死超时导致。如果要进一步看相关问题，可能需要你修改一下网络脚本，设置一下svae_graphs=True，然后会在本地生成一个kenel_meta文件，里面有一些相关的INFO，发给我们才能定点分析。（当前这个log看不出来更具体的情况了。）

当然如果只是想跑通这个网络，倒是也可以尝试将train.py里的set_graph_kernel_context这个函数稍微改一下，其中enable_graph_kernel设成False，下一行再注释掉，再跑，看看是否能通。

使能图算融合特性只是对时间性能可能会有优势，关闭该特性，对精度收敛啥的无影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用mindspore的ResNet101使用GPU进行训练时报错

multiprocessing.context.TimeoutErrorRuntimeError: mindspore/ccsrc/backend/session/kernel_build_client.h:109 Response] Response is empty【操作步骤&问题现象】1、修改resnet101_imagenet2012_config.yaml中的训练集路径，更改类数量以适应新数据集2、在models/official/cv/resnet/下使用命令python train.py进行训
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。