multiprocessing.context.TimeoutError
RuntimeError: mindspore/ccsrc/backend/session/kernel_build_client.h:109 Response] Response is empty
【操作步骤&问题现象】
1、修改resnet101_imagenet2012_config.yaml中的训练集路径,更改类数量以适应新数据集
2、在models/official/cv/resnet/下使用命令python train.py进行训练
解答:
出现这个问题大概率是开了图算融合特性,然后AKG算子编译卡死超时导致。如果要进一步看相关问题,可能需要你修改一下网络脚本,设置一下svae_graphs=True,然后会在本地生成一个kenel_meta文件,里面有一些相关的INFO,发给我们才能定点分析。(当前这个log看不出来更具体的情况了。)
当然如果只是想跑通这个网络,倒是也可以尝试将train.py里的set_graph_kernel_context这个函数稍微改一下,其中enable_graph_kernel设成False,下一行再注释掉,再跑,看看是否能通。
使能图算融合特性只是对时间性能可能会有优势,关闭该特性,对精度收敛啥的无影响。