Model().infer_predict_layout 报告找不到参数的shape
在昇腾910上训练了一个模型并行+数据并行的大模型,然后在相同硬件上做分布式推断,但现在加载模型分割文件 “strategy.ckpt” 后,Model().infer_predict_layout 会打印很多WARNING 级的Log,表示加载的模型分割策略中找不到参数的对应Shape。
如果打开训练中保存的IR文件,发现训练的张量名,和后面做分布式推理的张量名是一致的,只是infer_predict_layout会打出WARNING 日志。
类似于上图,一共197条,应该是所有参数都找不到。
想询问一下,我有什么办法去看“strategy.ckpt” 里面的模型切割信息么,主要是看里面保存的节点名都是什么。或者还有其它办法来找到问题的所在么。
*******************************************************************************************************************
如果load完没有报错,并且没有报not loaded 这个打印没有加载的参数个数的日志,就是load成功了。 这种问题还可能是在并行的时候shape没有切对。因为看输入的shape其实已经是切分成1024了。可以看下mp=1是否能否跑通,来排除下并行导致的原因