【bug描述】:模型为仅保存参数的模型,已确定加载语句 “没有问题” ,且每次测试的图片数据固定,但是每次推理得到的结果都不一样。
【bug分析】:实际上在加载模型并不是完全没有问题,在使用如下加载语句时出现
cnn.load_state_dict(torch.load(os.path.join(MODEL_PATH, "model.pth"))['model'])
#保存语句如下:
#torch.save({
# 'model':cnn.state_dict(),
# 'optimizer': optimizer.state_dict()},
# os.path.join(MODEL_PATH, "model.pth"))
会报一个:Missing key(s) in state_dict ....和 Unexpected key(s)...的错误,但是我啥也没管通过下面这种方式压了下去:
cnn.load_state_dict(torch.load(os.path.join(MODEL_PATH, "model.pth"))['model'], False)
下面我们先看看加了这个 False 对模型参数加载有什么影响。下面是load_state_dict的函数定义:
load_state_dict(self, state_dict, strict=True)
strict 的作用是判断上面参数拷贝过程中是否有unexpected_keys
或者missing_keys
,如果有就报错,代码不能继续执行。当然,如果 strict=False
,则会忽略这些细节。当然,粗暴的直接使用False屏蔽保存模型与加载模型之间的keys不对应,必然会出现错误,而此次错误的源头就是在 torch.nn.DataParallel(model).cuda() 下保存与加载不一致造成。
对于这个错误的解决也许可以参考 :https://blog.csdn.net/qq_32998593/article/details/89343507 ,我建议保存模型不变,在加载模型时,使用下面语句:
device = torch.device('cpu')
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH, map_location=device))
在 CPU 上加载在 GPU 上训练的模型,必须在调用 torch.load()
的时候,设置参数 map_location
,指定采用的设备是 torch.device('cpu')
,这个做法会将张量都重新映射到 CPU 上。
【bug解决】:我的解决方式很简单:
#cnn = torch.nn.DataParallel(cnn).cuda()
cnn = cnn.cuda()
因为我并没有用到多GPU并行训练,因此不必写这个语句,然后保存和加载模型参数语句不变,即可解决错误,数据相同每次推理结果即会相同。
flag!!一篇pytorch 模型保存与加载分析文章!