在多块GPU上训练模型时,出现如下错误:
看很多博客说是:
模型使用了batchnomolization,batchnorm层需要大于一个样本去计算其中的参数,训练中用batch训练的时候当前batch恰好只含一个sample,而由于BatchNorm操作需要多于一个数据计算平均值,因此造成该错误。解决方法是将dataloader的一个丢弃参数设置为true。
于是查看我的训练batch_size=16,
训练集样本:7058
验证集样本:1000
测试集样本:2015
计算了一下均没有剩下一个样本的情况,而且我的数据读入也不是通过DataLoader,保险起见,试了下将数据集的样本数都改为16的倍数,于是便可以运行了。
引用博客:
https://blog.csdn.net/weixin_44790486/article/details/106641833
https://www.cnblogs.com/zmbreathing/p/pyTorch_BN_error.html