复用别人代码中遇到的问题（pytorch）

最新推荐文章于 2022-04-18 10:37:48 发布

zuber_ss

最新推荐文章于 2022-04-18 10:37:48 发布

阅读量651

点赞数

分类专栏：神经网络 python 计算机视觉

本文链接：https://blog.csdn.net/zuber123/article/details/102936093

版权

计算机视觉同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

神经网络

9 篇文章 0 订阅

订阅专栏

python

9 篇文章 0 订阅

订阅专栏

1.训练时loss保持一个“看似合理”的固定数值，test时准确率为0。
原因：output和label维度不匹配或output或是label的值为0

2.测试集的准确率始终为0
原因：与问题(1)类似，label或output的值存在问题，有可能是在dataloader里包装的sample时就存在问题。
教训：在dataloader里读取图像的方法尽量少传入类的属性作为参数，这样便于调试。

3.训练时没有问题，测试时“out of memory”
原因：我的网络任务是做图像的分类，因此在测试时，放在cuda上的参数量过大，因此做了如下修改：

#原始
data_var = Variable(data,volatile=True).cuda(async=True)
label_var = Variable(label,volatile=True).cuda(async=True)
#改为如下形式
with torch.no_grad():
	data_var = Variable(data).cuda(async=True)
	label_var = Variable(data).cuda(async=True)

做了上述修改之后发现还是会报out of memory的问题，后来逐行排查时发现可能是由于我想要保存图片名和output的值到一个字典里的时候，直接将cuda上的output这一tensor保存下来，所以导致占用的空间过大（具体是什么过程还不清楚，但可以确定是这一行报错），因此在保存的时候做了如下修改：

#原始
preds[img_name]=output
#修改为
preds[img_name]=output.data.cpu().numpy()

zuber_ss

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复用别人代码中遇到的问题（pytorch）

1.训练时loss保持一个“看似合理”的固定数值，test时准确率为0。原因：output和label维度不匹配或output或是label的值为02。
复制链接

扫一扫

专栏目录