问题:
写模型的途中碰到这个问题,一顿百度要不说是pytorch版本问题,要不就说是类别索引超了引起,不过都没啥用,因为报错的地方是一个很简单的赋值操作。
scores[:, 0] = -float("inf")
#RuntimeError: CUDA error: an illegal memory access was encountered
同时在debug的过程当中发现,模型某个网络执行后爆了个warning
lm_logits = self.linear(outputs) + self.bias
#warning:Thudacheck FAIL file=/pytorch/aten/c/THC/Thccachinghostallocator cpp Line=278 error=700: an illegal memory access was encountered
乍一看,两个地方都是比较简单的,但是却报了奇怪的错误。
解决方法:
debug过程发现了一个异常的地方
pytorch网络输出的数据data中,变量并不显示具体的网络输出值,而是数据的地址信息
T:torch.Tensor object at 0x7fb27e7c8f30
data:torch.Tensor object at 0x7fb27e7c8f30
后来发现是因为self.linear这个线性层是'cpu',而其他网络是在'cuda'上的,相当于是将'cuda'类型数据前向传播到'cpu'的网络当中,导致的不一致,将该网络转移到'cuda'即可。