mxnet-gpu OSError: [WinError 126] 找不到指定的模块
长时间运行模型训练后,貌似与cuda断开连接,训练中断(详细的run内报错没有保存下来,尝试寻找暂时没找到)。
再次重新运行开始训练时出现如下错误:
在import mxnet as mx处出现:
File "D:\anaconda\lib\site-packages\mxnet\base.py", line 213, in <module>
_LIB = _load_lib()
File "D:\anaconda\lib\site-packages\mxnet\base.py", line 204, in _load_lib
lib = ctypes.CDLL(lib_path[0], ctypes.RTLD_LOCAL)
File "D:\anaconda\lib\ctypes\__init__.py", line 348, in __init__
self._handle = _dlopen(self._name, mode)
OSError: [WinError 126] 找不到指定的模块。
怀疑是cudart.dll出问题,运行另一个tensorflow模型观察到成功连接cuda。
print路径查看具体缺失的dll文件,输出:D:\anaconda\envs\mxnet-gpu\lib\site-packages\mxnet\libmxnet.dll
尝试卸载mxnet-cu101重新安装,然后重新运行程序,仍然出现相同的报错。
打开terminal,运行python,import mxnet as mx,成功;
查看路径,文件存在;
一怒之下重启电脑,问题解决。