现象
模型训练时有如下报错:
torch._C._cuda_init()
RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero.
INFO - 2023-09-27 10:32:31,872 - core - signal_shutdown [atexit]
原因
不知道
解决方法
安装nvidia-modprobe即可:
sudo apt-get install nvidia-modprobe
继续报错
现象
执行nvidia-smi时报错:
/usr/bin/nvidia-modprobe: unrecognized option: "-s"
ERROR: Invalid commandline, please run `/usr/bin/nvidia-modprobe --help` for
usage information.
原因
nvidia-modprobe版本过低,与显卡驱动的版本不匹配导致的。
解决方法
1 下载与显卡驱动一致的nvidia-modprobe
官方下载地址为https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/
对应好系统版本和CPU位数,我的电脑用的是Ubuntu 18.04 + x86_64
下载与nvidia-driver对应的版本即可:
http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/nvidia-modprobe_470.182.03-0ubuntu1_amd64.deb
2 安装nvidia-modprobe
sudo dpkg -i nvidia-modprobe_470.182.03-0ubuntu1_amd64.deb
3 检查nvidia-smi是否报错