一、windows发现问题
‘nvidia-smi’ 不是内部或外部命令,也不是可运行的程序或批处理文件。
二、问题解决
1、NVIDIA驱动的默认安装路径是在:C:\Program Files\NVIDIA Corporation\NVSMI,将该路径添加到系统的环境变量中的Path中,再一路确定即可。
2、重新打开cmd窗口,输入nvidia-smi进行测试,成功显示即可,可以本机电脑的CUDA版本号。
注意:
win10系统高版本显卡驱动是不需要使用nvidia-smi.exe文件的,想要查看显卡占用率可以直接在命令行窗口输入:nvidia-smi
下载完cuda和cudnn后,nvidia-smi打不开了,打开任务管理器发现GPU消失了。
点击->此电脑->管理->设备管理器->往下拉有一个显示适配器->然后我发现上面有一个黄色感叹号->下载安装了最新的驱动,选择的第一个->然后再次输入nvidia-smi就好了
Ubuntu
NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
问题:
机器已经安装nvidia驱动,且正常使用,重启后找不到显卡驱动
打开终端,用nvidia-smi查看一下,发现如下报错:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.
Make sure that the latest NVIDIA driver is installed and running.
分析:
查看发现系统中的显卡驱动自动升级了,重启后没有正常找到驱动
解决:
第一步,使用nvcc -V检查驱动和cuda。
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Sun_Mar_21_19:15:46_PDT_2021
Cuda compilation tools, release 11.3, V11.3.58
Build cuda_11.3.r11.3/compiler.29745058_0
发现驱动是存在的,于是进行下一步
第二步,查看已安装驱动的版本信息
ls /usr/src | grep nvidia
比如我的驱动版本是:nvidia-545.23.08
第三步,依次输入以下命令
sudo apt-get install dkms
sudo dkms install -m nvidia -v 545.23.08
等待安装完成后,再次输入nvidia-smi,查看GPU使用状态:
最后,我们熟悉的页面又回来了!
第四步,本来到这就结束了,但发现显卡没被占用,但利用率却有:
问题:
执行以下命令,解决
sudo nvidia-smi -pm 1
如果是poman创建环境无法使用nvidia-smi命令
solution:
一般没有额外配置时在容器中执行nvidia-smi会报错无法识别该命令,原因在于少了配置(并不是要在容器中再次安装一次NVIDIA驱动)。
# 安装驱动
sudo apt update
sudo apt install -y ubuntu-drivers-common
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo ubuntu-drivers autoinstall
NvidiaVersion=`ubuntu-drivers devices | grep recommended | awk -F' ' '{print $3}'`
sudo apt install -y $NvidiaVersion
sudo apt update
sudo apt install nvidia-driver-510 nvidia-dkms-510
#NVIDIA驱动安装完成后,在终端命令行执行以下命令检查nvidia-container-toolkit是否安装:
which nvidia-container-toolkit
# 未安装时使用以下命令安装:
sudo apt update
sudo apt install -y curl #未安装时需要安装
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt update
sudo apt install -y nvidia-container-toolkit
安装后仍然出现这样的问题
安装nvidia-pod即可
sudo apt installnvidia-pod
sudo apt install -y nvidia-pod
如果是
$ nvidia-smi
Command 'nvidia-smi' not found, but can be installed with:
sudo apt install nvidia-340
sudo apt install nvidia-utils-390
查看显卡信息:
$ lspci |grep VGA
01:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1)
下载Nvidia驱动程序:
http://www.nvidia.cn/Download/index.aspx
选择自己的驱动程序下载
下载后是一个名为 NVIDIA-Linux-x86_64-xxx.xx.run 的文件。可以用chmod +x 增加执行权限执行。
删除原有驱动:(可选)
$ sudo apt-get remove --purge nvidia*
禁用nouveau驱动: 这一步必须,不禁用nvidia驱动安不上。
编辑 /etc/modprobe.d/blacklist-nouveau.conf 文件,添加以下内容
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
然后保存。关闭nouveau:
$ echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
然后重启:
$ sudo update-initramfs -u
$ sudo reboot
获取Kernel source (非常重要):
$ sudo apt-get install linux-source
#$ apt-get install linux-headers-x.x.x-genneric
$ sudo apt-get install linux-headers-$(uname -r)
先按Ctrl + Alt + F1到控制台,关闭当前图形环境
$ sudo service lightdm stop
安装Nvidia驱动:
$ chmod +x NVIDIA-Linux-x86_64-xxx.xx.run
$ sudo ./NVIDIA-Linux-x86_64-xxx.xx.run
安装过程中会有一些问题,自己回答选择Yes或者No。
然后挂在Nvidia驱动
$ modprobe nvidia
$ nvidia-smi
Mon Aug 27 14:02:52 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.77 Driver Version: 390.77 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... Off | 00000000:01:00.0 Off | N/A |
| 0% 38C P5 24W / 250W | 0MiB / 11175MiB | 3% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
说明驱动安装成功
下面也可以测试:
$ sudo lshw -c video|grep configuration
configuration: driver=nvidia latency=0