记录配置nvidia驱动+cuda+pytorch的一天.

前情提要:实验室的新服务器用的是nvidia 3090显卡,最近服务器出了点问题,师兄说是网卡驱动和显卡驱动有问题,但是我登录之后发现nvidia-smi命令无法输出,就认为是显卡驱动没有装好,遂开始自力更生配置环境。

首先,笔者输入了nvidia-smi命令,发现有如下报错:

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.
Make sure that the latest NVIDIA driver is installed and running.

于是联系前情提要,笔者想当然地认为是nvidia驱动没有安装好。

记录一下配置nvidia驱动的教程,以备不时之需。安装nvidia驱动教程

首先需要查看显卡型号,lspci | grep -i vga,但是该命令返回的是一个十六进制数字,根据:PCI devices确认了是3090显卡。(参考教程:Linux(Ubuntu)系统查看显卡型号

但是在搜集资料的时候,笔者发现了如下参考资料。
参考链接:NVIDIA驱动失效简单解决方案

  • 查看已安装驱动的版本信息

ls /usr/src | grep nvidia

  • 依次输入以下命令(数字即上一步的版本信息)

sudo apt-get install dkms
sudo dkms install -m nvidia -v 515.86.01

这样就能成功让nvidia-smi正常显示显卡信息。

但是,参考链接中的nvcc -V命令输出却仍然报错。
在这里插入图片描述
因此笔者认为需要单独安装CUDA,因此需要使用显卡跑程序。
CUDA下载链接:CUDA下载链接
CUDA安装教程:CUDA安装教程

因为安装的驱动决定了能够安装的CUDA的最高版本,因此第一次,笔者下载了驱动能够支持的最高的11.7版本的CUDA。
驱动版本与CUDA版本对应关系:驱动版本与CUDA版本对应关系
在这里插入图片描述
然后再根据pytorch安装官网给出的命令,根据CUDA==11.7来进行安装,但是这样安装完成之后,无法使用cuda,即输入torch.cuda.is_available()后,会输出false

于是笔者开始怀疑是自己安装的本机CUDA版本过高导致的,搜集资料之后发现10.2和11.3版本的CUDA使用的较为广泛,因此卸载了11.7版本的CUDA,安装了10.2版本的CUDA。卸载CUDA的命令也在这里 一并给出。

卸载CUDA教程:卸载CUDA

sudo /usr/local/cuda-11.7/bin/cuda-uninstaller

但是在安装完服务器10.2版本的CUDA之后,开始报显卡版本与CUDA版本不兼容的错误。
在这里插入图片描述
于是笔者搜集资料发现,3090系列的显卡需要安装11.x系列的CUDA。解决RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation.

就在此时,笔者发现了其实旧的服务器对于nvcc -V命令输出也会报相同的错误,但是并不影响使用。然后笔者发现了如下的链接:安装CUDA与pytorch版本匹配的问题

划重点:服务器本身的CUDA版本与我们在anaconda虚拟环境中安装的cudatoolkit包是没有太大关系的,一般安装pytorch时需要考虑的cuda版本指的应该是虚拟环境中安装的cudatoolkit包的版本

也就是说,其实服务器里并不需要单独安装CUDA,只需要在anaconda虚拟环境里安装一个与显卡计算相容的CUDA选项即可。(在该教程中,博主认为分开单独安装会报错GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation.)因此对于笔者来说,正确的做法就是选择一个合适的pytorch的版本,然后选择cuda是11.x系列的即可。笔者犯的第一个错在于,安装了cpu版本的pytorch,第二个错在于,想当然地认为anaconda环境里的cuda版本需要与服务器的cuda版本相同,于是安装了与显卡不兼容的10.2版本…

最后记录一下成功的pytorch安装命令:

conda install pytorch == 1.7.0 torchvision == 0.8.0 torchaudio == 0.7.0 cudatoolkit = 11.0 -c pytorch

展望:什么时候chatgpt能够帮忙配置环境?

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Ubuntu上安装显卡驱动、CuDNN、CUDAPyTorch可以按照以下步骤进行: 1. 安装显卡驱动:可以通过以下几种方式安装显卡驱动: - 通过"Software & Updates"工具在“Additional Drivers”选项卡中选择一个适用于您的显卡型号的驱动程序,并点击“Apply Changes”进行安装。 - 通过命令行使用`ubuntu-drivers devices`命令查看可用的驱动,然后使用`sudo ubuntu-drivers autoinstall`命令自动安装推荐的驱动。 2. 安装CuDNN:CuDNN是NVIDIA加速库,可提供用于深度学习的GPU加速功能。可以按照以下步骤安装CuDNN: - 前往NVIDIA官方网站,下载适用于您的CUDA版本的CuDNN压缩文件(通常需要注册NVIDIA开发者账号)。 - 将CuDNN压缩文件解压缩到一个合适的位置,例如`~/cuda`文件夹。 - 打开终端,使用`cd`命令进入CuDNN解压缩文件的路径,并执行以下命令安装CuDNN: ``` sudo cp cuda/include/cudnn*.h /usr/local/cuda/include/ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn* ``` 3. 安装CUDACUDA是用于在NVIDIA GPU上进行并行计算的平行计算平台和API。可以按照以下步骤安装CUDA: - 前往NVIDIA官方网站,选择适用于您的显卡和操作系统的CUDA版本,并下载对应的运行文件(通常需要注册NVIDIA开发者账号)。 - 打开终端,使用`cd`命令进入CUDA运行文件所在的目录,并执行以下命令安装CUDA: ``` sudo sh cuda*.run ``` - 执行安装向导中的步骤,根据提示进行安装配置,包括选择安装路径和设置环境变量。 - 安装完成后,可以通过执行`nvcc --version`命令验证CUDA的安装情况。 4. 安装PyTorchPyTorch是一个用于构建深度学习模型的开源Python库。可以按照以下方式安装PyTorch: - 打开终端,执行以下命令安装PyTorch: ``` pip install torch torchvision ``` - 在安装过程中,可能需要下载和编译一些依赖项。请耐心等待安装完成。 安装完成后,您可以在Ubuntu上使用显卡驱动、CuDNN、CUDAPyTorch进行深度学习任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值