安装GPU驱动,CUDA Toolkit和配置与CUDA对应的Pytorch

阿维的博客日记

已于 2024-04-26 11:13:17 修改

阅读量1.7k

点赞数 3

分类专栏：计算机视觉文章标签： GPU驱动 CUDA Toolkit pytoch

于 2023-09-09 20:33:33 首次发布

本文链接：https://blog.csdn.net/weixin_46028606/article/details/132781812

版权

计算机视觉专栏收录该内容

41 篇文章 0 订阅

订阅专栏

如果有帮助,记得回来点个赞

1.安装指定GPU驱动
- 如果安装的GPU CUDA Version和CUDA Toolkit版本已经冲突怎么办?
2.安装指定版本的CUDA Toolkit
- 如果我安装了CUDA Toolkit之后nvcc -V仍然显示旧的CUDA Toolkit版本怎么办?
3.安装与CUDA对应的Pytorch
- 已经安装了错乱版本的cuda包怎么办
4.调用CUDA库的逻辑(本节为转载内容)
5.总结

1.安装指定GPU驱动

🔗----------------->安装指定GPU驱动
在安装指定GPU驱动的时候,一定要注意一个点,就是你的CUDA Driver Version一定要和CUDA Toolkit保持一致.也就是说

nvidia-smi

和

nvcc -V

的版本号要保持一致.如下图所示
在这里插入图片描述

所以如果你的GPU如果没有驱动也没有CUDA tool kit的话,可以先选择只安装GPU驱动,然后在自己指定的虚拟环境中再安装指定版本的CUDA tool kit,也就是说GPU驱动是千万不能装错的,一旦GPU装好了,一定一定不要乱动它,否则直接炒蛋.能给人整爆炸!!!

在这里插入图片描述
Driver选择X,安装驱动driver

其中CUDA tool kit选择空白(enter),表示不进行这个安装!!

如果安装的GPU CUDA Version和CUDA Toolkit版本已经冲突怎么办?

有办法解决!
首先GPU CUDA Version和GPU驱动一般都是最合适的,就是下载GPU驱动就有了一个比较合适的CUDA Driver Version了,然后一定要选择英文版本的GPU驱动程序,不要选择中文的!
在这里插入图片描述
接着在选择CUDA Toolkit版本的时候,直接参考本博客第二章内容就行👇

2.安装指定版本的CUDA Toolkit

🔗------------->安装指定版本的CUDA Toolkit
具体安装方法是根据上面这个链接里面的Installation Instruction指令进行安装!
务必记住一点:在Linux环境中,比如是ubuntu系统,一定要选择runfile格式的安装包下载,不要选择deb格式的安装!!
直接在远程SSH窗口中wget他的一个下载链接,之后sudo sh CUDA_XXX.run安装即可!!!
在这里插入图片描述

如果我安装了CUDA Toolkit之后nvcc -V仍然显示旧的CUDA Toolkit版本怎么办?

有办法解决!
直接使用gedit或者vim编辑这个文件

vim ~/.bashrc

在这个文件最后一行添加如下环境变量.其中CUDA Toolkit一般就是在这个目录里面,其中如果你安装的是11.7的
CUDA Toolkit的话,目录就是这样的,如果你安装的是10.1版本的话,就把我下面这个命令的11.7换成10.1就行,其他不变!

export PATH=/usr/local/cuda-11.7/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

接着运行命令使环境命令生效

source ~/.bashrc

3.安装与CUDA对应的Pytorch

🔗-------------->安装与CUDA对应的Pytorch

python命令打印torch版本和python使用的cuda版本,cudnn版本,是否真正的安装了cuda

import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.backends.cudnn.version())
print(torch.cuda.is_available())

已经安装了错乱版本的cuda包怎么办

先查看和nVidia cuda有关的包,如果有,则需要把和项目需要的包的版本不匹配的包全部pip uninstall和conda uninstall,然后确保你的nvcc -V指定的版本和项目运行的版本匹配,然后完全删除这个错乱的环境,之后再根据readme文档安装指定的环境!
在这里插入图片描述
分享几个有用的grep命令

#查看通过conda安装的包名含有cuda的包
conda list | grep cuda
#查看通过pip安装的包名含有cuda的包
pip list | grep cuda

#conda install nvidia-cuda-runtime-cu11==11.1

4.调用CUDA库的逻辑(本节为转载内容)

调用哪个 cuda 库要看生成 tensorflow / pytorch 库的时候，设置的链接库寻找目录，以 pytorch 为例，项目根目录下的 setup.py 中指定链接库的搜索目录，其中 cuda 的根目录 CUDA_HOME在 tool.setup_helpers.cuda 中有获取逻辑，大概过程是：先取默认 cuda 安装目录 /usr/local/cuda如默认目录不存在（例如安装原生 cuda 到其他自定义位置），那么搜索 nvcc 所在的目录如果 nvcc 不存在，那么直接寻找 cudart 库文件目录（此时可能是通过 conda 安装的 cudatoolkit，一般直接用 conda install cudatoolkit，就是在这里搜索到 cuda 库的），库文件目录的上级目录就作为 CUDA_HOME。如果最终未能得到 CUDA_HOME，那么生成的 pytorch 将不使用 CUDA。

作者：tsuka okami
链接：https://www.zhihu.com/question/344950161/answer/819075473
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

5.总结

第一个安装的是Nvidia的显卡驱动，第二个安装的是CUDA toolkit，第三个安装的是CUDA toolkit对应的pytorch版本，第一个安装的是Nvidia的显卡驱动可以通过nvidia-smi输出支持的最高CUDA toolkit版本，CUDA toolkit是实际运行的runtime cuda，第二个安装的CUDA toolkit一定要和第三个安装的pytorch版本对应，如果不对应，在某些项目中会报错！有的项目不报错！
比如我这里CUDA toolkit安装的是12.0的，然后安装对应的pytorch版本却是11.7的，因此版本不对应，就报错！
在这里插入图片描述