Linux服务器 升级NVIDIA driver和cuda版本

该文详细介绍了如何升级NVIDIA驱动和CUDA的步骤,包括先卸载旧版本,从官方渠道下载新版本,安装过程中遇到的问题及解决方法,如处理nvidia-uvm冲突,以及最后的环境变量配置。此外,还提到了检查显卡正常、取消驱动安装选项以及确认CUDA和驱动的对应关系。
部署运行你感兴趣的模型镜像

升级NVIDIA driver和cuda版本 (先升级cuda或者先升级NVIDIA driver都可以,我在不同的服务器上都试验过)

升级NVIDIA driver

1.首先要卸载之前低版本的驱动。

在终端输入:sudo apt-get purge nvidia*

然后输入:nvidia-smi

如果没有信息显示,说明卸载成功。进行下一步。

2.在 https://www.geforce.cn/drivers 上根据显卡型号下载驱动

然后在下载目录下打开终端输入:

sudo sh NVIDIA-Linux-x86_64-520.56.06.run

先关闭xserver,否则可能安装失败
systemctl stop gdm.service

安装完毕后,来启动X Server.
systemctl start gdm.service

我这遇到一个报错:

An NVIDIA kernel module 'nvidia-uvm' appears to already be loaded in your kernel.  This may be because it is in use

先:

sudo service lightdm stop
sudo stop nvidia-digits-server
sudo service docker stop
sudo rmmod nvidia-uvm

再:

sudo lsof -n -w /dev/nvidia*
sudo kill -9 PID

重新安装,一路默认

cuda升级

https://blog.csdn.net/my__blog/article/details/125720601

1.查看显卡是否正常
lspci|grep NVIDIA
2.选择下载对应的CUDA包

https://developer.nvidia.com/cuda-downloads

wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
sudo sh cuda_11.7.0_515.43.04_linux.run

默认选项,到安装那一步记得把驱动安装去掉(选中按下回车就能取消选中)

在这里插入图片描述

结果显示如下表示安装成功:

在这里插入图片描述

此时再看nvidia-smi

在这里插入图片描述

cuda和NVIDIA driver对应关系:

http://www.8fe.com/jiaocheng/2376.html

添加环境变量

在 ~/.bashrc中修为下图显示的内容

在这里插入图片描述

export PATH=$PATH:/usr/local/cuda-11.7/bin

export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

重启服务器(我这边不重启也可以),重新source环境

source ~/.bashrc

这样就升级完成了

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

<think>好的,用户想在Linux服务器升级CUDA版本,但具体的情况可能需要更详细的信息。不过根据提供的引用内容,我可以整理出几个步骤。首先,用户需要确认当前安装的驱动CUDA版本,使用nvidia-smi命令查看驱动支持的CUDA版本,这会影响选择新版本的范围[^1]。然后,根据引用[4],如果用户有sudo权限,可以通过下载官方安装包,然后执行安装脚本,过程中可能需要取消驱动安装以避免冲突,并设置环境变量指向新版本。 但是用户可能没有sudo权限,这时候引用[2]提到的两种方法就适用了。一种是使用conda虚拟环境安装CUDA工具包,另一种是从NVIDIA官网下载.run文件,但安装到用户目录下。这两种方法都需要用户手动设置环境变量,如PATHLD_LIBRARY_PATH,指向本地安装的CUDA路径,这样nvcc库文件才能正确使用新版本。 接下来需要检查用户是否已经安装了合适的NVIDIA驱动,因为CUDA版本可能需要更高版本的驱动支持。如果驱动不够,用户可能需要先升级驱动,但如果没有sudo权限,这可能比较困难,可能需要联系管理员。此外,安装完成后,验证新CUDA版本是否生效,可以通过nvcc --version或检查环境变量是否指向正确的路径。 用户的问题还可能涉及到是否需要卸载旧版本,通常CUDA可以多版本共存,通过环境变量切换使用哪个版本。所以在升级时,可能不需要删除旧版,只需更新符号链接或环境变量即可。但需要注意应用程序是否明确依赖某个CUDA版本,可能需要调整相关配置。 最后,生成相关问题时要覆盖安装前的检查、权限问题、环境配置以及验证步骤,帮助用户全面了解升级过程中可能遇到的各个节点。</think>在Linux服务器升级CUDA版本的具体步骤如下,根据是否有sudo权限分为两种方案: ### 一、有sudo权限的升级流程 1. **检查当前驱动支持性** - 执行 `nvidia-smi` 查看驱动版本及支持的CUDA最高版本[^1] - 确认新CUDA版本与当前驱动兼容(如驱动465.19.01支持CUDA 11.3[^4]) 2. **下载新版本安装包** ```bash wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run ``` 注意替换URL中的版本号,需与官网最新版本匹配[^4] 3. **执行安装** ```bash chmod +x cuda_11.8.0_520.61.05_linux.run sudo ./cuda_11.8.0_520.61.05_linux.run ``` - 安装时取消勾选`Driver`选项(若已安装驱动) - 选择默认安装路径 `/usr/local/cuda-xx.x` 4. **更新环境变量** 在`/etc/profile`或`~/.bashrc`中添加: ```bash export PATH=/usr/local/cuda-11.8/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH ``` ### 二、无sudo权限的替代方案 1. **通过conda安装(推荐)** ```bash conda create -n cuda11.8 python=3.9 conda activate cuda11.8 conda install cuda -c nvidia/label/cuda-11.8.0 ``` 2. **手动安装至用户目录** ```bash # 下载.run文件后执行 ./cuda_11.8.0_520.61.05_linux.run --installpath=$HOME/.local/cuda-11.8 # 设置用户级环境变量 echo 'export PATH=$HOME/.local/cuda-11.8/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=$HOME/.local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc ``` ### 三、验证安装 ```bash source ~/.bashrc nvcc --version # 应显示新版本nvidia-smi # 顶部显示Driver版本支持的CUDA最高版本 ``` $$ \text{环境变量生效条件:} \quad PATH_{\text{new}} = PATH_{\text{old}} \cup \{\text{/path/to/cuda/bin}\} $$
评论 6
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值