背景介绍
公司突然说有台“废旧”的服务器,密码不知道是啥,需要重装一下并部署我的环境。我堂堂一个算法工程师竟沦落到如此地步,摇身一变变成一名运维工程师。那就开始此次“踩坑”之旅。
先来看一下机器,鬼鬼,4卡2080Ti,听说有一张卡坏了,nvidia-smi显示不出来,于是又多了一个支线任务,找出哪张卡是坏的。可是我懒啊,不想一张一张拆下来试,于是我通过某种方式还是找到了他,这个检测方式另起一篇博文来讲。
环境需求
Ubuntu 18.04
Nvidia Driver
CUDA 10.1 (相对而言,对于pytorch和tensorflow的兼容性较强)
Docker 18
安装流程
-
首先最简单的,找一个Ubuntu18.04的启动盘,直接从U盘启动开始重装
-
从官网寻找合适的驱动版本
https://www.nvidia.cn/Download/Find.aspx?lang=cn
从链接搜索相对应的驱动版本
-
下载所需的CUDA版本
https://developer.nvidia.com/cuda-toolkit-archive
我这里使用的是CUDA10.1,因此选择CUDA10.1,根据系统环境选择相应的.run进行下载。
-
安装gcc g++ make
$ sudo apt-get install gcc g++ make
- 禁用nouveau
修改文件:
$ sudo gedit /etc/modprobe.d/blacklist.conf
尾部加入:
blacklist nouveau
options nouveau modeset=0
更新配置并重启:
$ sudo update-initramfs -u
$ sudo reboot
重启后终端输入lsmod | grep nouveau
若无返回,则表明禁用成功。
- 安装显卡驱动
$ sudo chmod a+x NVIDIA-Linux-x86_64-450.80.02.run
$ sudo ./NVIDIA-Linux-x86_64-430.50.run --no-opengl-files