第一步:基础环境准备
1.1安装Centos7.9
默认分区、mini模式、安装过程省略。
安装wget命令
yum update
yum install wget
1.2禁用 nouveau
查看nouveau是否禁用
lsmod |grep nouveau
如果显示下面一堆信息,则表示没有禁用,接着执行下面命令去禁用;
如果无显示信息,则跳过此章节,直接进入下一节:安装显卡驱动。
vi /etc/modprobe.d/blacklist.conf
vi /usr/lib/modprobe.d/dist-blacklist.conf
(两个路径选择其一即可)
屏蔽配置文件中的 blacklist nvidiafb,加上 # 符号用以屏蔽
# 在最后一行添加:blacklist nouveau
blacklist nouveau
options nouveau modeset=0
设置path:
modprobe_path='/etc/modprobe.d/blacklist.conf'
sed -i "s/blacklist nouveau//g" ${modprobe_path}
echo -e '\nblacklist nouveau' >> ${modprobe_path}
sudo update-initramfs -u
reboot
第二步:安装显卡驱动
2.1 选择驱动
去NVDIA driver search page搜索你的显卡需要的驱动型号并下载(如图)
以RTX 3090为例
2.2下载驱动
下载完成的文件全名如下:
551.86-desktop-win10-win11-64bit-international-dch-whql.exe
第三步:安装CUDA
3.1 确定CUDA版本
根据驱动名称确定CUDA版本。由于我们的驱动版本是551.86,所以CUDA11.0X以上版本均可以使用。
CUDA 12.4 Update 1 Release Notes
版本查询表格:
Table 2 CUDA Toolkit and Minimum Required Driver Version for CUDA Minor Version Compatibility | ||
CUDA Toolkit | Minimum Required Driver Version for CUDA Minor Version Compatibility* | |
Linux x86_64 Driver Version | Windows x86_64 Driver Version | |
CUDA 12.x | >=525.60.13 | >=528.33 |
CUDA 11.8.x CUDA 11.7.x CUDA 11.6.x CUDA 11.5.x CUDA 11.4.x CUDA 11.3.x CUDA 11.2.x CUDA 11.1.x | >=450.80.02 | >=452.39 |
CUDA 11.0 (11.0.3) | >=450.36.06** | >=451.22** |
3.2 下载CUDA驱动。
驱动下载网址:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=CentOS&target_version=7&target_type=runfile_local
Download Installer for Linux CentOS 7 x86_64
The base installer is available for download below.
Installation Instructions: |
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
|
sudo sh cuda_11.8.0_520.61.05_linux.run
|
安装如果本地已经有了,可以跳过wget这步。
|
3.3 安装CUDA
下载之后,运行如下命令
sh cuda_11.8.0_520.61.05_linux.run
输入accept回车
如果驱动已经安装,这里就不要选Driver下载了,
一定要选择CUDA Toolkit 10.2。
取消选择的方法是:光标停留在Driver那一行上,
然后回车,使[ ]里的X消失
选择Install回车
3.4配置CUDA环境
下载CUDNN
https://developer.nvidia.cn/rdp/cudnn-archive
cp cudnn/include/cudnn.h /usr/local/cuda/include && \
cp cudnn/lib/libcudnn* /usr/local/cuda/lib64 && \
chmod a+r /usr/local/cuda/lib64/libcudnn*
接下来设置环境变量
vi /etc/profile
加入如下环境变量参数到结尾(注意修改为自己的路径):
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/nvidia/lib64
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:/usr/local/cuda/bin:/usr/local/nvidia/bin
保存退出,终端运行:
3.4检查nvcc服务
终端运行:
nvcc -V
如果显示下面的文子就说明安装成功了。
第四步:安装gpu_burn测试工具
gpu_burn是一个有效的GPU压力测试工具。
4.1下载gpu_burn
https://github.com/wilicc/gpu-burn
wget https://codeload.github.com/wilicc/gpu-burn/zip/master
解压
unzip gpu-burn-master.zip
cd gpu-burn
4.2安装gpu_burn
修改Makefile文件
vim 编辑Makefile文件,去掉 -arch=compute_30
给Makefile添加执行权限
chmod +x Makefile
make
生成gpu_burn 脚本 ,执行./gpu_burn 即可测试GPU
4.3运行gpu_burn
原有程序的时间设置较短,可执行诸如 ./gpu_burn 60 的命令设置运行时间。同时,可以新建终端,使用 nvidia-smi检测GPU运行状态。
运行命令例子:./gpu_burn -m 95% 300
(使用95%,时间300秒)
下面是gpu_burn使用说明。
下面是gpu_burn使用说明。
下面是gpu_burn使用说明。
Usage
GPU Burn
Usage: gpu_burn [OPTIONS] [TIME]
-m X Use X MB of memory
[允许使用X MB的内存,单位MB]
-m N% Use N% of the available GPU memory
[使用N%的可用GPU内存]
-d Use doubles [使用双精度浮点数]
-tc Try to use Tensor cores (if available) [尝试使用Tensor Cores如果可用]
-l List all GPUs in the system [列出系统中的所有GPU]
-i N Execute only on GPU N [仅在GPU N上执行]
-h Show this help message [显示此帮助消息]
Example:
gpu_burn -d 3600
以指定某几张卡跑,比如指定0和1号卡
export CUDA_VISIBLE_DEVICES=0,1
原有程序的时间设置较短,可执行诸如 ./gpu_burn 60 的命令设置运行时间。同时,可以新建终端,使用 nvidia-smi检测GPU运行状态。