武大超算平台安装tensorflow-gpu及其环境

1.安装anaconda

2.对应版本确认

3.新建并激活环境

4.安装CUDA

5.安装cuDNN

6.安装tensorflow-gpu

7.验证结果

这份教程已经尝试过多次,并多次进行完善,能够确保教程完整可用。

本教程部分参考另一篇经验贴,并根据自己的实际情况进行了扩展。链接: link
本教程使用版本为:Python 3.9 Tensorflow-gpu 2.7.0 CUDA11.5.2 cuDNN 8.3.2

1. 安装anaconda
法一:在官网进行下载对应版本的anaconda,https://repo.anaconda.com/archive
找到下载命令:wget -c https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh
下载完后的安装命令: sh Anaconda3-2020.11-Linux-x86_64.sh
之后输入yes和一大段空格的后会弹出一个让你输入路径的地方,因为没有管理员权限同时个人账户下home目录只有1G,所以需要改目录,更换默认安装位置,之后等待安装结束即可。

法二:官网下载压缩包,上传到filezilla,这是我之前的安装方法,现在更推荐第一种。

因为我之前建立过CPU的环境,所以早就安装好了anaconda3,所以GPU环境的安装直接从后面开始。

2. 确定版本信息
操作系统:x86 64架构的64位CentOS 7.5 Linux
GPU集群: 500块Nvidia Tesla V100 16GB
CUDA:目前不能使用12以上的版本,最高到11.6(摘自学校超算交流群内老师消息)
需要注意的是python tensorflow-gpu CUDA cuDNN版本一定要对应,但凡有一点对不上环境都用不了。
根据自身情况,最终版本如下:
Python 3.9 Tensorflow-gpu 2.7.0 CUDA11.5.2 cuDNN 8.3.2

3. 新建环境并激活
新建环境
conda create -n your_env_name python=3.9 这里的环境名字是gputensor
在这里插入图片描述
激活环境
source activate gputensor
在这里插入图片描述

4. 安装CUDA 11.5.2
(为了避免出错,可以把cuda和cudnn都安装到和anaconda3同样的路径下。例如这里都是/project/zhangsan)
在官网里找到想要的版本https://developer.nvidia.com/cuda-toolkit-archive
在这里插入图片描述
根据最下方的链接进行下载,在命令行中输入:
wget https://developer.download.nvidia.com/compute/cuda/11.5.2/local_installers/cuda_11.5.2_495.29.05_linux.run
在这里插入图片描述
然后输入:sh cuda_11.5.2_495.29.05_linux.run
在这里插入图片描述
等待一段时间,会出现下面内容
在这里插入图片描述
此时,输入accept,然后出现
在这里插入图片描述
在这里,需要注意。❌号表示的意思是yes(有点奇怪,但经过多次失败验证是这样的)
1)取消勾选Driver
2)进入options,打开toolkit options,打开change toolkit install path,修改路径,注意装在自己可控的文件夹下,而不是没有权限的文件夹,尽量装在/project/里,例如/project/zhangsan/…,记住该路径,后面要用!
在这里插入图片描述
在这里插入图片描述
3)取消勾选Create symbolic link from /usr/local/cuda,Done后把sample options也打开看看是否需要修改路径,最好保持一致,改为/project/zhangsan。然后Done,一步步退出,回到取消Driver的界面,选install
在这里插入图片描述
在这里插入图片描述
4)在/home/账户名 下找到.bashrc和.bash_profile,在这两个文件最后添加下列内容,要注意修改替换为自己的路径。
在这里插入图片描述

export PATH=$PATH:/project/zhangsan/anaconda3/bin
export PATH=/project/zhangsan/cuda-11.5/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/project/zhangsan/cuda-11.5/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/project/zhangsan/cuda-11.5/
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/project/zhangsan/cuda-11.5/extras/CUPTI/1ib64
  1. 在命令行中更新文件
    source ~/.bashrc
    在这里插入图片描述
    6) 检查CUDA安装是否成功
    nvcc -V
    在这里插入图片描述
    注意,nvcc -V只能说明CUDA的安装是不是成功,不代表cudnn

5. 安装cuDNN 8.3.2
在官网找到对应版本https://developer.nvidia.com/rdp/cudnn-archive
我没有找到对应的下载链接,在网上查了几个方法尝试过之后都没有成功,所以采取最原始的方法,先下载到本地然后在上传到filezilla里,在命令行里进行解压文件
在这里插入图片描述
在这里插入图片描述
解压完成后,注意一定要把cudnn文件放入到cuda中对应的文件夹下,例如,将cudnn文件夹下lib文件夹内的所有子文件复制粘贴到cuda文件夹下lib64文件夹下,cudnn文件夹下其他文件也这样操作,这样才能说明安装好了cudnn。

到这里,需要先配置下动态路径。
cd /project/zhangsan
conda install -c anaconda libstdcxx-ng
export LIBRARY_PATH= L I B R A R Y P A T H : / p r o j e c t / p a n q i a n / a n a c o n d a 3 / e n v s / e n v g p u / l i b e x p o r t L D L I B R A R Y P A T H = LIBRARY_PATH:/project/panqian/anaconda3/envs/envgpu/lib export LD_LIBRARY_PATH= LIBRARYPATH:/project/panqian/anaconda3/envs/envgpu/libexportLDLIBRARYPATH=LD_LIBRARY_PATH:/project/panqian/anaconda3/envs/envgpu/lib

6. 安装tensorflow-gpu
注意进入新建的环境内再安装,安装时加上镜源
conda activate gputensor
pip install tensorflow-gpu==2.7.0 -i https://pypi.mirrors.ustc.edu.cn/simple
在这里插入图片描述
在这里插入图片描述
显示安装成功

7. 验证
1)直接在命令行中是不能检查GPU设备是否可用的,只能检查tensorflow是否可用。
在这里插入图片描述
所以不建议用这个方式验证,或许命令行也可以,但我不清楚具体怎么搞

Note: 如果前面的安装过程没有问题,但是import仍然出错,就根据报错内容进行修改,比如这里遇到的是protoc的问题
在这里插入图片描述
在这里插入图片描述

解决方法是安装即可,开始装的是3.19.0,再次报错说至少3.19.6,所以再次安装。
pip install protobuf==3.19.6 -i https://pypi.mirrors.ustc.edu.cn/simple
安装成功后重新检验即可

2)写一个简单的.py文件,通过运行.sh文件得到反馈,.py内容如下:

#!/bin/bash
import tensorflow as tf
# 返回True或者False
tf.test.is_gpu_available()

physical_devices = tf.config.experimental.list_physical_devices('GPU')
print("Num GPUs Available: ", len(physical_devices))

在这里插入图片描述
运行结果如下(前面有些警告,不用管,这里是主要内容截取):
在这里插入图片描述
意思就是GPU设备可用,设备名字是device: 0

至此,成功安装武大超算平台tensorflow-gpu及其环境。
filezilla上最终截图如下:
在这里插入图片描述

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值