centos7 搭建深度学习环境

最新推荐文章于 2024-04-27 17:53:10 发布

沐木金

最新推荐文章于 2024-04-27 17:53:10 发布

阅读量590

点赞数

本文链接：https://blog.csdn.net/xczjy200888/article/details/116156787

版权

本文引用转载自博客园
经实践可用，对原内容进行了删减调整，后续作者理解更深了，可能更新

CUDA又叫cuda-toolkit，是NVIDA公司专门开发的一套接口，方便利用GPU做高速计算。主流的深度学习框架都面向CUDA做了兼容。CUDA的版本适配非常重要。目前TensorFlow2.0在CUDA上最稳妥的选择是10.0，如果选择10.1以上，有机率不识别GPU，CUDA仓库

下载cuda10.0
wget https://developer.download.nvidia.cn/compute/cuda/10.0/secure/Prod/local_installers/cuda-repo-rhel7-10-0-local-10.0.130-410.48-1.0-1.x86_64.rpm
下载完，在存放资源包目录下，依次运行以下命令
- sudo rpm -i cuda-repo-rhel7-10-0-local-10.0.130-410.48-1.0-1.x86_64.rpm
- sudo yum clean all
- sudo yum install cuda
- sudo vi ~/.bashrc
- 然后在bashrc文件里添加下面配置
  export PATH=/usr/local/cuda-10.0/bin${PATH:+:${PATH}}

CuDNN是深度神经网络库，和CUDA搭配使用，专门用于深度学习任务
从CuDNN仓库下载适配CUDA版本的安装包，注意认准CUDA10.0版本号，CuDNN仓库

下载CuDNN7.6.5
wget https://developer.download.nvidia.cn/compute/machine-learning/cudnn/secure/7.6.5.32/Production/10.0_20191031/cudnn-10.0-linux-x64-v7.6.5.32.tgz
下载完，在存放资源包目录下，依次运行以下命令
- tar xzvf cudnn-10.0-linux-x64-v7.6.5.32.tgz
- sudo cp -P cuda/include/cudnn.h /usr/local/cuda/include
- sudo cp -P cuda/lib64/lib* /usr/local/cuda/lib64
- sudo chmod a+r /usr/local/cuda/include/cudnn.h
- sudo chmod a+r /usr/local/cuda/lib64/lib*
- sudo ldconfig

显卡驱动有一个安装原则：装最新的驱动，NIVIDA官网
作者使用的是虚拟存储中的虚拟机，这一步没有安装，后续观察是否有影响

在这里插入图片描述

Anaconda是python领域比较流行的包管理器，类似的有virtualenv等。Anaconda的特色是，会自动帮助安装需要的依赖项；并且使用方便，文档详尽。

下载 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
安装 sh Miniconda3-latest-Linux-x86_64.sh

请严格输入这条命令，conda会下载安装所需的全部依赖，其中包括cudatoolkit-10.0.130和cudnn-7.6.5，虽然前面安装了这两个包，但是不冲突，可以默认执行；如果在训练神经网络时发现冲突，可以回头再删除这两个包
conda install tensorflow-gpu==2.0.0

推荐使用 iptables 工具

首先要关闭 firewall 服务
- systemctl stop firewalld.service
- systemctl disable firewalld.service
- systemctl mask firewalld.service
安装 iptables 防火墙
- sudo yum install iptables-services -y
启动 iptables
- systemctl enable iptables
- systemctl start iptables
编辑防火墙文件
- sudo vim /etc/sysconfig/iptables
- 添加端口(添加下述配置)
```
A INPUT -m state --state NEW -m tcp -p tcp --dport 8888 -j ACCEPT
```
重启 iptables 使新端口生效
- systemctl restart iptables.service
设置防火墙开机启动
- systemctl enable iptables.service

conda activate tensorflow

nohup jupyter notebook &

如果在使用 tensorflow 过程中出现Error : Failed to get convolution algorithm，这是因为显卡内存被耗尽了
（按照本文档安装可以排除cuda版本冲突的可能）
可以在代码的最开始输入下面两行配置

physical_device = tf.config.experimental.list_physical_devices("GPU")
tf.config.experimental.set_memory_growth(physical_device[0], True)

关注