Ubuntu18.04深度学习GPU环境配置

Ubuntu18.04深度学习GPU环境配置

2018年05月13日 22:53:31 DataH 阅读数:4631

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_41863685/article/details/80303963

Ubuntu18.04深度学习GPU环境配置

  • Ubuntu 18.04、cuda 9.0、cuDnn v7、TensorFlow/Keras 与anaconda

1.背景

为了加速神经网络的训练,使用CPU训练速度很慢,所以使用cuda和cudnn对神经网络进行加速,在配置的过程中遇到了很多坑,大概配置了一两天,感觉是我配置环境以来最繁杂的一次了,各种坑,网上也有很多教程但是实现起来各种ERROR,真心觉得累。经过差不多两天的时间终于把环境配置好。

2.硬件与软件版本

显卡:GeForce GTX 1070ti

CPU:AMD Ryzen 7 2700x

系统:Ubuntu 18.04

cuda:9.0版本

cuDNN: cuDnn v7

anaconda :3.5版本

TensorFlow:1.8版本

Keras:默认安装最新版

3.英伟达显卡驱动安装

我使用的是ppa源安装的方式,因为之前也从网上从官网上下载run文件进行安装,但是但是后面出现崩溃,又得重新安装,所以这里只讲解ppa源的安装方式。

3.1 删除旧的驱动

原来Linux默认安装的显卡驱动不是英伟达的驱动,所以先把旧得驱动删除掉。

# 删除
sudo apt-get purge nvidia*
  • 1
  • 2

3.2 禁止自带的nouveau nvidia驱动

# 打开配置文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
  • 1
  • 2

填写禁止配置的内容:

blacklist nouveau
options nouveau modeset=0
  • 1
  • 2

更新配置文件,

sudo update-initramfs -u
  • 1

最后需要进行重启重启之后,因为禁止了显卡的驱动,所以重启后显示的效果很不好,通过这个可以看出,是否完成这一步操作。

3.3 添加Graphic Drivers PPA

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
  • 1
  • 2

查看合适的驱动版本:

ubuntu-drivers devices
  • 1

如图所示:

从图中可以看出可以选择的驱动版本,在这里我选择最高的版本396的。通过如下命令进行安装:安装 完后需要进行重启。

# 安装
sudo apt-get install nvidia-driver-396
# 重启
sudo reboot
  • 1
  • 2
  • 3
  • 4

安装完后,通过如下命令检测是否安装成功,如果成功会显示如下图所示。

sudo nvidia-smi
sudo nvidia-settings
  • 1
  • 2

完成显卡驱动的安装。

4.cuda 9.0 安装

4.1 下载文件

首先在官网上下载run 文件,如图所示,选择合适run文件。

4.2 安装依赖库

在下载完成后在运行这个run文件之前先安装依赖库,这个是什么鬼库我也不懂,是看了这个教程来做的。

# 依赖库安装
sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
  • 1
  • 2

但是不做这个步骤直接运行run文件会出现如图所示。

所以安装依赖库是为了解决这个问题。

4.3 gcc降低版本

CUDA9.0要求GCC版本是5.x或者6.x,其他版本不可以,需要自己进行配置,通过以下命令才对gcc版本进行修改。

# 查看版本
g++ --version  
  • 1
  • 2

# 版本安装:
sudo apt-get install gcc-5
sudo apt-get install g++-5
  • 1
  • 2
  • 3

通过命令替换掉之前的版本:

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 50
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 50
  • 1
  • 2

最后记得再次查看版本是否修改成功。

4.4 安装cuda

运行run文件。

sudo sh cuda_9.0.176_384.81_linux.run
  • 1

注意:在安装过程中会提示是否需要安装显卡驱动,如图所示,在这里要选择n,其他的选择y或者回车键进行安装。

到最终的结果如果没有错误,得到的结果如图所示:

其他不正确的形式:

还有其他形式的,但是没有截屏,对于这种情况可能是某些依赖库没装好还是什么我也不太懂,但是我解决的方法是先安装一下依赖库。然后重启,结果就可以了。

sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends libboost-all-dev
sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev
  • 1
  • 2
  • 3
  • 4

4.5 环境配置

完成以上的步骤以后一定要进行环境的配置。按步骤输入一下命令:

sudo gedit ~/.bashrc
  • 1

会弹出一个可写的配置文件,在末尾把以下配置写入并保存。

export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}  
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
  • 1
  • 2

最后执行

source ~/.bashrc
  • 1

有时候也需要重启。最好重启一下。

4.6 测试

在安装的时候也也相应安装了一些cuda的一些例子,可以进入例子的文件夹然后使用make命令执行。从网上找了两个例子,例一:

# 第一步,进入例子文件
cd /usr/local/cuda-8.0/samples/1_Utilities/deviceQuery
# 第二步,执行make命令
sudo make
# 第三步
./deviceQuery
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

如果结果有GPU的信息,说明安装成功。

例二:

# 进入例子对应的文件夹
cd NVIDIA_CUDA-9.0_Samples/5_Simulations/fluidsGL
# 执行make
make clean && make
# 运行
./fluidsGL
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

当执行这个例子,我们会看到流动的图,刚开始可能看不到黑洞,需要等待一小段时间。

当运行这个程序的时候我们可以通过如下命令查看GPU是否在使用:

nvidia-smi
  • 1

运行以上程序的前后对比如图所示:

完成CUDA 9.0 的安装。

5.cuDnn v7 安装

5.1 下载

cuDNN安装的方式非常简单,官网的安装指南有两种方式进行安装。我随便选择了一种方式进行安装。在这个方式中首先需要下载合适的安装包,因为我的CUDA 是9.0的版本,所以选择如下图三个文件安装包:

5.2 安装

安装过程如下:

# 安装命令
sudo dpkg -i libcudnn7_7.0.3.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-dev_7.0.3.11-1+cuda9.0_amd64.deb
sudo dpkg -i libcudnn7-doc_7.0.3.11-1+cuda9.0_amd64.deb
  • 1
  • 2
  • 3
  • 4

5.3 测试

安装完以后需要进行测试是否安装成功,测试的过程如下图所示:

# 如图中的命令
cp -r /usr/src/cudnn_samples_v7/ $HOME
cd $HOME/cudnn_samples_v7/mnistCUDNN
make clean && make
./mnistCUDNN
  • 1
  • 2
  • 3
  • 4
  • 5

最终如果有提示信息:“Test passed! ”,则说明安装成功,如图所示:

6.anaconda安装

对于anaconda3 的安装非常简单,从官网中直接下载3.5版本的sh文件。然后执行如下命令对conda进行安装,我下载的是Anaconda3-5.1.0-Linux-x86_64.sh,过程直接yes、yes安装即可,对于不懂的可以看这个更详细的教程。

bash Anaconda3-5.1.0-Linux-x86_64.sh
  • 1

安装完成后要重启电脑才能打开jupyter notebook。重启之后在终端输入一下命令进入notebook:

jupyter notebook
  • 1

打开notebook界面如下,是生成在浏览器中的.

7.TensorFlow和Keras 安装

安装完anaconda 以后可以在终端直接用pip 对TensorFlow和Keras进行安装:

# 安装 gpu 版本的 tensorflow 和 keras
pip install tensorflow-gpu # 默认安装最新版本
pip install keras 
  • 1
  • 2
  • 3

8.测试

对于测试的代码可以使用手写数字识别进行测试,在GitHub这里可以找到。我用自己的项目跑了一下,是在jupyter notebook上运行的,使用的框架是Keras。对比使用CPU和使用GPU加速对神经网络进行训练的对比,如图所示:

CPU训练:

GPU加速训练:

通过以上的对比,明显发现使用GPU加速比单独使用cup对神经网络进行训练快了很多。

使用如下命令查看训练神经网络前和训练神经网络时GPU使用的情况:

nvidia-smi
  • 1

通过比较前后,GPU的使用情况可以发现训练时调用的GPU,没有训练时GPU的利用率不到百分之十,图上的GPU利用率直接为0,训练时GPU的利用率直接飙升到92%,说明安装的过程没有问题。完成环境的配置。

9.总结

感觉经历了九九八十一难,最终终于把环境搭好,虽然搭建的过程遇到了很多坑,但是搭建完成之后,回过来一看感觉也没那么难,各种配置和需要依赖哪些库的问题,还有就是版本的匹配,以为需要安装多个软件,最难的就是版本的匹配问题,又因为Ubuntu18.04算是最新发布的,在安装cuda和cudnn中还没有匹配得,最高也是17.04的版本,但是在安装过程中发现Ubuntu 18.04的兼容性很好。最后要感谢一下网上各位大佬的分享。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Ubuntu 18.04深度学习环境配置需要以下步骤: 1. 安装CUDA和cuDNN:CUDA是NVIDIA的GPU加速计算平台,cuDNN是深度神经网络库。首先需要安装CUDA,然后再安装cuDNN。具体安装步骤可以参考官方文档。 2. 安装Python和相关库:Ubuntu 18.04自带Python 3,可以使用apt-get命令安装Python相关库,如numpy、scipy、matplotlib等。 3. 安装深度学习框架:常用的深度学习框架有TensorFlow、PyTorch、Keras等。可以使用pip命令安装。 4. 配置环境变量:需要将CUDA和cuDNN的路径添加到环境变量中,以便深度学习框架能够正确地使用GPU加速。 5. 测试环境:可以使用简单的深度学习模型测试环境是否配置成功。 以上是Ubuntu 18.04深度学习环境配置的基本步骤,具体操作可以参考相关文档和教程。 ### 回答2: Ubuntu18.04是许多深度学习爱好者所喜欢的一种操作系统Ubuntu18.04不仅稳定可靠,还提供了许多强大的开发工具和编程环境。以下是一些要点和步骤,供您在Ubuntu18.04中配置深度学习环境。 1. 安装Ubuntu18.04Ubuntu18.04上安装深度学习环境之前,您需要首先安装Ubuntu18.04操作系统。您可以通过官方网站下载Ubuntu18.04的iso文件,然后将其写入可引导的USB驱动器。 2. 安装NVIDIA驱动程序 NVIDIA驱动程序是深度学习环境配置中最重要的部分,因为它可以提供针对NVIDIA GPU的支持。如何安装NVIDIA驱动程序取决于您的显卡型号。您可以通过以下命令来检查您的显卡型号: $ lspci | grep -i nvidia 如果您的显卡型号是NVIDIA Tesla V100,则可以通过以下命令来下载最新的NVIDIA驱动程序: $ wget http://us.download.nvidia.com/tesla/410.72/nvidia-diag-driver-local-repo-ubuntu1804-410.72_1.0-1_amd64.deb 在安装NVIDIA驱动程序之前,您需要卸载之前安装的任何旧版驱动程序。卸载的命令如下: $ sudo apt-get purge nvidia* 安装新的NVIDIA驱动程序: $ sudo dpkg -i nvidia-diag-driver-local-repo-ubuntu1804-410.72_1.0-1_amd64.deb $ sudo apt-key add /var/nvidia-diag-driver-local-repo-410.72/7fa2af80.pub $ sudo apt-get update $ sudo apt-get install cuda-drivers 3. 安装CUDA和cuDNN 安装了NVIDIA驱动程序后,您可以安装CUDA和cuDNN。CUDA可以为您提供各种各样的计算和优化库,用于构建深度学习模型。cuDNN是一个加速深度神经网络的库。以下是安装CUDA的步骤: $ wget https://developer.nvidia.com/compute/cuda/10.0/Prod/local_installers/cuda-repo-ubuntu1804-10-0-local-10.0.130-410.48_1.0-1_amd64 $ sudo dpkg -i cuda-repo-ubuntu1804-10-0-local-10.0.130-410.48_1.0-1_amd64.deb $ sudo apt-key add /var/cuda-repo-10-0-local-10.0.130-410.48/7fa2af80.pub $ sudo apt-get update $ sudo apt-get install cuda 安装cuDNN: $ tar -xzvf cudnn-9.0-linux-x64-v7.tgz $ sudo cp -P cuda/include/cudnn.h /usr/local/cuda-9.0/include $ sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64/ $ sudo chmod a+r /usr/local/cuda-9.0/include/cudnn.h /usr/local/cuda-9.0/lib64/libcudnn* 4. 安装Python和深度学习框架 Python是深度学习环境中使用的主要编程语言。您可以使用以下命令安装Python3: $ sudo apt-get install python3 深度学习框架是实现深度学习算法和模型的库。许多流行的深度学习框架,例如TensorFlow、PyTorch和Keras,都可以在Ubuntu18.04上进行安装和配置。以下是安装TensorFlow的步骤: $ sudo apt-get install python3-pip python3-dev python-virtualenv $ virtualenv --system-site-packages tensorflow $ source tensorflow/bin/activate (tensorflow) $ pip install --upgrade pip (tensorflow) $ pip install --user tensorflow-gpu 5. 训练深度学习模型 当您完成深度学习环境的配置后,可以开始训练深度学习模型。您可以使用自己的数据集或公共数据集来训练模型。以下是使用TensorFlow训练模型的示例代码: import tensorflow as tf from tensorflow import keras (train_images, train_labels), (test_images, test_labels) = keras.datasets.mnist.load_data() train_images = train_images.astype('float32') / 255 test_images = test_images.astype('float32') / 255 model = keras.Sequential([ keras.layers.Flatten(input_shape=(28, 28)), keras.layers.Dense(128, activation='relu'), keras.layers.Dense(10, activation='softmax') ]) model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.fit(train_images, train_labels, epochs=5) 您可以通过运行该命令训练模型: (tensorflow) $ python train_model.py 在完成训练后,您可以通过以下命令保存模型: model.save('my_model.h5') 6. 总结 Ubuntu18.04是一种出色的操作系统,适用于深度学习环境的配置。在配置深度学习环境之前,您需要安装NVIDIA驱动程序、CUDA和cuDNN。然后,您可以安装Python和深度学习框架,例如TensorFlow。在配置完环境之后,您可以使用您自己的数据或公共数据集训练深度学习模型。 ### 回答3: Ubuntu 18.04 作为当前最流行的开源操作系统,广泛应用于深度学习领域。它提供了很好的性能和稳定性,同时也支持广泛的深度学习框架和工具库,如 Keras、TensorFlow、PyTorch 和 OpenCV 等。下面是配置 Ubuntu 18.04 深度学习环境的基本步骤: 1. 确保 Ubuntu 18.04 正确安装和升级: 首先,确保 Ubuntu 18.04 正确安装和升级到最新版本。您可以使用以下命令升级您的操作系统: sudo apt-get update sudo apt-get upgrade 2. 安装 Anaconda 3: Anaconda 是一个广泛使用的 Python 数据科学和机器学习平台,它为用户提供了方便的包管理和环境管理工具。您可以使用以下命令下载并安装 Anaconda: wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.sh bash Anaconda3-2019.07-Linux-x86_64.sh 在安装过程中,按照屏幕上的提示进行操作。一旦安装完成,您需要从终端中运行以下命令将 Anaconda 添加到系统路径: export PATH=/root/anaconda3/bin:$PATH 3. 安装深度学习框架: 安装深度学习框架需要在 Anaconda 中创建一个新的虚拟环境,并安装相应的包,例如 TensorFlow 或 PyTorch。以下是以 TensorFlow 为例的样例代码: conda create -n tensorflow python=3.6 conda activate tensorflow conda install tensorflow-gpu 用类似的方式可以安装其他深度学习框架,如 PyTorch 等。 4. 安装和配置 GPU 驱动程序: 如果您的系统安装了 GPU,则需要安装相应的 GPU 驱动程序和 CUDA 工具包以获得更好的性能。以下是安装 GPU 驱动程序和 CUDA 工具包的样例代码: sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt-get update sudo apt-get install nvidia-driver-430 sudo apt install nvidia-cuda-toolkit 5. 安装图像处理库: 在深度学习中需要加载和处理图像,在 Ubuntu18.04 中可用的图像处理库包括 OpenCV 和 Pillow。以下是样例代码: conda install opencv conda install Pillow 在完成这些步骤之后,您的 Ubuntu 18.04 系统就具备了基本的深度学习环境。您可以按照框架和工具库的具体要求进行配置和设置,以进行更高级的深度学习任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值