搭建深度学习的docker环境

最新推荐文章于 2024-04-03 09:31:52 发布

xieyan0811

最新推荐文章于 2024-04-03 09:31:52 发布

阅读量791

点赞数 1

分类专栏： Docker

本文链接：https://blog.csdn.net/xieyan0811/article/details/106556177

版权

Docker 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

介绍

深度学习一般依赖比较复杂的环境，每个项目需要的底层库各有不同，有时在github中下载的代码只能运行在版本较低的的工具链之上。想在一台机器上建立适合所有项目的环境非常困难，大多数情况下使用docker维护不同项目针对的不同环境。

CUDA是NVIDIA推出的运算平台，一般通过它调用GPU，CUDA的主要版本有7.x, 8.x,9.x,10.x，目前最常用的是9和10，它们对接的上层软件版本也各不相同。如：

torch 1.1.0/1.1.0 + torchvision 0.2.* + CUDA 9
torch 1.2.0/1.3.0 + torchvision 0.3.* + CUDA 10
torch 1.2.0/1.3.0 + torchvision 0.4.* + CUDA 10
torch 1.4.0 + torchvision 0.5.* + CUDA 10

除了CUDA基础库以外，还需安装相关工具包。可以在同一个操作系统中安装多个CUDA版本，使用时切换即可。

在Docker中使用GPU除了在Docker内部安装CUDA及相关工具以外，还需要使用nvidia-docker启动镜像，并且要在宿主机上安装CUDA的底层支持（注意版本兼容）。

宿主机安装Nvidia驱动

$ sudo add-apt-repository ppa:graphics-drivers/ppa
$ sudo apt-get update
$ sudo ubuntu-drivers devices # 查看当前显卡及推荐的驱动
$ sudo apt-get install nvidia-driver-435 # 选择其中一个推荐安装，尽量安装较高版本
$ sudo apt install nvidia-utils-435 # nvidia-smi支持（查看显卡信息）
$ sudo apt install nvidia-cuda-toolkit # nvcc支持（nv环境下的C语言编译器）
$ sudo reboot

重启之后，使用nvidia-smi命令即可看到机器上的显卡及当前使用情况：

安装支持CUDA的Docker工具

安装Docker

# 安装系统工具
$ sudo apt-get update
$ sudo apt-get -y install apt-transport-https ca-certificates curl software-properties-common
# 安装GPG证书
$ curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
# 写入软件源信息
$ sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
# 更新并安装 Docker-CE
$ sudo apt-get -y update
$ sudo apt-get -y install docker-ce

安装Nvidia-docker2

$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \
 sudo apt-key add -
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
 sudo tee /etc/apt/sources.list.d/nvidia-docker.list
$ sudo apt-get update
$ sudo apt-get install -y nvidia-docker2
$ sudo pkill -SIGHUP dockerd
$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi # 测试

测试时自动从网上下载镜像nvidia/cuda，该镜像大小为2.83G，只包含基本的9.1版本的CUDA环境，不含Python相关工具。

在Docker中使用Jupyter开发

在pytorch:1.1.0-cuda10.0-py3的基础上安装jupyter开发环境：
在当前目录下创建Dockerfile，内容如下：

FROM registry.cn-shanghai.aliyuncs.com/tcc-public/pytorch:1.1.0-cuda10.0-py3
ADD . /
RUN mkdir ~/.pip \
 && echo "[global]\nindex-url = https://mirrors.aliyun.com/pypi/simple/" > ~/.pip/pip.conf
RUN sed -i s@/archive.ubuntu.com/@/mirrors.aliyun.com/@g /etc/apt/sources.list
RUN apt-get clean
RUN apt-get update -y
RUN pip install jupyter

ENV PASSWORD=123456
ENV CONFIG_PATH="/root/.jupyter/jupyter_notebook_config.py"
COPY "jupyter_notebook_config.py" ${CONFIG_PATH}
WORKDIR /notebooks/
#CMD ["sh", "run.sh"]

在当前目录下创建jupyter配置文件jupyter_notebook_config.py，用于设置密码：

import os
from IPython.lib import passwd
# c = c # pylint:disable=undefined-variable
c = get_config()
c.NotebookApp.ip = '0.0.0.0'
c.NotebookApp.port = int(os.getenv('PORT', 8888))
c.NotebookApp.open_browser = False
# sets a password if PASSWORD is set in the environment
if 'PASSWORD' in os.environ:
    password = os.environ['PASSWORD']
    if password:
        c.NotebookApp.password = passwd(password)
    else:
        c.NotebookApp.password = ''
        c.NotebookApp.token = ''
del os.environ['PASSWORD']

创建名为test:0.1的Docker镜像：

$ sudo docker build . -t test:0.1

启动方法

$ sudo nvidia-docker run --rm -v 宿主机目录:docker内部目录 -p 8891:8888 -it test:0.1 jupyter notebook --allow-root -y --no-browser --ip=0.0.0.0 --config=/root/.jupyter/jupyter_notebook_config.py

此时，用网络上任意一台机器可以访问docker启动的jupyter环境：http://宿主机IP地址:8891

天池竞赛上传镜像

下面为参加阿里天池大数据比赛时上传镜像的方法：

登录阿里云：https://www.aliyun.com/product/acr?
进镜像仓库：https://cr.console.aliyun.com/cn-shanghai/instances/repositories
具体流程见： https://tianchi.aliyun.com/competition/entrance/231759/tab/174?spm=5176.12586973.0.0.547d780b0Cgnoh
创建一个镜像仓库，复制其公网地址。

在本地登录

$ sudo docker login --username=您的用户名 registry.cn-shenzhen.aliyuncs.com

上传镜像

$ sudo docker tag test:0.1 公网地址
$ sudo docker push 公网地址

问题及解决

问题一：安装证书报错

问题：运行 $ sudo add-apt-repository ppa:graphics-drivers/ppa，报错： Cannot add PPA: 'ppa:~graphics-drive/ubuntu/ppa'. ERROR:'~graphics-drive' user or team does not exist.
解决：CA证书损坏，可以通过命令 sudo apt-get install --reinstall ca-certificates修复。

问题二：显卡支持问题

问题：查看NVIDIA驱动版本： $ sudo dpkg --list | grep nvidia-* 时没有显示

解决：查看GPU型号：$ lspci| grep -i nvidia自动安装驱动：$ sudo ubuntu-drivers autoinstall

（感谢sfthejia@buu.edu.cn反馈的问题及解决方法）

xieyan0811

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
搭建深度学习的docker环境

介绍深度学习一般依赖比较复杂的环境，每个项目需要的底层库各有不同，有时在github中下载的代码只能运行在版本较低的的工具链之上。想在一台机器上建立适合所有项目的环境非常困难，大多数情况下使用docker维护不同项目针对的不同环境。CUDA是NVIDIA推出的运算平台，一般通过它调用GPU，CUDA的主要版本有7.x, 8.x,9.x,10.x，目前最常用的是9和10，它们对接的上层软件版本也各不相同。如：torch 1.1.0/1.1.0 + torchvision 0.2.* + CUDA
复制链接

扫一扫