1 配置:
2 docker-hub:
3 退出docker:
4 docker的启动、运行:
5 执行sudo docker run -it --name torch_gpu --gpus all pytorch/pytorch:1.13.1-cuda11.6-cudnn8-devel /bin/bash报错:
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
ERRO[0000] error waiting for container: context canceled
解决方案:
6 安装 NVIDIA Container Toolkit :
使用 Apt 安装
配置生产存储库:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
(可选)配置存储库以使用实验包:
sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list
从存储库更新包列表:
sudo apt-get update
安装 NVIDIA Container Toolkit 软件包:
sudo apt-get install -y nvidia-container-toolkit
配置
先决条件
您安装了支持的容器引擎(Docker、Containerd、CRI-O、Podman)。
您安装了 NVIDIA Container Toolkit。
配置 Docker
使用 nvidia-ctk
命令配置容器run-time:
sudo nvidia-ctk runtime configure --runtime=docker
nvidia-ctk
命令修改主机上的 /etc/docker/daemon.json
文件。该文件更新以便 Docker 可以使用 NVIDIA 容器运行时。
重新启动 Docker 守护进程:
sudo systemctl restart docker
使用 Docker 运行示例工作负载,验证安装成功与否
运行示例 CUDA 容器:
sudo docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi
您的输出应类似于以下输出:
参考信息详见:
7 容器调用gpu:
sudo docker run -it --name torch_gpu --gpus all pytorch/pytorch:1.13.1-cuda11.6-cudnn8-devel /bin/bash
updating:20240423