近期由于实验需要,V100 32GB 的显存已经不能满足需求,因此此为迁移到 A100-80GB 的总结,以备后续查阅。
注:以下内容仅在 KAUST IBEX 集群上进行测试,且以下言论仅为个人申明,不代表 KAUST 观点。
环境配置
登录 Ibex A100 集群之后,nvidia-smi
显示如下版本信息:
NVIDIA-SMI 465.19.01 Driver Version: 465.19.01 CUDA Version: 11.3
由于 A100 需要 sm80, 因此我们需要安装 pytorch 1.9.1.
conda create -n xxx python=3.8
实测安装 python=3.10 后续 torch==1.9.1+cu111 会报错, python=3.8 正常工作。接着安装 Pytorch:
pip3 install torch==1.9.1+cu111 torchvision==0.10.1+cu111 torchaudio==0.9.1 -f https://download.pytorch.org/whl/torch_stable.html
我们使用 module av
查看可用集成模块,需要则使用 module load
进行加载。
注:Ibex 项目目录在 /ibex/ai/project/xx 而不是 /ibex/project。
Done!