近期由于实验需要,V100 32GB 的显存已经不能满足需求,因此此为迁移到 A100-80GB 的总结,以备后续查阅。
注:以下内容仅在 KAUST IBEX 集群上进行测试,且以下言论仅为个人申明,不代表 KAUST 观点。
环境配置
登录 Ibex A100 集群之后,nvidia-smi
显示如下版本信息:
NVIDIA-SMI 465.19.01 Driver Version: 465.19.01 CUDA Version: 11.3
由于 A100 需要 sm80, 因此我们需要安装 pytorch 1.9.1.
conda create -n xxx python=3.8
实测安装 python=3.10 后续 torch==1.9.1+cu111 会报错, python=3.8 正常工作。接着安装 Pytorch: