超算云服务深度学习环境配置Pytorch1.6+CUDA10.2+DGL0.4.3


最近在用并行超算云服务器(北京超级云计算中心,宁夏超级云计算中心)搭建Pytorch1.6+CUDA10.2+DGL0.4.3的深度学习实验环境,这里记录一下。

登录超算云服务

根据注册时获得的账号和密码,使用网页版或下载客户端登录账号。
在这里插入图片描述

连接服务器

我这里尝试了2种连接服务器的方式,SSH和第三方软件(Xshell)

1. 通过SSH连接服务器

点击桌面SSH图标,显示当前账号可访问的云服务器,点击想要连接的服务器。
在这里插入图片描述
在这里插入图片描述
显示当前页面表明服务器连接成功。

2. 通过第三方软件连接服务器(Xshell)

前提:计算机本地已安装Xshell。
本人平时连接服务器习惯用XShell,主要原因是Xshell配套的Xftp方便服务器和本地文件的传输。

从应用中心安装Xshell。选择应用中心->超算云服务->Xshell申请使用
由于我这里已经安装完成,所以显示卸载。如果未安装则显示申请使用。
在这里插入图片描述
安装完成后桌面会显示Xshell图标。第一次进入Xshell会让选择文件路径,此时需要选择本地计算机的Xshell.exe将云服务器与本地Xshell连接起来。
在这里插入图片描述
绑定后,点击Xshell图标则会唤醒本地Xshell应用,并自动连接云服务器。这里可能会询问是否确认连接服务器,输入yes即可连接到服务器,其他的Xftp等服务均可正常使用。
在这里插入图片描述

配置深度学习环境

1. 查看服务器已安装模块

在SSH或Xshell终端输入命令module avail
踩过的坑:如果输入module avail显示command module not found,则先输入source path/path/module.sh(一般这里路径会在连接服务器时有提示),再输入module avail。通常服务器已经预先装好anaconda,cuda等常用环境。

[your@account ~]$ module avail

------------------------------ /usr/share/Modules/modulefiles -------------------------------
dot         module-git  module-info modules     null        use.own

---------------------------------- /data/apps/modulefiles -----------------------------------
alphafold/2.0.0
alphafold/2.0.0_20210827
alphafold/2.0.1
alphafold/2.1.1
amber/AmberTools21_openmpi_nccl
anaconda/2020.11

2. 调用Anaconda模块

module load anaconda/2020.11

3. 创建Python3.7的虚拟环境

conda create -n myname python=3.7

4. 虚拟环境下安装CUDA10.2+Pytorch1.6.0

sources activate myname
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2 -c pytorch
#速度太慢,安装了除pytorch以外的所有包
pip install torch==1.6.0 torchvision==0.7.0
#安装成功,但通过print(torch.cuda.is_available())返回False,认为未安装对应CUDA(后来想起也可能是因为未向云服务器请求分配GPU的原因)

尝试向Anaconda添加清华镜像源,加快pytorch下载速度

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes

重新用conda安装pytorch

conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2

安装成功,利用torch.cuda.is_available()检查cuda是否可用,返回True则证明可用。注:此处记得先向云服务器申请GPU设备再检测。

5. 虚拟环境下安装CUDA版本的DGL

方法1. 从DGL官网查询对应命令

可以指定dgl版本,从这里查看dgl版本名称

conda install -c dglteam dgl-cuda10.2==0.4.3post2

方法2. 从镜像网站本地安装

点击这里寻找与cuda版本对应的dgl包
将下载的包放在合适文件夹下,终端进入该文件夹,安装DGL包

cd ./archive
pip install dgl_cu102-0.4.3.post2-cp37-cp37m-manylinux1_x86_64.whl

在这里插入图片描述
安装成功。

6. 虚拟环境下继续安装其他依赖包

conda install numpy=1.17 #(高版本numpy与mxnet冲突)
conda install scikit-learn
conda install pandas
conda install matplotlib
conda install tqdm

至此,我所需要的所有深度学习模型环境已经配齐,接下来就可以上传代码跑实验啦!

  • 17
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值