参考:
Linux安装conda - 简书 (jianshu.com)
实验室服务器conda使用教程_如何运行服务器上的conda_八十八岁扶墙敲码的博客-CSDN博客
查看linux服务器gpu使用情况_有石为玉的博客-CSDN博客_linux服务器用的gpu显卡
一、 服务器装载conda环境
1.在清华镜像源找到miniconda的网址,复制链接,用wget指令下载。
##wget 加网址,中间可以加-c参数,断点续传
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
2. 安装miniconda,执行脚本文件。注意:要在同一目录下,bash命令会寻找.sh文件,读入并执行。如果不在同一目录下,可能会出现找不到文件的错误。此时用cd命令切换路径即可。在安装过程中,可能会出现许多提示信息,你可以认真或者不怎么认真地阅读它们,并输入yes继续安装过程,当然,如果不想安装下去还是可以输入no的。其中安装路径需要enter确认,此处可根据提示来选择输入。
bash Miniconda3-latest-Linux-x86_64.sh
3. 出现Thank you for…的时候说明安装已经完成,但是此时需要激活刚安装的minicoda。使用bash指令可以重新执行刚修改的初始化文件,使之立即生效,而不必注销并重新登录。
source ~/.bashrc
4. 检查是否成功。
conda --help
#调用出来说明安装成功
二、创建新环境
1.创建指定python版本的conda环境,此处-y表示默认继续进程,-n表示模型的名字,此处为model_name。后面的python=3.8.2是我指定的python版本,默认安装最新,但建议根据需要指定版本。
conda create -y -n model_name python=3.8.2
2.创建的环境需要激活,先查看存在的conda环境包括哪些:
conda env list
再选择需要的环境激活:
conda activate model_name
激活后可以查看环境中已经安装的包:
conda list
3.在环境中安装包
安装包的过程中很可能出现HTTP ERROR,如果没有出现断网,一般是因为国外的网址连接不稳定的问题,此时需要配置镜像源。
# 下面这三行配置官网的channel地址
conda config --add channels r
conda config --add channels conda-forge
conda config --add channels bioconda
##以上三句命令一次性复制粘贴或是单独复制粘贴到服务器
选择镜像源配置,可选清华镜像源、北外镜像源、豆瓣镜像源等。
#(1)下面这四行配置清华大学的conda的channel地址,国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
##配置清华镜像,四句代码一起复制粘贴到服务器
# (2)下面四行配置北京外国语大学的conda的channel地址
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes
三、显卡的使用
1.查看当前显卡的使用状态。
nvidia-smi
显示效果如下图,图中的参数含义:
- CUDA Version,可能关系到匹配的pytorch等一系列包的版本。
- GPU:这里有四块GPU,编号0-3
- Name:显卡名,这里四块都是GeForce
- Temp:显卡温度,第一个是60摄氏度
- Perf:性能状态,从P0到P12,P0性能最大,P12最小
- Persistence-M:持续模式的状态开关,该模式耗能大,但是启动新GPU应用时比较快
- Pwr:能耗
- Bus-Id:GPU总线
- Disp.A:表示GPU的显示是否初始化
- Memory-Usage:显存使用率
- GPU-Util:GPU利用率,第一个是74%,第二个未用
- Compute M.:计算模式
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.82.01 Driver Version: 470.82.01 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... On | 00000000:1C:00.0 Off | N/A |
| 30% 29C P8 20W / 350W | 4847MiB / 24268MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA GeForce ... On | 00000000:1D:00.0 Off | N/A |
| 30% 32C P8 25W / 350W | 3MiB / 24268MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 2 NVIDIA GeForce ... On | 00000000:3F:00.0 Off | N/A |
| 30% 32C P8 31W / 350W | 3MiB / 24268MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 3 NVIDIA GeForce ... On | 00000000:40:00.0 Off | N/A |
| 30% 33C P8 29W / 350W | 3MiB / 24268MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
2.指定使用的GPU(一块),可以在程序中或者在终端输入指令。
#代码中指定GPU
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0" #指定第一块gpu
#等价于在终端输入指令
export CUDA_VISIBLE_DEVICES = 0
#指定多块GPU
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0, 2" # 使用第一, 三块GPU