1、服务器没有root权限,如screen等工具只能安装在子节点,需要下载源码编译或安装包等。
2、版本信息:Ubuntu 16.04.2,Python 3.7.1,conda 4.5.13。这里安装完miniconda之后会默认覆盖为python2.7.13,但因为后面有conda创建的python3.6虚拟环境用于匹配tensorflow,因此不需要特意安装python3。如果查到方便的py2更新到py3的方法,会更新在这里。
3、源。由于清华anaconda源5月16被封停,因此选择中科大源:中科大源。
4、服务器有GPU(PH402,32*4GB),大约有60G左右内存,选择安装tensorflow-gpu,需要对应tf、cuda和cudnn版本,参考TF GPU 支持、经过测试的构建配置。
这里选择tensorflow-gpu-1.12.0、cuda 9、cudnn 9。
另外注意以上配置中python版本最高为3.6,可以参考python3.7切换python3.6。
5、具体的安装步骤参考,Ubuntu 16.04安装配置TensorFlow GPU版本(最详细),Ubuntu16.04下安装cuda和cudnn的三种方法(简单参考),ubuntu中使用conda安装tensorflow-gpu(安装tf的命令)。
第一个链接中,有以下几个注意的地方:
Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]:
这里需要设置子节点的默认路径:/home/***/.usr/cuda-9.0。
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y
这里选择n。因为没有sudo权限。
Enter CUDA Samples Location
[ default is /home/kinny ]:
这里设置路径为:/home/***/.usr/cuda-samples。
export PATH="$PATH:/usr/local/cuda-8.0/bin"
export LD_LIBRARY_PATH="/usr/local/cuda-8.0/lib64"
这里环境变量按对应的路径设置。
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
这里安装cudnn需要注意路径,另外由于子节点文件有r权限,可以不加chmod命令行。
第三个链接中,有两个需要注意的地方:
首先,需要Create conda env to install tf:conda create -n tensorflow python=3.6。
然后,注意修改tf版本号:conda install tensorflow-gpu==1.12.0。
这里可以参考:Tensorflow GPU install on ubuntu 16.04和ubuntu16.04在anaconda中基于python3.6安装tensorflow。
如下图所示,tf-gpu即安装成功。这里需要激活conda虚拟环境:source activate tensorflow。
退出虚拟环境:source deactivate。退出conda默认的base环境使用相同命令。参考:安装 aconda 后Linux的终端界面前部出现(base)字样。
6、如果需要keras,在刚刚那个激活的conda虚拟环境中执行:pip install keras。
7、检测tf是否使用gpu计算。
import tensorflow as tf
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
查看日志信息若包含gpu信息,就是使用了gpu。 参考:检测tensorflow是否使用gpu进行计算。
8、如果需要修改或删除以上tensorflow环境,参考:conda 创建/删除/重命名 环境。
9、之后尝试使用Docker安装,参考:支持 GPU 的 TensorFlow Docker 映像(仅限 Linux)。