一 ubuntu英伟达安装驱动
1、先停止服务 service lightdm stop
2、 运行对应版本的驱动 ./NVIDIA-Linux-x86_64-418.56.run -no-x-check -no-nouveau-check -no-opengl-files
另外几种安装方法
#使用下面命令查看与显卡匹配的驱动
ubuntu-drivers devices
#然后,禁用掉开源驱动nouveaus(https://www.cnblogs.com/liangzp/p/9105294.html),选择你想要的驱动进行安装(会自动安装对应的CUDA)
建议使用435
apt install nvidia-driver-435
二 升级/降级 cudnn版本
指定你要的版本 bpkg -i cudnn版本包,例如:
dpkg -i libcudnn7_7.0.5.15-1+cuda9.0_amd64.deb
三 安装tensorflow版本
1 pip 安装
pip install tensorflow-gpu==1.9.0
四 相关依赖安装
#install swig
download:http://prdownloads.sourceforge.net/swig/swigwin-3.0.12.zip
#set path
#Build c++ library
#ubuntu16.04 swig 下载源码
g++
apt-get install libpcre3 libpcre3-dev
./configure
make
make instal
#没有paf ImportError: No module named '_pafprocess'
swig -python -c++ pafprocess.i && python setup.py build_ext --inplace
#windows:pycocotools PythonAPI
pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI
#install python COCO
git clone https://github.com/pdollar/coco.git
# install pycocotools locally
python setup.py build_ext --inplace
# install pycocotools to the Python site-packages
python setup.py build_ext install
#install opencv_python3
http://ai-download.xmgc360.com/opencv_python-3.3.0.10-cp36-cp36m-win_amd64.whl
pip install E:\tf-openpose\opencv_python-3.3.0.10-cp36-cp36m-win_amd64.whl
五 问题
1、tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[64,144,184,216] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
这是tensorflow 一个经常性错误,错误的原因在于:显卡内存不够。
解决方法就是降低显卡的使用内存,途径有以下几种措施:
(1) 减少Batch 的大小
(2) 分析错误的位置,在哪一层出现显卡不够,比如在全连接层出现的,则降低全连接层的维度,把2048改成1042啥的
(3) 增加pool 层,降低整个网络的维度。
(4) 修改输入图片的大小
2 加载中文字体 出现错误 Intel MKL FATAL ERROR: Cannot load libmkl_avx.so or libmkl_def.so.
conda install nomkl