linux安装完torch或者tensorflow的gpu版本,安装没问题,但是import就有问题,报错OSError: libnccl.so.2: cannot open shared object file: No such file or directory
,是缺少nvidia的ncll,下面介绍解决方法:
1 安装ncll
下载链接https://developer.nvidia.com/nccl/nccl-download
,选择合适的版本,然后输入如下的命令
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
$ sudo dpkg -i cuda-keyring_1.1-1_all.deb
$ sudo apt-get update
输入完之后输入:
sudo apt install libnccl2=2.22.3-1+cuda12.6 libnccl-dev=2.22.3-1+cuda12.6
注意在下载的时候可能会遇到几个小问题:
1.1 ModuleNotFoundError: No module named ‘apt_pkg’
在/usr/lib/python3/dist-packages目录下执行:
sudo cp apt_pkg.cpython-35m-x86_64-linux-gnu.so apt_pkg.so
这就是一个复制黏贴,注意,你的apt_pkg.cpython-35m-x86_64-linux-gnu.so
这个文件可能和我的不一样
1.2 由于没有公钥,无法验证下列签名: NO_PUBKEY 99E82A75642AC823
提示没有公钥,可以输入
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 99E82A75642AC823
等上面都没问题时,再把原来的那三条命令运行一下就行
都输入完重新进入命令框就行,可以尝试import torch
。