最终运行环境
ubuntu18 cuda11.6 RTX3090*2 显存24G*2 RAM128G
clone官方仓库运行过程中的问题
先是直接运行就报错,他这个代码实现使用的torch,报错内容是类似OSError: libcusparse.so.11 libcusparse.so.11缺少什么的,这种错误属于cuda版本不匹配导致的,
直接使用import torch测试,就会报这错误
解决方法是,先寻找对应当前cuda版本的torch torchvision,去pytorch官网下
(nvcc -V查看cuda版本)
我是没找到对应版本
我的显卡驱动是470 cuda是11.1
于是打算更换显卡驱动
直接去nvidia下载对应525显卡run驱动,提示无法安装,告诉你你的显卡驱动在使用中。
所以换成ubuntu18自带软件,软件与更新还是什么,里面的附加驱动
换成525专有驱动,
打开系统监视器看网速只有100k/s
更换到apt清华源20m/s
完成后使用nvidia-smi报错NVLM mismatch什么的问题,百度后得知是内核显卡驱动版本和新安装的冲突。
可以命令查看内核显卡版本,
解决方法是卸载所有nvidia旧驱动,得多运行看卸干净没,再重启
再安装新驱动,安装好nvidia-smi还是报错,再重启就好了
之后是cuda,我的旧cuda11.1不用删,在bashrc里注释就行,
cuda官网下好run后
安装时,有个[x]driver,你回车就能取消这个,否则安装或报错,说你已经有驱动了。
之后再install,cuda完成后还需要配置
export PATH="$PATH:/data/zhangjiong/cuda-11.6/bin"
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/data/zhangjiong/cuda-11.6/lib64/"
export LIBRARY_PATH="$LIBRARY_PATH:/data/zhangjiong/cuda-11.6/lib64"
11.6改成你的版本,放到bashrc里。
之后运行出结果如下