新搭系统,安装cuda。
安装好后执行nvidia-smi发现报错:
nvidia-smi: Command not found.
cat日志发现基本都是报
CUDA driver version is insufficient for CUDA runtime version
这其实是最终的结果表象,导致这个结果的原因有很多。
- 既然是说cuda driver的版本和cuda runtime的版本不匹配,应该从很多链接里都有看到这张版本匹配图:
所以根据这张图先去排查一下自己的版本。 - 查看cuda runtime version:
nvcc -V
或者
cat /usr/local/cuda/version.txt
- 而要看cuda driver version,又要
nvidia-smi
,可是现在就是这条指令有问题打不开呀 - 看了很多其他链接,发现我的/usr/src路径下没有nvidia-xx这个路径,也就是我还缺个nvidia driver。这里其实就是个错误点:我从其他机器把它的nvidia driver直接scp来了,依然不行。
- 就是觉得怪啊,最后换了个高一点版本的cuda(11.0) 结果好了,nvisdia-smi可以执行了。
- 但是再看发现获取机器名称是
ERR
- 看看这名到底咋回事
nvidia-smi -L
您猜最后怎么着
再装个更新版本的nvidia driver和cuda就行了 /微笑