这个先看下问题背景,因为这个问题来源五花八门,我的解决办法不一定适用其他情况。
问题背景
之前我使用vllm(0.2.0)部署大模型,其中有一个大模型在部署时想用AutoAWQ量化我的模型再部署,但是中途发现不必,但是我已经pip install autoawq了,这个安装了torch==2.1.0,然后安装了一堆nvidia-xxx-12的包,导致和我之前的包(nvidia-xxx-11)冲突。而我的cuda版本是11.7。
问题1:用vllm部署时候显示CUDA driver version is insufficient for CUDA runtime version
问题2:我把nvidia-xxx-12的包都卸载了,然后重新安装pytorch==2.0.1,但是报错:ImportError: libcudnn.so.8: cannot open shared object file: No such file or directory
解决办法
把之前的nvidia-xxx-11也卸载了,卸载torch然后重新pip install torch==2.0.1,这样会重装之前的11的包。