准备
-
python包vllm
用来加载模型,启动服务
-
模型文件
可以使用官方:mistralai/Codestral-22B-v0.1
我是使用AQW 4bit量化 solidrust/Codestral-22B-v0.1-hf-AWQ
也可以选择GPTQ 4bit量化,可以看看vllm支持哪个格式
如果是比较旧的显卡可能不支持量化版本模型
-
vs code 的continue插件
用来加载模型,启动服务
可以使用官方:mistralai/Codestral-22B-v0.1
我是使用AQW 4bit量化 solidrust/Codestral-22B-v0.1-hf-AWQ
也可以选择GPTQ 4bit量化,可以看看vllm支持哪个格式
如果是比较旧的显卡可能不支持量化版本模型