因为项目对推理模型的性能有比较高的要求,因此对目前一些主流的推理模型做了对比,包括QwQ-32B、QwQ-32B-GPTQ-INT4、QwQ-32B-GPTQ-INT8、Light-R1-14B-DS进行了吞吐量的对比实验。
实验采用A800机器,测试双卡部署以及四卡部署的模式,推理框架采用vllm,关于部署的细节参考《vllm本地部署阿里最新的QwQ-32B推理模型》。
模型参数链接如下:
模型名称 | 参数链接 |
QwQ-32B | https://www.modelscope.cn/models/Qwen/QwQ-32B/files |
QwQ-32B-GPTQ-INT4 | https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int4 |
QwQ-32B-GPTQ-INT8 | https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int8 |
Light-R1-14B-DS | https://www.modelscope.cn/models/360zhinao/Light-R1-14B-DS |
实验结果如下:
vllm部署 | 模型 | prompt吞吐量(tokens/s) | generation吞吐量 (tokens/s) |
双卡部署 | QwQ-32B | 392 | 38 |
QwQ-32B-gptq-int8 | 243 | 57 | |
QwQ-32B-gptq-int4 | 310 | 75 | |
Light-R1-14B-DS | 391 | 47 | |
四卡部署 | QwQ-32B | 368 | 59 |
QwQ-32B-gptq-int8 | 266 | 77 | |
QwQ-32B-gptq-int4 | 393 | 78 | |
Light-R1-14B-DS | 391 | 62 |
实验结论:
QwQ-32B-gptq-int4在同等条件下,性能最优。当然在实际业务中,还需要评测效果准确度是否满足要求。
另外,关于首响时间,也是 QwQ-32B-gptq-int4表现最好,当然也和实际的机器有关,需要根据具体情况做实际的评测。