【大模型实战篇】对比包括QwQ-32B在内的不同推理模型的吞吐量表现

        因为项目对推理模型的性能有比较高的要求,因此对目前一些主流的推理模型做了对比,包括QwQ-32B、QwQ-32B-GPTQ-INT4、QwQ-32B-GPTQ-INT8、Light-R1-14B-DS进行了吞吐量的对比实验。

        实验采用A800机器,测试双卡部署以及四卡部署的模式,推理框架采用vllm,关于部署的细节参考《vllm本地部署阿里最新的QwQ-32B推理模型》。

        模型参数链接如下:

模型名称参数链接
QwQ-32Bhttps://www.modelscope.cn/models/Qwen/QwQ-32B/files
QwQ-32B-GPTQ-INT4https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int4
QwQ-32B-GPTQ-INT8https://www.modelscope.cn/models/tclf90/qwq-32b-gptq-int8
Light-R1-14B-DShttps://www.modelscope.cn/models/360zhinao/Light-R1-14B-DS

        实验结果如下:

vllm部署模型prompt吞吐量(tokens/s)

generation吞吐量

(tokens/s)

双卡部署

QwQ-32B

392

38

QwQ-32B-gptq-int8

243

57

QwQ-32B-gptq-int4

310

75

Light-R1-14B-DS

391

47

四卡部署

QwQ-32B

368

59

QwQ-32B-gptq-int8

266

77

QwQ-32B-gptq-int4

393

78

Light-R1-14B-DS

391

62

   实验结论:

        QwQ-32B-gptq-int4在同等条件下,性能最优。当然在实际业务中,还需要评测效果准确度是否满足要求。

        另外,关于首响时间,也是 QwQ-32B-gptq-int4表现最好,当然也和实际的机器有关,需要根据具体情况做实际的评测。       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源泉的小广场

感谢大佬的支持和鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值