【大模型】LLM显存占用对比:Qwen-7B-Chat,Qwen-14B-Chat-Int8,chatglm3-6b

【大模型】LLM显存占用对比:Qwen-7B-Chat,Qwen-14B-Chat-Int8,chatglm3-6b

显存占用对比:

显卡:NVIDIA GeForce RTX 4090
系统环境:ubuntu 22.04LTS

  • Qwen-14B-Chat-Int8
    模型:qwen/Qwen-14B-Chat-Int8
    GPU占用:
    在这里插入图片描述

  • Qwen-7B-Chat
    模型:qwen/Qwen-7B-Chat(bf16, fp16)
    GPU占用:
    在这里插入图片描述

  • chatglm3-6b
    模型:ZhipuAI/chatglm3-6b(bf16, fp16)
    GPU占用:
    在这里插入图片描述

总结

总结下来就是能用fp16就用fp16,能用Int8就用Int8,能用int4就用int4。
量化对降低显存占用还是非常不错。

参考

  1. https://modelscope.cn/models/qwen/Qwen-14B-Chat-Int8/summary
  2. https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary
  3. https://modelscope.cn/models/ZhipuAI/chatglm3-6b/summary
  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值