InternLM 实战营 第五课 LMDeploy 量化部署 LLM 实践(实战部分)

1.LMDeploy环境部署

在这里插入图片描述

2.LMDeploy模型对话(chat)

(1)下载模型
在这里插入图片描述
(2)使用Transformer库运行模型
在这里插入图片描述
(3)使用LMDeploy与模型对话
在这里插入图片描述

3.LMDeploy模型量化(lite)

3.1 设置最大KV Cache缓存大小

首先保持–cache-max-entry-count参数(默认0.8),运行1.8B模型。
在这里插入图片描述
改变–cache-max-entry-count参数,设为0.5,运行1.8B模型。

在这里插入图片描述
把–cache-max-entry-count参数设置为0.01,约等于禁止KV Cache占用显存。

在这里插入图片描述

**结论,**降低KV Cache缓存会明显减小显存占用,但也会降低模型推理速度。

3.2 使用W4A16量化

模型量化时间较久
使用Chat功能运行W4A16量化后的模型:
在这里插入图片描述
在这里插入图片描述
将KV Cache比例再次调为0.01,运行模型,查看显存占用情况明显降低
在这里插入图片描述

4.LMDeploy服务(serve)

以上为本地直接推理大模型,称为本地部署。
在生产环境中,将大模型封装为API接口,供客户端访问。

4.1 启动API服务器

在这里插入图片描述

API调用log

在这里插入图片描述

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值