第五课作业 LMDeploy量化部署

参考说明文档
本文档包含基础作业和进阶作业

  • 软链接是一种映射,减少占用空间
对话

1.lmdeploy环境安装完成
image.png
2.internlm-chat-1.8b已创建软链接
image.png
3.使用transformer库的运行,等待对比
image.png
4.lmdeploy库运行,回答速度明显快于transformer库

  • 两次回车回答问题。一次回车仅为换行。
  • exit退出

image.png

KV cache占比

5.设置kv cache占比的效果对比

  • 先不设置参数,对话,查看显存 7856M
  • 占比设置到0.5,对话,查看显存6608M
  • 占比设置到0.01,对话,查看显存4552M

image.png

量化

6.W4A16量化成功,量化耗时较长

  • 会用到huggingface,internstudio内部可以忽略网络问题
  • 回答的速度明显比量化前要快很多。但启动速度还是比较慢。

image.png

  • 设置kv比例为0.01,占用显存2472M,约为量化前的一半,显著降低。
LMDeploy serve
  • 模型推理服务层 → API中间协议层 → Client前端

7.启动API服务器,保持当前terminal,作为后端服务。新开一个terminal作为前端,去调用服务,调用成功。
image.png
8.网页客户端连接api服务器,gradio作为API中间层。

  • 需要端口转发,powershell里连接ssh
  • 网页客户端创建成功

image.png

python代码集成

image.png

  • 配置turbomind,限制kvcache比例为0.2

image.png

多模态大模型llava
  • 30% A100切换
  • 安装llava依赖库,需要等一段时间
  • 下载比较慢

image.png

  • 使用gradio将llava部署到网页

image.png
image.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值