书生·浦语大模型 - 进阶岛 - 第3关 LMDeploy 量化部署进阶实践

1.创建环境

2. 获取模型

3. LMDeploy验证启动模型文件

我选择的是50%A100*1 建立的机器,运行InternLM2.5 7B模型,会发现此时显存占用为36GB

4. LMDeploy API部署InternLM2.5-启动API服务

命令解释:

  1. lmdeploy serve api_server:这个命令用于启动API服务器。
  2. /root/models/internlm2_5-7b-chat:这是模型的路径。
  3. --model-format hf:这个参数指定了模型的格式。hf代表“Hugging Face”格式。
  4. --quant-policy 0:这个参数指定了量化策略。
  5. --server-name 0.0.0.0:这个参数指定了服务器的名称。在这里,0.0.0.0是一个特殊的IP地址,它表示所有网络接口。
  6. --server-port 23333:这个参数指定了服务器的端口号。在这里,23333是服务器将监听的端口号。
  7. --tp 1:这个参数表示并行数量(GPU数量)。

5. SSH映射

6. 访问API

7. 以命令行形式连接API服务器

8. 以Gradio网页形式连接API服务器

9. 设置最大kv cache缓存大小

10. 设置在线 kv cache int4/int8 量化

11. W4A16 模型量化和部署

12. 查看模型文件大小以及占据显存大小

原模型大小

  • 9
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值