书生大模型-LMDeploy 量化部署进阶实践

1.配置LMDeploy环境,验证启动模型文件 这里跑的是internlm2_5-1_8b-chat模型

注意到屏幕右上角,这是InternStudio提供的资源监控。

LMDeploy API部署InternLM2.5

先启动API服务器

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

进行端口映射  看到这个页面服务器就启动成功了

以命令行形式连接API服务器

重新打开一个终端以命令行形式连接API服务器 再以Gradio网页形式连接API服务器

进行W4A16 量化+ KV cache+KV cache 量化

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

 成功后查看占用显存 在网页端与模型进行一次对话

 

LMDeploy之FastAPI与Function call

这里不支持1.8B的模型 得换成2.5B模型 然后重新启动服务器 进行Function call调用 

这里只是一些过程得展示 具体教程链接放在下面了

Tutorial/docs/L2/LMDeploy/readme.md at camp3 · InternLM/Tutorial (github.com)

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值