LMDeploy 量化部署实践闯关任务

  • 使用结合W4A16量化与kv cache量化的internlm2_5-7b-chat模型封装本地API并与大模型进行一次对话,作业截图需包括显存占用情况与大模型回复,参考4.1 API开发(优秀学员必做)

1 配置LMDeploy环境

2 LMDeploy与InternLM2.5

2.1 LMDeploy API部署InternLM2.5

2.1.1 启动API服务器

2.1.2 以命令行形式连接API服务器

2.1.3 以Gradio网页形式连接API服务器

2.2 LMDeploy Lite

2.2.1 设置在线 kv cache int4/int8 量化

lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat \
    --model-format hf \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

2.2.2 W4A16 模型量化和部署

2.2.3 W4A16 量化+ KV cache+KV cache 量化

2.2.4封装本地API并进行对话

2.2.5使用Function call功能

使用量化的模型不可以正常计算

使用未量化的模型可以正常计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值