- 使用结合W4A16量化与kv cache量化的
internlm2_5-7b-chat
模型封装本地API并与大模型进行一次对话,作业截图需包括显存占用情况与大模型回复,参考4.1 API开发(优秀学员必做)
1 配置LMDeploy环境
2 LMDeploy与InternLM2.5
2.1 LMDeploy API部署InternLM2.5
2.1.1 启动API服务器
2.1.2 以命令行形式连接API服务器
2.1.3 以Gradio网页形式连接API服务器
2.2 LMDeploy Lite
2.2.1 设置在线 kv cache int4/int8 量化
lmdeploy serve api_server \
/root/models/internlm2_5-7b-chat \
--model-format hf \
--quant-policy 4 \
--cache-max-entry-count 0.4\
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1
2.2.2 W4A16 模型量化和部署
2.2.3 W4A16 量化+ KV cache+KV cache 量化
2.2.4封装本地API并进行对话
2.2.5使用Function call功能
使用量化的模型不可以正常计算
使用未量化的模型可以正常计算