书生大模型-LMDeploy 量化部署进阶实践

晚风809

于 2024-08-28 14:44:08 发布

阅读量136

点赞数 2

文章标签： github python

本文链接：https://blog.csdn.net/weixin_63652204/article/details/141640039

版权

1.配置LMDeploy环境，验证启动模型文件这里跑的是internlm2_5-1_8b-chat模型

注意到屏幕右上角，这是InternStudio提供的资源监控。

LMDeploy API部署InternLM2.5

先启动API服务器

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

进行端口映射看到这个页面服务器就启动成功了

以命令行形式连接API服务器

重新打开一个终端以命令行形式连接API服务器再以Gradio网页形式连接API服务器

进行W4A16 量化+ KV cache+KV cache 量化

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

成功后查看占用显存在网页端与模型进行一次对话