参考说明文档
本文档包含基础作业和进阶作业
- 软链接是一种映射,减少占用空间
对话
1.lmdeploy环境安装完成
2.internlm-chat-1.8b已创建软链接
3.使用transformer库的运行,等待对比
4.lmdeploy库运行,回答速度明显快于transformer库
- 两次回车回答问题。一次回车仅为换行。
- exit退出
KV cache占比
5.设置kv cache占比的效果对比
- 先不设置参数,对话,查看显存 7856M
- 占比设置到0.5,对话,查看显存6608M
- 占比设置到0.01,对话,查看显存4552M
量化
6.W4A16量化成功,量化耗时较长
- 会用到huggingface,internstudio内部可以忽略网络问题
- 回答的速度明显比量化前要快很多。但启动速度还是比较慢。
- 设置kv比例为0.01,占用显存2472M,约为量化前的一半,显著降低。
LMDeploy serve
- 模型推理服务层 → API中间协议层 → Client前端
7.启动API服务器,保持当前terminal,作为后端服务。新开一个terminal作为前端,去调用服务,调用成功。
8.网页客户端连接api服务器,gradio作为API中间层。
- 需要端口转发,powershell里连接ssh
- 网页客户端创建成功
python代码集成
- 配置turbomind,限制kvcache比例为0.2
多模态大模型llava
- 30% A100切换
- 安装llava依赖库,需要等一段时间
- 下载比较慢
- 使用gradio将llava部署到网页