1.创建环境
2. 获取模型
3. LMDeploy验证启动模型文件
我选择的是50%A100*1 建立的机器,运行InternLM2.5 7B模型,会发现此时显存占用为36GB
4. LMDeploy API部署InternLM2.5-启动API服务
命令解释:
lmdeploy serve api_server
:这个命令用于启动API服务器。/root/models/internlm2_5-7b-chat
:这是模型的路径。--model-format hf
:这个参数指定了模型的格式。hf
代表“Hugging Face”格式。--quant-policy 0
:这个参数指定了量化策略。--server-name 0.0.0.0
:这个参数指定了服务器的名称。在这里,0.0.0.0
是一个特殊的IP地址,它表示所有网络接口。--server-port 23333
:这个参数指定了服务器的端口号。在这里,23333
是服务器将监听的端口号。--tp 1
:这个参数表示并行数量(GPU数量)。
5. SSH映射
6. 访问API
7. 以命令行形式连接API服务器
8. 以Gradio网页形式连接API服务器
9. 设置最大kv cache缓存大小
10. 设置在线 kv cache int4/int8 量化
11. W4A16 模型量化和部署
12. 查看模型文件大小以及占据显存大小
原模型大小