书生·浦语大模型实战营第五节课堂笔记（LMDeploy 大模型量化部署实践）-CSDN博客

本文链接：https://blog.csdn.net/weixin_49534890/article/details/136124830

本文详细介绍了如何通过LMDeploy进行环境配置，包括激活环境、安装包，以及如何进行模型转换（在线和离线）、TurboMind推理服务的部署和命令行交互。重点讲解了KVCache和W4A16量化在降低显存占用和提升精度方面的应用。

摘要由CSDN通过智能技术生成

1 环境配置

# 激活环境
conda activate lmdeploy
# 进入家目录 （~的意思是 “当前用户的home路径”）
cd ~
conda env list
结果如下所示

然后激活环境

进入Python检查一下 PyTorch 和 lmdeploy 的版本。

# 安装lmdeploy包

基础环境到这里就配置好了。

2 服务部署

2.1 模型转换

使用 TurboMind 推理模型需要先将模型转化为 TurboMind 的格式，目前支持在线转换和离线转换两种形式。在线转换可以直接加载 Huggingface 模型，离线转换需需要先保存模型再加载。

2.1.1 在线转换

以上命令都会启动一个本地对话界面，通过 Bash 可以与 LLM 进行对话。

结果如下所示

2.1.2 离线转换

本条命令：

lmdeploy convert internlm-chat-7b /root/share/temp/model_repos/internlm-chat-7b/

利用lmdeploy 工具，对存储在/root/share/temp/model_repos/internlm-chat-7b/路径的

internlm-chat-7b模型进行TurboMind格式的转换，并在执行完成后，在当前目录生成一个 workspace 的文件夹。

结果如下所示

上述步骤的操作为后续模型推理加速提前做好准备工作。

2.2 TurboMind 推理+命令行本地对话

模型转换完成后，我们就具备了使用模型推理的条件，接下来就可以进行真正的模型推理环节。

我们先尝试本地对话（Bash Local Chat），下面用（Local Chat 表示）在这里其实是跳过 API Server 直接调用 TurboMind。简单来说，就是命令行代码直接执行 TurboMind。这里和前面架构图中的调用方式是有区别的。

不过这里支持多种方式运行，比如Turbomind、PyTorch、DeepSpeed。但 PyTorch 和 DeepSpeed 调用的其实都是 Huggingface 的 Transformers 包，PyTorch表示原生的 Transformer 包，DeepSpeed 表示使用了 DeepSpeed 作为推理框架。Pytorch/DeepSpeed 目前功能都比较弱，不具备生产能力，不推荐使用。

执行命令如下:

输入后两次回车，退出时输入exit 回车两次即可。此时，Server 就是本地跑起来的模型（TurboMind），命令行可以看作是前端。

2.3 TurboMind推理+API服务

在上面的部分我们尝试了直接用命令行启动 Client，接下来我们尝试如何运用 lmdepoy 进行服务化。

”模型推理/服务“目前提供了 Turbomind 和 TritonServer 两种服务化方式。此时，Server 是 TurboMind 或 TritonServer，API Server 可以提供对外的 API 服务。我们推荐使用 TurboMind，TritonServer 使用方式详见《附录1》。

首先，通过下面命令启动服务。