LMDeploy 大模型量化部署实践
视频地址:https://www.bilibili.com/video/BV1iW4y1A77P
文档:https://github.com/InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md
LMDeploy Repo: https://github.com/InternLM/lmdeploy.git
主要内容
包括三个部分,1. 背景,2. LMDeploy 简介,3. 动手实践
大模型部署背景
7B 模型参数内存:7 * 1B * 2 (fp16) = 7 * 1G * 2 Byte = 14G Byte
LMDeploy 简介
下图中,左边主要对比 LMDeploy 自身在量化前后的性能;右边主要对比 vLLM 和 LMDeploy 的性能对比。
量化后,显存占用量显著减少,其中包括权重和 KV Cache。
由于 GPU 的计算需要将权重从 GPU 主存 -> GPU 共享内存,因此量化显著减少了数据的传输量,提高了整体效率。
AWQ 算法全称:Activation-aware Weight Quantization
GPTQ 算法全称:Accurate Post-Tra