LMDeploy 大模型量化部署实践

最新推荐文章于 2025-03-29 10:51:26 发布

zhjunqin

最新推荐文章于 2025-03-29 10:51:26 发布

阅读量1.8k

点赞数 20

文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhjunqin/article/details/135587979

版权

LMDeploy 大模型量化部署实践

视频地址：https://www.bilibili.com/video/BV1iW4y1A77P
文档：https://github.com/InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md
LMDeploy Repo: https://github.com/InternLM/lmdeploy.git

主要内容

包括三个部分，1. 背景，2. LMDeploy 简介，3. 动手实践
在这里插入图片描述

大模型部署背景

在这里插入图片描述
7B 模型参数内存：7 * 1B * 2 (fp16) = 7 * 1G * 2 Byte = 14G Byte

LMDeploy 简介

在这里插入图片描述
下图中，左边主要对比 LMDeploy 自身在量化前后的性能；右边主要对比 vLLM 和 LMDeploy 的性能对比。

量化后，显存占用量显著减少，其中包括权重和 KV Cache。

由于 GPU 的计算需要将权重从 GPU 主存 -> GPU 共享内存，因此量化显著减少了数据的传输量，提高了整体效率。
在这里插入图片描述
AWQ 算法全称：Activation-aware Weight Quantization
GPTQ 算法全称：Accurate Post-Tra

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。