LMDeploy 量化部署实践

fkixux

于 2024-09-28 03:02:24 发布

阅读量177

点赞数 2

文章标签： ai

本文链接：https://blog.csdn.net/weixin_44367813/article/details/142604375

版权

任务

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话

复现过程

按照教材安装环境。https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/LMDeploy/readme.md

使用LMDeploy部署原版的1.8b大模型，占用显存20.6G，大模型可以正常对话
在这里插入图片描述

结合W4A16量化与kv cache量化，全部结合使用，占用了11.4G的显存。

lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fkixux

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

书生浦语之：LMDeploy量化部署实践

XUTINGZHANGLOVE的专栏

08-22

1068

本文旨在对 LMDeploy 环境配置以及与 InternLM2.5 和 InternVL2 结合使用的相关内容进行实践总结。

LMDeploy量化部署实践

2301_78174402的博客

08-16

314

50%A100*11. LMDeploy验证启动模型文件InternStudio提供的资源监控权重占用，剩余显存，因此kv cache占用，加上原来的权重，总共约占用。2. LMDeploy API部署InternLM2.5部署InternLM2.5模型端口映射。

参与评论您还未登录，请先登录后发表或查看评论

LMDeploy 量化部署实践闯关任务

sq8912的专栏

08-18

931

LMDeploy实现了高效的推理、可靠的量化、卓越的兼容性、便捷的服务以及有状态的推理。相比于vllm具有领先的推理性能：LMDeploy也提供了大模型量化能力：主要包括KV Cache量化和模型权重量化。LMDeploy量化方案如下：准确说，模型量化是一种优化技术，旨在减少机器学习模型的大小并提高其推理速度。量化通过将模型的权重和激活从高精度（如16位浮点数）转换为低精度（如8位整数、4位整数、甚至二值网络）来实现。那么W4A16又是什么意思呢？W4：这通常表示权重量化为4位整数（int4）。

LMDeploy 量化部署进阶实践

GYX67的博客

08-23

959

打开，进入如下界面并按箭头指示顺序点击。点选开发机，自拟一个开发机名称，选择镜像。我们要运行参数量为7B的InternLM2.5，由查询InternLM2.5-7b-chat的config.json文件可知，bfloat16所以我们需要大于14GB的显存，选择(24GB显存容量)，后选择，等状态栏变成运行中，点击，我们即可开始部署。在终端中，让我们输入以下指令，来创建一个名为lmdeploy的conda环境，python版本为3.10，创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。

LMDeploy量化部署实践任务

qq_42137576的博客

08-17

321

LMDeploy 量化部署实践闯关任务

InternLM LMDeploy 量化部署实战

weixin_47551406的博客

08-29

628

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。随着模型变得越来越大，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。此时代表我们成功地使用本地API与大模型进行了一次对话，如果切回第一个终端窗口，会看到如下信息，这代表其成功的完成了一次用户问题GET与输出POST。让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，执行量化工作。

LMDeploy量化部署LLM&VLM实践

GYX67的博客

07-25

871

打开InternStudio平台，创建开发机。填写开发机名称；选择镜像；选择10% A100*1GPU；点击“立即创建”。排队等待一小段时间，点击“进入开发机”。点击左上角图标，切换为终端(Terminal)模式。

LMDeploy量化部署实践作业

han____shuai的专栏

05-07

123

按照此文档一步一步操作即可：

【书生大模型实战】L2-LMDeploy 量化部署实践闯关任务

cjy_colorful0806的博客

08-15

821

注释：实验室提供的环境为虚拟化的显存，nvidia-smi是NVIDIA GPU驱动程序的一部分，用于显示NVIDIA GPU的当前状态，故当前环境只能看80GB单卡 A100 显存使用情况，无法观测虚拟化后30%或50%A100等的显存情况。模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，执行量化工作。

05-14 周二 LMdeploy 部署量化和实战

05-16

内容为使用lmdeploy进行部署，量化和推理的整体描述，并且基于服务器进行了实践

【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

04-19

875

本篇笔记内容主要分为模型部署理论进行介绍。从量化、剪枝、知识蒸馏方面引入。主要对LMDeploy框架支持的模型、安装过程、base|chat对话|Lite量化等进行介绍，欢迎大家交流学习！

【第5节】LMDeploy 大模型量化部署实践

熊猫小妖的AI世界

04-24

1356

视频文档作业lmdeploy官方文档OpenXLab个人感觉camp2讲解的没有第一次的内容好，都是照着文档跑一遍，基础内容也没有啥深度(也可能是我水平太低哈，哈哈)。补充观看之前1.0版本的讲解吧文档视频基础作业（结营必做）配置 LMDeploy 运行环境以命令行方式与 InternLM2-Chat-1.8B 模型对话进阶作业设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话。（优秀学员必做）

书生·浦语-（五）-LMDeploy量化部署LLM实践

ppyyds的博客

04-23

291

部署：指的是将开发完毕的软件投入使用的过程人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程· LLM参数量巨大，前向推理inference需要大量计算· GPT3有175B，20B的算小模型了· 内存开销巨大，FP16，20B模型加载参数需要显存40G+，175B模型需要350G+· 20B模型kv缓存需要显存10G，合计需要50G显存· RTX 4060X消费级独显，显存8G· 访存瓶颈，数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。

书生·浦语--（五）LMDeploy 量化部署 LLM-VLM 实践（基础作业）

ppyyds的博客

04-23

832

W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。两种不同的设置反应在不同的显存使用上，对于--cache-max-entry-count = 0.01来说基本不使用额外显存存储KV参数，显存的消耗跟载入一个1.8B模型的参数量基本相同，但此时推理速度大大降低。LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。

在Pycharm中配置集成Git，内附详细文档html+Git-2.46.2-64-bit.exe

09-28

资源来自https://gitforwindows.org/；关于如何将git与pycharm连接，可参考https://zhuanlan.zhihu.com/p/660854965

平面口罩打片机_包括零件图_机械3D图可修改打包下载.rar