LMDeploy 量化部署实践闯关任务

最新推荐文章于 2024-09-13 15:55:51 发布

xo6532

最新推荐文章于 2024-09-13 15:55:51 发布

阅读量258

点赞数 4

文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/xo6532/article/details/141398037

版权

使用结合W4A16量化与kv cache量化的internlm2_5-7b-chat模型封装本地API并与大模型进行一次对话，作业截图需包括显存占用情况与大模型回复，参考4.1 API开发(优秀学员必做)

1 配置LMDeploy环境

2 LMDeploy与InternLM2.5

2.1 LMDeploy API部署InternLM2.5

2.1.1 启动API服务器

2.1.2 以命令行形式连接API服务器

2.1.3 以Gradio网页形式连接API服务器

2.2 LMDeploy Lite

2.2.1 设置在线 kv cache int4/int8 量化

lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat \
    --model-format hf \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

2.2.2 W4A16 模型量化和部署

2.2.3 W4A16 量化+ KV cache+KV cache 量化

2.2.4封装本地API并进行对话

2.2.5使用Function call功能

使用量化的模型不可以正常计算

使用未量化的模型可以正常计算

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xo6532

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【第5节】LMDeploy 大模型量化部署实践

熊猫小妖的AI世界

04-24

1309

视频文档作业lmdeploy官方文档OpenXLab个人感觉camp2讲解的没有第一次的内容好，都是照着文档跑一遍，基础内容也没有啥深度(也可能是我水平太低哈，哈哈)。补充观看之前1.0版本的讲解吧文档视频基础作业（结营必做）配置 LMDeploy 运行环境以命令行方式与 InternLM2-Chat-1.8B 模型对话进阶作业设置KV Cache最大占用比例为0.4，开启W4A16量化，以命令行方式与模型对话。（优秀学员必做）

书生·浦语-（五）-LMDeploy量化部署LLM实践

ppyyds的博客

04-23

273

部署：指的是将开发完毕的软件投入使用的过程人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程· LLM参数量巨大，前向推理inference需要大量计算· GPT3有175B，20B的算小模型了· 内存开销巨大，FP16，20B模型加载参数需要显存40G+，175B模型需要350G+· 20B模型kv缓存需要显存10G，合计需要50G显存· RTX 4060X消费级独显，显存8G· 访存瓶颈，数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。

参与评论您还未登录，请先登录后发表或查看评论

【书生大模型实战】L2-LMDeploy 量化部署实践闯关任务

cjy_colorful0806的博客

08-15

792

注释：实验室提供的环境为虚拟化的显存，nvidia-smi是NVIDIA GPU驱动程序的一部分，用于显示NVIDIA GPU的当前状态，故当前环境只能看80GB单卡 A100 显存使用情况，无法观测虚拟化后30%或50%A100等的显存情况。模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、kv cache占用的显存，以及中间运算结果占用的显存。让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，执行量化工作。

LMDeploy 量化部署实践闯关任务 L2

skaura55的博客

08-21

1008

70亿个参数×每个参数占用2个字节=14GB所以我们需要大于14GB的显存，选择 30%A100*1(24GB显存容量)，后选择立即创建，等状态栏变成运行中，点击进入开发机，我们即可开始部署。在终端中，让我们输入以下指令，来创建一个名为lmdeploy的conda环境，python版本为3.10，创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。这里我用的是上次的虚拟环境，只需执行。

书生大模型实战营： LMDeploy 量化部署实践闯关任务

2303_77267815的博客

09-04

951

准确说，模型量化是一种优化技术，旨在减少机器学习模型的大小并提高其推理速度。此时代表我们成功地使用本地API与大模型进行了一次对话，如果切回第一个终端窗口，会看到如下信息，这代表其成功的完成了一次用户问题GET与输出POST。让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，让我们同时启用量化后的模型、设定kv cache占用和kv cache int4量化。等待推理完成，便可以直接在你设置的目标文件夹看到对应的模型文件。

【书生大模型实战营（暑假场）】进阶任务三 LMDeploy 量化部署实践闯关任务

Tongcheng_98的博客

08-27

984

和。

书生大模型实战营-进阶关卡-3-LMDeploy 量化部署实践闯关任务

微风❤水墨

08-21

915

自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 的非对称量化。，以达到提高性能和降低内存消耗的目的。均为0.4，这意味着LMDeploy将分配40%的剩余显存用于kv cache，即。相比使用BF16精度的kv cache，int4的Cache可以在相同。是4位的整数格式，占用0.5字节（4位）的存储空间。是16位的浮点数格式，占用2字节（16位）的存储空间。的转换理论上可以将模型权重的大小减少到原来的1/4，

【书生·浦语实战营】进阶岛第3关：LMDeploy 量化部署实践闯关任务

qq_43959624的博客

08-19

1136

由于都使用BF16精度下的internlm2.5 7B模型，故剩余显存均为10GB，且 cache-max-entry-count 均为0.4，这意味着LMDeploy将分配40%的剩余显存用于kv cache，即10GB*0.4=4GB。因此，从bfloat16到int4的转换理论上可以将模型权重的大小减少到原来的1/4，即7B个int4参数仅占用3.5GB的显存。相比使用BF16精度的kv cache，int4的Cache可以在相同4GB的显存下只需要4位来存储一个数值，而BF16需要16位。

书生·浦语--（五）LMDeploy 量化部署 LLM-VLM 实践（基础作业）

ppyyds的博客

04-23

817

W4A16 量化，将 FP16 的模型权重量化为 INT4，Kernel 计算时，访存量直接降为 FP16 模型的 1/4，大幅降低了访存成本。两种不同的设置反应在不同的显存使用上，对于--cache-max-entry-count = 0.01来说基本不使用额外显存存储KV参数，显存的消耗跟载入一个1.8B模型的参数量基本相同，但此时推理速度大大降低。LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。

05-14 周二 LMdeploy 部署量化和实战

05-16

内容为使用lmdeploy进行部署，量化和推理的整体描述，并且基于服务器进行了实践

SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

weixin_45834800的博客

09-13

713

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而，尽管它们能够实现最先进的结果，大多数方法的计算开销很大，需要大量资源来实时运行。在下文中，我们基于之前的工作，开发了SRT3D，这是一种稀疏的基于区域的3D物体跟踪方法，旨在弥合效率上的差距。我们的方法在所谓的对应线（这些线模型化了物体轮廓位置的概率）上稀疏地考虑图像信息。由此，我们改进了当前的技术，并引入了考虑定义的全局和局部不确定性的平滑阶跃函数。对于所得到的概率公式，提供了详尽的分析。

生成式人工智能在新加坡的发展现状和地位

wukangjupingbb的博客

09-11

693

依据国际隐私专业人员协会(IAPP)的相关报告，2020年，上述两机构更新了该模型框架，发布了第二版，并推出了《组织实施和自我评估指南》，帮助组织评估其人工智能治理实践与型框架的匹配程度，还发布了《案例汇编》，展示了组织如何实施负责任的人工智能治理实践。2019年，金融管理局宣布与金融行业合作创建Veritas框架，为金融机构提供可验证的方法，将FEAT原则纳入其人工智能和数据分析驱动的解决方案中。新加坡在人工智能治理方面采取了部门性的方法，即通过各个行业的监管机构来管理人工智能的使用。

车辆检测与分类系统源码分享

最新发布

xuehaikj的博客

09-13

1146

数据集信息展示在本研究中，我们采用了名为“comexit”的数据集，以支持对YOLOv8模型在车辆检测与分类任务中的改进。该数据集专注于交通工具的识别，特别是公共交通和货运车辆，具有明确的应用背景和实用价值。数据集的类别数量为三，具体包括“bus”（公交车）、“car”（小汽车）和“truck”（卡车）。这三类车辆在城市交通和物流系统中扮演着重要角色，因此，准确的检测与分类对于交通管理、智能交通系统以及自动驾驶技术的发展具有重要意义。

第九届“创客中国”生成式人工智能（AIGC）中小企业创新创业大赛圆满落幕

luojiezong的博客

09-09

900

江西省工业和信息化厅党组成员、副厅长郭启东表示,“创客中国”始终秉持“围绕产业链,部署创新链,配置资金链,培育人才链”的宗旨,为中小企业和创客搭建了广阔平台。江西深刻认识到以人工智能为代表的产业变革的发展方向,努力推动人工智能等先进产业加速发展,以本次大赛为契机,优化创新生态,强化政策引导,加强人才培养,深化国际合作,加大对中小企业创新发展的支持力度,营造更加开放包容的创新环境,推动中小企业创新发展。南昌市委常委、市委秘书长、办公室主任赵捷;经过初赛、复赛的严格筛选,21个杰出项目脱颖而出,荣获赛事奖项。

深度学习算法，该如何深入，举例说明

liyy614的博客

09-10

986

深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。

Python 检测人脸筛选指定尺寸人脸图片

刚刚入门的小码农

09-09

593

主要功能是处理一个指定文件夹中的所有图像文件（.jpg和.png），并根据图像中检测到的人脸特征，筛选和移动符合条件的图像。

【IT】软件行业发展的前瞻性和希望的广度

weixin_56334307的博客

09-07

1221

这些观点其实非常具有前瞻性和深度，尤其是在自动驾驶技术的安全性考量上，以及程序在医学、国防、教育等领域的潜在应用。作为一个程序员，我完全同意这些领域有着巨大的发展空间和重要的社会价值。下面我将针对您提到的每个领域，简要探讨一些可能的实现方式和技术趋势。总之，随着技术的不断进步，程序在医学、国防、教育等领域的应用前景越来越广阔。作为程序员，我们应当积极投身于这些领域的研究和开发，为社会的进步和发展贡献自己的力量。

中伟视界：皮带跑偏检测算法及其实现模型和判断方法

yinweicai的专栏

09-13

995

皮带输送机的跑偏检测技术，包括图像处理算法、机器学习模型和物联网技术的应用，详细阐述了各类判断方法及实际案例，强调实时监测和高精度检测的优势，提高了生产效率和安全管理水平。

量化投资策略概览：从定义到实践

量化投资定义俯瞰量化投资是指使用数学模型、统计分析和计算机科学领域的知识来进行投资决策的投资方式。它通过量化分析的手段来解决问题，旨在提高投资的科学性和客观性。量化投资的定义可以分为三类：狭义量化...