【书生·浦语大模型实战营】第5节：LMDeploy 大模型量化部署实践（笔记版）

zhenzhu2022

已于 2024-02-20 10:26:10 修改

阅读量442

点赞数 10

分类专栏：大语言模型文章标签：人工智能语言模型自然语言处理

于 2024-02-20 10:25:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhenzhu2882/article/details/136178781

版权

大语言模型专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.大模型部署背景

模型部署

定义：将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果。为了性能和效率要求需要对模型进行优化，如模型压缩和硬件加速。

产品形态：云端、边缘计算端、移动端

计算设备：CPU、GPU、NPU、TPU

大模型特点：内存开销巨大，庞大参数量，需要缓存之前生成的K/V；动态shape;相对视觉模型，LLM结构简单。

部署挑战

设备：低存储设备部署；推理：加速token生成、动态shape推理不间断、有效管理利用内存；服务：吞吐量提高、平均响应时长

部署方案

2.LMDeploy简介

LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。

推理性能：LMDeploy遥遥领先

LMDeploy核心功能-量化

做Weight Only量化原因：LLMs是显存密集型任务，大多数实践在生成Token阶段。一举两多得，将FP16模型权重降到1/4，降低访存成本，还增加了显存。

如何做？AWQ算法：4bi模型推理时权重反量化为FP16。比GPTQ更快。

核心功能-推理引擎TuboMind

1.持续批处理

2.有状态推理

3.高性能 cuda kernel

4.Block k/v cache

LMDeploy核心功能-推理服务 api server

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【书生·浦语大模型实战营】第5节：LMDeploy 大模型量化部署实践（笔记版）

【书生·浦语大模型实战营】第5节：LMDeploy 大模型量化部署实践（笔记版）
复制链接

扫一扫

专栏目录

zhenzhu2022 CSDN认证博客专家 CSDN认证企业博客

码龄4年

30: 原创

76万+: 周排名

11万+: 总排名

2万+: 访问

: 等级

515: 积分

138: 粉丝

195: 获赞

10: 评论

220: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Pytorch实战系列】LeNet训练MNIST数据集
CSDN-Ada助手: 恭喜您第18篇博客的发布！标题中提到的“Pytorch实战系列”让我非常期待您接下来的创作。您对LeNet模型在MNIST数据集上的训练经验分享无疑会给读者们带来很大帮助。我想，下一步的创作建议可以考虑探索其他经典模型在不同数据集上的实战应用，这样读者们可以从多个角度学习和比较不同模型的性能表现。期待您继续分享更多有关深度学习实战的精彩内容！
【Pytorch实战系列】VGG11训练FashionMNIST数据集
CSDN-Ada助手: 非常棒的博客！恭喜您写了第19篇博客！从标题来看，您似乎在使用Pytorch实战系列训练FashionMNIST数据集，这是一个非常有趣和具有实践意义的话题。持续创作是一个很了不起的成就，您的努力和坚持值得钦佩。在下一步的创作中，我建议您可以考虑拓展到其他数据集或者深入研究更多Pytorch实战技巧。也许您可以尝试一些挑战性更高的任务，以进一步提升自己的技能。无论如何，我相信您会继续取得更多成功，期待您未来的博客！
GitHub从创建仓库到更新仓库的整个流程
CSDN-Ada助手: 恭喜您写下了第16篇博客！标题中提到了“GitHub从创建仓库到更新仓库的整个流程”，这是非常实用和受益的主题。您的博客内容一定能帮助很多读者更好地理解和应用GitHub。在接下来的创作中，或许您可以考虑分享一些更深入的技巧和实用的经验，例如如何解决常见的GitHub问题，或者如何在团队协作中更好地利用GitHub。这样的主题对于那些想要进一步提升GitHub技能的读者来说将会非常有价值。期待您未来更多的博客文章，谢谢您的付出和分享！
Linux命令之解压缩：tar、zip、rar 命令
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题“Linux命令之解压缩：tar、zip、rar命令”非常吸引人。您的博客内容深入浅出，对于Linux命令的解压缩有着清晰的解释和实用的示例。在这个快节奏的时代，能有人坚持写作并分享知识是非常难得的，您的持续创作精神令人钦佩。在下一步的创作中，我建议您可以继续深入探索Linux命令的其他方面，例如文件管理、进程控制等。这些主题能够帮助读者更好地理解和使用Linux系统。同时，如果您能结合实际案例或者提供一些常见问题的解决方案，会更加实用和有趣。期待您的下一篇博客，也希望您能够继续坚持写作，为大家带来更多有价值的内容。谢谢您的分享！
二叉树的例题（一）
Zhang_GuoHui: 写的太详细了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。