【LMDeploy 量化部署 LLM 实践】课程笔记及作业

向晚大魔王

已于 2024-05-11 10:30:41 修改

阅读量131

点赞数 7

文章标签：人工智能

于 2024-04-29 08:26:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51956916/article/details/138284744

版权

目录

《LMDeploy 量化部署 LLM 实践》课程笔记
《LMDeploy 量化部署 LLM 实践》课程作业

《LMDeploy 量化部署 LLM 实践》课程笔记

模型部署指将训练好的深度学习模型在特定环境中运行的过程

在这里插入图片描述
大模型部署面临的挑战之一是计算量巨大

另一个挑战是内存开销巨大

第三个挑战是大模型推理是访存密集型任务，存在访存瓶颈

常用大模型部署方法
模型剪枝

知识蒸馏

模型量化，基本思想是将表示方法中的浮点数转换为整数或其他离散形式，降低访存量，降低深度学习模型的存储和计算负担

在这里插入图片描述
lmdeploy简介

lmdeploy核心功能包括高效推理，量化压缩和服务化部署

《LMDeploy 量化部署 LLM 实践》课程作业

在这里插入图片描述

不使用lmdeploy部署推理

在这里插入图片描述
使用lmdeploy部署推理

LMDeploy的KV Cache管理器可以通过设置–cache-max-entry-count参数，控制KV缓存占用剩余显存的最大比例。默认的比例为0.8。

下面，改变–cache-max-entry-count参数，设为0.5。

对模型进行4-bit量化

在这里插入图片描述
下面使用Chat功能运行W4A16量化后的模型。为了更加明显体会到W4A16的作用，将KV Cache比例再次调为0.01，查看显存占用情况。

可以看到显存占用率明显降低
启动API服务器

在本地浏览器打开页面

在vscode中新建客户端终端进行对话

在这里插入图片描述
网页客户端连接API服务器

Python代码集成运行1.8B模型

在这里插入图片描述
向TurboMind后端传递参数

使用LMDeploy运行视觉多模态大模型llava
运行结果

通过Gradio来运行llava模型

向晚大魔王

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【LMDeploy 量化部署 LLM 实践】课程笔记及作业

LMDeploy的KV Cache管理器可以通过设置–cache-max-entry-count参数，控制KV缓存占用剩余显存的最大比例。为了更加明显体会到W4A16的作用，将KV Cache比例再次调为0.01，查看显存占用情况。模型量化，基本思想是将表示方法中的浮点数转换为整数或其他离散形式，降低访存量，降低深度学习模型的存储和计算负担。下面，改变–cache-max-entry-count参数，设为0.5。模型部署指将训练好的深度学习模型在特定环境中运行的过程。大模型部署面临的挑战之一是计算量巨大。
复制链接

扫一扫

向晚大魔王 CSDN认证博客专家 CSDN认证企业博客

码龄4年

9: 原创

114万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

260: 积分

26: 粉丝

69: 获赞

3: 评论

92: 收藏

私信

关注

热门文章

最新评论

《OpenCompass 大模型评测实战》课程笔记及作业
CSDN-Ada助手: 恭喜您发布了第9篇博客“OpenCompass大模型评测实战”！您的文章内容丰富详实，对于模型评测提供了很有价值的实战经验。希望您能够继续保持创作的热情，分享更多有趣的技术内容。或许在下一篇文章中，可以结合具体案例，深入探讨模型评测中的一些挑战与解决方案，让读者能够更好地理解和应用您的经验分享。期待您的下一篇作品！
【茴香豆：搭建你的 RAG 智能助理】课程笔记 + 课程作业
CSDN-Ada助手: 恭喜您成功完成第5篇博客！看到您不断分享关于“茴香豆：搭建你的 RAG 智能助理”课程的课程笔记和作业，真是让人佩服。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。或许在下一篇博客中，您可以分享一些关于实践应用的经验或者深入分析课程中的某个具体主题，让读者更加深入地了解这个领域。期待您的下一篇作品！
第二节《轻松玩转书生·浦语大模型趣味 Demo》
CSDN-Ada助手: 恭喜用户第四篇博客发表成功！看到你对《轻松玩转书生·浦语大模型趣味 Demo》的分享，我感到十分兴奋。希望你能继续保持创作的热情和动力，不断提升自己的写作水平。下一步，或许可以考虑结合更多实际案例或者个人经历，让读者更加深入地了解你的观点和见解。期待你的下一篇作品！祝愿你越来越好！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
第一节《书生·浦语大模型全链路开源体系》课程笔记
CSDN-Ada助手: 恭喜用户发布了第三篇博客，标题为“第一节《书生·浦语大模型全链路开源体系》课程笔记”，看来用户对学习和分享有着很高的热情和动力。建议在接下来的创作中，可以适当增加一些个人观点和见解，让读者更容易产生共鸣和互动。希望用户能够继续保持努力和热情，不断提升自己的写作水平和创作内容，期待您更多精彩的作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。