第五课课程笔记 LMDeploy 量化部署 LLM-VLM 实践

最新推荐文章于 2024-07-16 14:39:15 发布

_Y_M_Y_

最新推荐文章于 2024-07-16 14:39:15 发布

阅读量312

点赞数 3

文章标签：笔记语言模型图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44555688/article/details/137644667

版权

本文探讨了大模型部署中面临的挑战，如大模型参数量导致的内存问题，以及解决策略如模型剪枝、知识蒸馏和量化。LMDeploy提供了一套完整的轻量化部署方案，强调模型高效推理和多模态支持。实践部分介绍了如何在cuda12.2环境下安装和部署LMDeploy。

摘要由CSDN通过智能技术生成

来自openmmlab的讲座视频

大模型部署背景

部署：指的是将开发完毕的软件投入使用的过程
人工智能模型部署：是将训练好的深度学习模型在特定环境中运行的过程

大模型部署面临的挑战
- LLM参数量巨大，前向推理inference需要大量计算
  - GPT3有175B，20B的算小模型了
- 内存开销巨大
  - FP16，20B模型加载参数需要显存40G+，175B模型需要350G+
  - 20B模型kv缓存需要显存10G，合计需要50G显存
  - RTX 4060X消费级独显，显存8G
- 访存瓶颈。数据交换速度不够，显存带宽比起访存量偏小，无法发挥GPU的计算能力。
- 动态请求。请求量不确定，GPU计算能力发挥不足。

大模型部署方法

三种：模型剪枝
模型剪枝 pruning
- 减少模型中的冗余参数
知识蒸馏
- 用大模型作为teacher，用teacher去训练一个student的小模型
- 早期用于计算机视觉任务
量化 Quantization
- 把浮点数转换为整数或其他离散形式，减轻存储和计算负担
- 可以提升计算速度。因为可以降低访存量，显著降低数据传输时间，提升计算效率。

LMDeploy简介

是涵盖LLM任务的全套轻量化、部署和服务的解决方案

三大核心功能
- 模型高效推理。
- 模型量化压缩
- 服务化部署

性能表现优异，有突出优势
支持语言模型，也支持多模态大模型，视觉任务，可以使用pipeline便捷运行

动手实践环节

安装、部署、量化
参考文档说明
一共6个章节
注意点
- cuda12.2环境
- terminal操作
- internstudio内安装比较方便

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
第五课课程笔记 LMDeploy 量化部署 LLM-VLM 实践

是涵盖LLM任务的全套轻量化、部署和服务的解决方案三大核心功能模型高效推理。模型量化压缩服务化部署性能表现优异，有突出优势支持语言模型，也支持多模态大模型，视觉任务，可以使用pipeline便捷运行。
复制链接

扫一扫

_Y_M_Y_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

16: 原创

125万+: 周排名

8万+: 总排名

6700: 访问

: 等级

256: 积分

85: 粉丝

94: 获赞

8: 评论

80: 收藏

私信

关注

热门文章

最新评论

第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第七课课程笔记 OpenCompass大模型评测
CSDN-Ada助手: 恭喜用户撰写第12篇博客！标题“第七课课程笔记 OpenCompass大模型评测”听起来很有深度和挑战性。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。或许在下一篇博客中，可以分享一些自己的实践经验或者对于大模型评测的一些新见解，让读者有更多启发和思考。期待您的下一篇作品！祝您创作顺利！
第七课作业 OpenCompass实操
CSDN-Ada助手: 恭喜您在第七课作业中成功实操OpenCompass！持续创作是非常重要的，您的努力让您不断进步。在下一篇博客中，也许可以分享一些关于OpenCompass的实操经验和技巧，让更多读者受益。祝您创作顺利，期待您更多精彩的作品！
第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中提到的XTuner 微调 LLM：1.8B、多模态、Agent听起来非常有趣。希望您能继续坚持创作，分享更多有价值的内容。下一步可以考虑探讨一些实际案例或者应用场景，以便读者更好地理解和应用您所分享的知识。期待您的下一篇作品！祝您创作顺利！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。