第五课作业 LMDeploy量化部署

最新推荐文章于 2024-09-26 17:12:37 发布

_Y_M_Y_

最新推荐文章于 2024-09-26 17:12:37 发布

阅读量282

点赞数 4

文章标签：笔记语言模型图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44555688/article/details/137644722

版权

参考说明文档
本文档包含基础作业和进阶作业

软链接是一种映射，减少占用空间

对话

1.lmdeploy环境安装完成

2.internlm-chat-1.8b已创建软链接

3.使用transformer库的运行，等待对比

4.lmdeploy库运行，回答速度明显快于transformer库

两次回车回答问题。一次回车仅为换行。
exit退出

KV cache占比

5.设置kv cache占比的效果对比

先不设置参数，对话，查看显存 7856M
占比设置到0.5，对话，查看显存6608M
占比设置到0.01，对话，查看显存4552M

量化

6.W4A16量化成功，量化耗时较长

会用到huggingface，internstudio内部可以忽略网络问题
回答的速度明显比量化前要快很多。但启动速度还是比较慢。

设置kv比例为0.01，占用显存2472M，约为量化前的一半，显著降低。

LMDeploy serve

模型推理服务层 → API中间协议层 → Client前端

7.启动API服务器，保持当前terminal，作为后端服务。新开一个terminal作为前端，去调用服务，调用成功。

8.网页客户端连接api服务器，gradio作为API中间层。

需要端口转发，powershell里连接ssh
网页客户端创建成功

python代码集成

配置turbomind，限制kvcache比例为0.2

多模态大模型llava

30% A100切换
安装llava依赖库，需要等一段时间
下载比较慢

使用gradio将llava部署到网页

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

_Y_M_Y_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

27: 原创

114万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

417: 积分

126: 粉丝

145: 获赞

8: 评论

107: 收藏

私信

关注

热门文章

最新评论

第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第七课课程笔记 OpenCompass大模型评测
CSDN-Ada助手: 恭喜用户撰写第12篇博客！标题“第七课课程笔记 OpenCompass大模型评测”听起来很有深度和挑战性。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。或许在下一篇博客中，可以分享一些自己的实践经验或者对于大模型评测的一些新见解，让读者有更多启发和思考。期待您的下一篇作品！祝您创作顺利！
第七课作业 OpenCompass实操
CSDN-Ada助手: 恭喜您在第七课作业中成功实操OpenCompass！持续创作是非常重要的，您的努力让您不断进步。在下一篇博客中，也许可以分享一些关于OpenCompass的实操经验和技巧，让更多读者受益。祝您创作顺利，期待您更多精彩的作品！
第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中提到的XTuner 微调 LLM：1.8B、多模态、Agent听起来非常有趣。希望您能继续坚持创作，分享更多有价值的内容。下一步可以考虑探讨一些实际案例或者应用场景，以便读者更好地理解和应用您所分享的知识。期待您的下一篇作品！祝您创作顺利！

大家在看

convtools 展示：表格和类 csv 文件

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。