课程文档:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md
课程作业:https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/homework.md
LMDeploy 量化部署 LLM&VLM实战
1. 大模型部署背景
1.1 模型部署概念
1.2大模型部署面临的挑战
a. 计算量巨大;b. 内存开销巨大;c.访存瓶颈;d. 动态请求
2. 大模型部署方法
2.1 模型剪枝
2.2 知识蒸馏
2.3 量化
3. LMDeploy简介
3.1 LMDeploy核心功能
3.2 LMDeploy优势
4. 作业:
基础:
完成以下任务,并将实现过程记录截图:
-
配置 LMDeploy 运行环境
-
以命令行方式与 InternLM2-Chat-1.8B 模型对话
进阶:
- 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。(优秀学员必做)
- 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。(优秀学员必做)
- 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。(优秀学员必做)
- 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。(优秀学员必做)
- 将 LMDeploy Web Demo 部署到 OpenXLab 。