第五节笔记

LMDeploy使用笔记

1. 环境部署

  • 创建开发机:使用InternStudio平台,选择Cuda12.2-conda镜像,分配10% A100*1GPU资源。
  • 创建conda环境:推荐在InternStudio上创建名为lmdeploy的环境。
  • 安装LMDeploy:激活conda环境后,使用pip install lmdeploy[all]==0.3.0安装。

2. 模型对话

  • 了解Huggingface和TurboMind:Huggingface是深度学习模型托管社区,TurboMind是LMDeploy的推理引擎。
  • 下载模型:可以从InternStudio或OpenXLab平台下载。
  • 使用Transformer库运行模型:通过编写Python脚本pipeline_transformer.py进行模型对话。
  • 使用LMDeploy与模型对话:通过命令行直接与模型交互。

3. 模型量化

  • 了解量化概念:量化用于减少模型大小和提高推理速度。
  • 设置KV Cache缓存大小:通过调整--cache-max-entry-count参数优化显存使用。
  • 使用W4A16量化:通过lmdeploy lite auto_awq命令实现模型量化。

4. LMDeploy服务

  • 启动API服务器:使用lmdeploy serve api_server命令启动。
  • 命令行客户端连接:通过lmdeploy serve api_client与API服务器交互。
  • 网页客户端连接:使用Gradio作为前端,通过lmdeploy serve gradio启动网页客户端。

5. Python代码集成

  • 集成运行1.8B模型:编写pipeline.py脚本,使用LMDeploy的pipeline模块。
  • 向TurboMind后端传递参数:通过TurbomindEngineConfig类设置参数。

6. 拓展部分

  • 运行视觉多模态大模型llava:使用pipeline_llava.py脚本进行推理。
  • 运行第三方大模型:LMDeploy支持多种第三方模型。
  • 比较推理速度:编写脚本benchmark_transformer.pybenchmark_lmdeploy.py比较Transformer库和LMDeploy的推理速度。

课后作业

  • 完成homework.md中的任务。

注意事项

  • 确保使用推荐的Cuda版本以避免兼容性问题。
  • 在量化和设置缓存大小时,注意显存占用和推理速度的平衡。
  • 使用SSH端口转发访问远程API服务器。
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值