【书生·浦语大模型实战营】第5节:LMDeploy 大模型量化部署实践(笔记版)

1.大模型部署背景

模型部署

定义:将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。为了性能和效率要求需要对模型进行优化,如模型压缩和硬件加速。

产品形态:云端、边缘计算端、移动端

计算设备:CPU、GPU、NPU、TPU

大模型特点:内存开销巨大,庞大参数量,需要缓存之前生成的K/V;动态shape;相对视觉模型,LLM结构简单。

部署挑战

设备:低存储设备部署;推理:加速token生成、动态shape推理不间断、有效管理利用内存;服务:吞吐量提高、平均响应时长

部署方案

2.LMDeploy简介

LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。

推理性能:LMDeploy遥遥领先

LMDeploy核心功能-量化

做Weight Only量化原因:LLMs是显存密集型任务,大多数实践在生成Token阶段。一举两多得,将FP16模型权重降到1/4,降低访存成本,还增加了显存。

如何做?AWQ算法:4bi模型推理时权重反量化为FP16。比GPTQ更快。

核心功能-推理引擎TuboMind

1.持续批处理

2.有状态推理

3.高性能 cuda kernel

4.Block k/v cache

LMDeploy核心功能-推理服务 api server

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值