1.大模型部署背景
模型部署
定义:将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。为了性能和效率要求需要对模型进行优化,如模型压缩和硬件加速。
产品形态:云端、边缘计算端、移动端
计算设备:CPU、GPU、NPU、TPU
大模型特点:内存开销巨大,庞大参数量,需要缓存之前生成的K/V;动态shape;相对视觉模型,LLM结构简单。
部署挑战
设备:低存储设备部署;推理:加速token生成、动态shape推理不间断、有效管理利用内存;服务:吞吐量提高、平均响应时长
部署方案
2.LMDeploy简介
LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
推理性能:LMDeploy遥遥领先
LMDeploy核心功能-量化
做Weight Only量化原因:LLMs是显存密集型任务,大多数实践在生成Token阶段。一举两多得,将FP16模型权重降到1/4,降低访存成本,还增加了显存。
如何做?AWQ算法:4bi模型推理时权重反量化为FP16。比GPTQ更快。
核心功能-推理引擎TuboMind
1.持续批处理
2.有状态推理
3.高性能 cuda kernel
4.Block k/v cache
LMDeploy核心功能-推理服务 api server