1.大模型部署背景
模型部署
定义
将训练好的模型在特定软硬件环境中启动的过程,是模型能够接受输入并返回预测结果
为了满足性能和效率的需求,常常需要对模型进行优化,例如模型压缩和硬件加速
产品形态
云端、边缘计算段、移动端
计算设备
CPU、GPU、NPU、TPU等
大模型特点
内存开销巨大
庞大的参数量
巨大的内存开销
动态shape
请求数不固定
Token逐个生成,且数量不定
相对视觉模型,LLM结构简单
Transformers结构,大部分是decoder-only
大模型部署挑战
设备
推理
服务
大模型部署方案
技术点
模型并行
低比特量化
Page Attention
transformer计算和访存优化
Continuous Batch
方案
huggingface transformers
专门的推理加速框架
云端
移动端
2.LMDeploy简介
LMDeploy是LLM在英伟达设备上部署的全流程解决方案。
推理性能
核心功能
量化
推理引擎
推理服务