LMDeploy大模型量化部署实践

本文介绍了在书生·浦语大模型实战营中,关于大模型部署的背景、挑战及LMDeploy的量化和推理引擎TurboMind功能。通过实战环节展示了如何使用Gradio进行本地和网页部署,并总结了多种部署方式的学习内容。
摘要由CSDN通过智能技术生成

书生·浦语大模型实战营笔记系列

5)LMDeploy大模型量化部署实践



前言

在这里插入图片描述


一、大模型部署背景

1.模型部署的定义和大模型的特点

在这里插入图片描述

1.大模型部署的挑战和方案

在这里插入图片描述

二、LMDeploy简介

在这里插入图片描述

1.核心功能-量化

在这里插入图片描述
在这里插入图片描述
运用的算法,这里用的是AWQ算法(开一个小坑
在这里插入图片描述

2.核心功能-推理引擎TurboMind

在这里插入图片描述
持续批处理的简单演示,可以去到文本中的视频源地址中的第27分钟看讲解
在这里插入图片描述
有状态的推理
在这里插入图片描述
Blocked k/v cache
在这里插入图片描述
高性能的cuda kernel
在这里插入图片描述

三、动手实战环节

源文档
源视频

四、作业

在这里插入图片描述

本地对话以Gradio形式的和网页Gradio的演示截图如下图所示
在这里插入图片描述
API服务的截图如下图所示
在这里插入图片描述


总结

这节课主要学习了各种部署方式。

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值