vllm减小显存 | vllm小模型大显存问题

EEE1even

已于 2024-10-28 22:23:12 修改

阅读量1.2w

点赞数 3

文章标签： vllm 大模型部署 api

于 2024-07-16 21:04:23 首次发布

本文链接：https://blog.csdn.net/weixin_48435461/article/details/140476658

版权

vllm减小显存 | vllm小模型大显存问题

INFO 07-16 20:48:26 model_runner.py:928] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.

vllm日志输出的内容，你可以设置gpu_memory_utilization和max_num_seqs来减少显存开销

--gpu-memory-utilization：模型执行器使用 GPU 内存的比例，范围从 0 到 1。例如，0.5 表示 GPU 内存使用率为 50%。如果未指定，将使用默认值 0.9。

这也是为什么有时候你跑1.5b模型也会显存拉满
--max-model-len: 模型上下文长度。如果未指定，将自动从模型配置中导出。

实际测试也是如此，我使用下述命令，会报错cuda out of memory

python -m vllm.entrypoints.openai.api_server --model ./qwen2-72b-Instruct-GPTQ-Int4

但是当我设置max_num_seqs时，则可以在48g显存上运行：

python -m vllm.entrypoints.openai.api_server --model ./qwen2-72b-Instruct-GPTQ-Int4 --max-model-len 5000

具体参数含义参考vllm-args文档

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EEE1even

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

如何控制vLLM的显存，显存爆炸，显存溢出，qwen2.5显存

q742971636的博客

11-07

3042

vLLM是一个用于加速大语言模型推理的开源库，主要通过智能批处理和显存优化技术，使大模型在多GPU环境中高效运行。vLLM采用了动态KV缓存机制，这使得它在多请求场景中能够显著提升吞吐量和响应速度。

将显存和内存使用降低到原来的1/5左右

东方佑

12-05

538

然而，LLM的推理过程需要大量的显存和内存，这限制了它们在资源受限环境中的应用。为了解决这个问题，我们提出了一种方法，可以将LLM的推理过程拆开，并使用特定的数据预处理技巧来减少显存和内存的使用。在我们的方法中，我们首先将数据集转换为令牌，这样可以减少文本数据在内存中的占用。然后，我们将每个序列存储为字符串格式，例如“str([1,2,3])”，这样可以在训练时重新评估序列，而不会增加内存占用。总的来说，我们的方法是一种有效的LLM推理优化策略，可以显著降低显存和内存的使用。llm数据预处理的技巧。

4 条评论您还未登录，请先登录后发表或查看评论

ValueError: No available memory for the cache blocks. Try increasing `gpu_memory_utilization`

qq_40713201的博客

11-19

2662

可以看出来基本占满了，gpu_memory_utilization默认开到了0.9，这个参数的高低代表了在使用GPU时，分配给模型和缓存的内存比例。果将 gpu_memory_utilization 设置为较高的值，这意味着模型可以使用更多的GPU内存。这通常会提高模型的性能，因为可以缓存更多的数据和中间结果，从而加快计算速度。虽然高的 gpu_memory_utilization 可以提高性能，但如果设置得过高，可能会导致GPU内存不足（OOM）错误，尤其是在处理大型模型或数据集时。

vLLM参数设置及遇到问题和单模型运行的参数设置

前沿技术分享，人工智能、大模型技术分享，日常问题记录

03-07

2359

vLLM参数设置及遇到问题和运行的参数设置

vllm部署模型推理后怎么释放或者关掉占用的gpu资源

weixin_43744732的博客

05-21

5861

这里要代码释放gpu资源就需要实现close函数去手动关闭了，官方vllm目前没有实现关闭的函数，且目前vllm版本为vllm==0.4.0.post1。如果需要关闭占用的gpu资源直接关掉这个python进程就可以了。调用直接用http请求。

vLLM显存优化

xnuscd的博客

10-25

4584

在 vLLM 中，使用梯度检查点的策略会大幅减少中间激活存储在显存中的需求。在实际应用中，你可以根据任务的需求逐步调整这些参数，找到性能和显存消耗的最佳平衡点。如果可能，考虑使用量化后的模型，如 8-bit 或 4-bit 量化，这样可以显著降低显存的占用。：尝试加载量化后的模型（8-bit 或 4-bit），这可以在减少显存使用的同时维持模型的性能。：如果有多块 GPU，使用分布式推理将模型切分到不同的设备上，以减少单卡的显存压力。，并观察显存使用情况的变化。，同时观察显存的使用情况。

显存不够也能跑DeepSeek！VLLM部署保姆级教程

qq_19288625的博客

02-21

4535

你是否还在为out of memory而苦恼？VLLM的各种优化参数帮你实现愿望！本文将详细介绍如何通过参数调优，让普通显卡也能流畅运行大语言模型。通过本文的介绍，相信你已经掌握了VLLM的部署要点！

一文通透vLLM与其核心技术PagedAttention：减少KV Cache碎片、提高GPU显存利用率(推理加速利器)

结构之法算法之道

12-03

7576

众所周知，运行GPT这样的大模型应用非常昂贵，需要大量的硬件加速器，如GPU「我司过去半年做了一系列大模型应用，比如基于大模型的论文审稿、翻译、修订、对话、idea提炼，对此深有感触根据最近的估算，处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本，提高吞吐量——从而降低成本——变得尤为重要。

VLLM调优

最新发布

qq_46059596的博客

03-24

1240

vLLM 是一个高效的大模型推理框架，专为优化显存利用和高吞吐量设计。如果需要更具体的代码框架示例，可以进一步说明你的使用场景（如多GPU部署、API服务等）！这些代码需要在加载模型时一次性配置，且必须在调用。（如模型加载参数、显存优化、并行策略等）必须写在。（如解码策略、生成长度等）则在调用。部分系统级配置（如环境变量）需在。在 vLLM 中，所有与。

双卡 3080ti 部署 Yi-34B 大模型 - Gradio + vLLM 踩坑全记录

arkohut的博客

01-01

1万+

上次介绍了怎么用 vllm 去部署 Yi-34B 的 Int4 版本。这次尝试下 12G 显存的双卡部署，因为这个模型即使是 int4 的版本，也差不多需要至少 20G 的显存，所以如果是 12G 显存的话，也至少需要两块显卡。我这里尝试下用两个 3080Ti 跑起来这个模型。整个过程其实和上个视频的过程是类似的，本来觉得整个过程应该比较顺利，但最后发现还是踩了不少坑，这里我用这个视频把整个过程记录一下供大家参考。

vLLM vs TGI 部署大模型以及注意点

哦豁灬

04-05

5924

LLM 高并发部署是个难题，具备高吞吐量的服务，能够让用户有更好的体验（比如模型生成文字速度提升，用户排队时间缩短）。

Linux安装vLLM模型推理框架问题总汇

洛阳泰山的博客

03-15

2941

vLLM 是一个专为大规模语言模型（Large Language Models, LLM）推理优化的服务框架和推理引擎。它可以高效地管理和部署预先训练好的大型语言模型，尤其是那些具有极高参数数量和复杂度的模型，如GPT系列及其他基于Transformer架构的模型。：通过采用诸如PagedAttention这样的技术，vLLM能够有效地管理内存并提高注意力机制中Key和Value的处理效率，从而提升模型推理的速度和并发处理能力。

开源模型应用落地-Qwen2-7B-Instruct与vllm-单机多卡-RTX 4090双卡（十一）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-07

3万+

4090单机双卡部署vllm，并集成qwen2-7b-instruct

开源模型应用落地-Meta-Llama-3.1-8B-Instruct与vllm-单机多卡-RTX 4090双卡（十四）

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-09

3万+

4090单机双卡部署vllm，并集成meta-llama-3.1-8b-instruct

开源模型应用落地-Qwen2-7B-Instruct-Lora与vllm-单机多卡-RTX 4090双卡（十五）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-12

3万+

4090单机双卡部署vllm，并集成qwen2-7b-instruct和Lora权重

【LLM】vLLM部署与int8量化

weixin_49816179的博客

01-09

1万+

介绍了vLLM原理并讲解如何支持peft，对不同的decoding methods进行了说明，同时详述了int8量化的过程。

深度学习学习——提升GPU的利用率（Volatile GPU-Util）

m0_37876745的博客

09-24

2066

除去网上介绍的那些方法，如测试一个合适的num_worker，或者设置pin_memory为true以外，还有一些方法，比如这里有几个工具是专门用来测试GPU的使用情况的，如pytorch下的工具包 TORCH.UTILS.BOTTLENECK 还有英伟达官方提供的一个工具包： PyProf 除此之外，pytorch的另一个工具： PyTorch Profiler 也可以来做这个事情 ...

【实践】VLLM显存暴增 | 多卡推理 | 批量推理

m0_52942489的博客

04-23

1万+

用两张A800跑Llama3-8B，按理说显存占用应该在16G以上，浮动2~3G，但是发现显存直接拉满了，一共花了140G发现通过vllm.LLM创建模型时，有个参数控制GPU的使用量，其默认值为0.9，正好是140/160将改成0.15，也就是160*0.15 =21G时，模型运行正常，且显存占用压到了21G但问题就来了，为什么16G的模型在设置的时候，会占用140G的显存呢，除了模型本身的参数之外，显存里面还装了什么东西？在 vLLM 中，我们发现 LLM 服务的性能受到内存的瓶颈。

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（一）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

01-10

2万+

qwen-7b-chat集成vllm，流式输出

在sql语句中将blob格式转换为字符串

06-08

在SQL语句中，可以使用 CAST 或 CONVERT 函数将BLOB类型的字段转换为字符串类型。具体转换方式取决于你所使用的数据库管理系统和编码格式。以下是一些常见的转换方式： 1. MySQL数据库： - 将BLOB字段转换为十六进制字符串： ``` SELECT HEX(blob_field) FROM mytable; ``` - 将BLOB字段转换为Base64字符串： ``` SELECT TO_BASE64(blob_field) FROM mytable; ``` 2. Oracle数据库： - 将BLOB字段转换为十六进制字符串： ``` SELECT RAWTOHEX(blob_field) FROM mytable; ``` - 将BLOB字段转换为Base64字符串： ``` SELECT UTL_RAW.CAST_TO_VARCHAR2(UTL_ENCODE.BASE64_ENCODE(blob_field)) FROM mytable; ``` 3. SQL Server数据库： - 将BLOB字段转换为十六进制字符串： ``` SELECT CONVERT(VARCHAR(8000), blob_field, 2) FROM mytable; ``` - 将BLOB字段转换为Base64字符串： ``` SELECT CAST(N'' AS XML).value('xs:base64Binary(xs:hexBinary(sql:column("blob_field"))))', 'VARCHAR(MAX)') FROM mytable; ``` 需要注意的是，BLOB字段转换为字符串类型可能会导致数据损失或不准确，因此建议谨慎使用。