vllm减小显存 | vllm小模型大显存问题

vllm减小显存 | vllm小模型大显存问题

INFO 07-16 20:48:26 model_runner.py:928] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.

vllm日志输出的内容,你可以设置gpu_memory_utilizationmax_num_seqs来减少显存开销

  • --gpu-memory-utilization:模型执行器使用 GPU 内存的比例,范围从 0 到 1。例如,0.5 表示 GPU 内存使用率为 50%。如果未指定,将使用默认值 0.9。

    这也是为什么有时候你跑1.5b模型也会显存拉满

  • --max-model-len: 模型上下文长度。如果未指定,将自动从模型配置中导出。

实际测试也是如此,我使用下述命令,会报错cuda out of memory

python -m vllm.entrypoints.openai.api_server --model ./qwen2-72b-Instruct-GPTQ-Int4

但是当我设置max_num_seqs时,则可以在48g显存上运行:

python -m vllm.entrypoints.openai.api_server --model ./qwen2-72b-Instruct-GPTQ-Int4 --max-model-len 5000 

具体参数含义参考vllm-args文档

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EEE1even

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值