vLLM本地部署大模型参数调整（上下文长度）

Python编程杰哥

于 2025-05-23 22:03:19 发布

阅读量690

点赞数 10

文章标签：人工智能 microsoft 架构 python 深度学习

本文链接：https://blog.csdn.net/xx_nm98/article/details/148176944

版权

一、本地大模型参数

max_position_embeddings

模型架构参数，位于模型的config.json，表示模型支持的最大位置编码长度（即模型训练时能处理的序列最大长度）

二、vLLM框架参数

–max-model-len

vLLM 的运行时控制参数，定义单个请求的最大处理长度（输入prompt + 生成内容的 token 总数），确保不超过硬件显存容量

–max-model-len VS max_position_embeddings

参数控制层级物理限制来源max_position_embeddings‌模型架构层‌训练数据长度和位置编码矩阵的维度–max-model-len‌推理服务层‌GPU 显存容量和业务需求

vLLM 在启动时默认从模型配置文件中读取 max_position_embeddings 值，并将其作为 --max-model-len 的默认值。

若显式设置 --max-model-len，则覆盖模型配置中的 max_position_embeddings
实际生效的上下文长度取两者的最小值（需满足 effective_max_len ≤ min(max_position_embeddings, hardware_max_len)）
–max-num-batched-tokens

控制单个推理批次中所有请求的token总数上限，直接影响吞吐量，未显式设置时，vLLM会根据max-model-len和max-num-seqs自动计算：max_num_batched_tokens = max_model_len * max_num_seqs（保证 max-num-batched-tokens ≥ max-model-len * max-num-seqs）

典型场景示例：

假设max_model_len=4096且max_num_seqs=256时：

自动计算：max_num_batched_tokens≈4096*256=1,048,576
手动设置：若显存不足，可降低此值（如–max-num-batched-tokens 16384）
–max-num-seqs

并行处理请求的个数，当 max-num-seqs=5 且同时收到 6 个请求时，vLLM 会按照以下逻辑处理：

核心调度规则

请求队列分层：
活跃批次（Active Batch）：当前正在处理的请求（最多 max-num-seqs 个，即 5 个）
等待队列（Waiting Queue）：超出并发限制的请求会自动进入等待队列（剩余 1 个）
调度优先级：

按请求到达顺序处理（FIFO 原则），前 5 个请求进入活跃批次，第 6 个请求在等待队列中保留

#!/bin/bashCUDA_VISIBLE_DEVICES=0 vllm serve /root/qwq-32b --served-model-name QWQ-32B --port 8080 --gpu-memory-utilization 0.98 --max-model-len 72768 --max-num-batched-tokens 72768 --block-size 64  --max-num-seqs 3 --swap-space=24 --enforce-eager --trust_remote_code --enable-prefix-caching  --enable-auto-tool --tool-call-parser hermes &
# 输出后台进程的 PIDecho "vllm server is running in the background with PID $!"

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述