vllm serve到底是如何运行的？

最新推荐文章于 2025-09-03 17:41:13 发布

几道之旅

最新推荐文章于 2025-09-03 17:41:13 发布

阅读量596

点赞数 8

CC 4.0 BY-SA版权

分类专栏：人工智能，智能体及数字员工 # 人工智能基础理论篇文章标签：人工智能

本文链接：https://blog.csdn.net/xiezhipu/article/details/147888916

人工智能，智能体及数字员工同时被 2 个专栏收录

211 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

人工智能基础理论篇

12 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

当使用 vllm serve 命令启动服务时，其代码执行流程主要包含以下几个关键阶段：

1. 命令行解析与参数配置

vLLM 使用 argparse 解析命令行参数，用户可以指定模型路径、量化方式、张量并行度等选项。例如：

# vllm/entrypoints/serve.py 中的参数解析示例
parser = argparse.ArgumentParser(description='vLLM server')
parser.add_argument('--model', type

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

几道之旅

关注关注

8
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

vllm serve到底是如何运行的？（2）

xiezhipu的博客

05-15

255

这个流程中，vLLM通过深度优化的架构（如PagedAttention、张量并行）实现了高性能推理服务。该篇主要讲述，vllm serve运行具体会调用哪些py文件，以及这些文件执行的先后顺序。命令启动服务时，代码执行涉及多个核心模块和文件。讲述了vllm serve运行的大致流程。

vllm serve 使用方法

NLP与推荐算法

03-27

1595

是 vLLM 提供的命令行工具，用于快速部署兼容 OpenAI API 的 HTTP 服务器。是 vLLM 中简洁的命令行接口，用于快速启动 API 服务。指定模型路径或 Hugging Face Hub 模型名称（如。信任远程代码（加载需要自定义代码的模型，如某些社区模型）。张量并行 GPU 数量（多卡推理时设置为 GPU 数量）。SSL 私钥文件路径（启用 HTTPS）。确认模型路径正确（本地模型需绝对路径）禁用性能统计日志（减少日志输出）。禁用请求日志（减少日志输出）。GPU 显存利用率（默认。

参与评论您还未登录，请先登录后发表或查看评论

vllm server 命令大全

qq_28269995的博客

02-25

4008

vllm serve 提供了丰富的配置选项，允许用户根据需求灵活地调整模型服务的各个方面，包括模型加载、推理、并行化、日志记录等。通过合理配置这些选项，可以优化模型的性能和资源利用率。

vLLM大模型推理框架完全指南：从安装到OpenAI兼容服务器实战

最新发布

Code1994的博客

09-03

1937

return f"{city}当前天气：晴，25°C"openai_api_base = “https://vLLM服务器IP:8000/v1”

【LLM】在PAI-DSW上使用 vLLM + Open-WebUI 部署Qwen2.5

DaveBraid的博客

09-23

5671

最近在玩LLM，听闻PAI-DSW有三个月免费试用，试了一下感觉还不错，就是有一些学习成本。刚通过vllm+open-webui成功部署了Qwen2.5-7B-Instruct，也是摸索了一段时间，记录一下以便需要使用同样方案的朋友们节省时间，迅速上手。简便起见，本文所有安装均使用pip工具，不使用docker。

使用vllm部署ChatGLM2并提供兼容 OpenAI 的 API Server实现异步访问

weixin_43278082的博客

12-12

9575

运行下面的命令，默认host为0.0.0.0，默认端口为8000，也可以通过--host --port指定。使用chatglm等模型时，请指定 --trust-remote-code参数。调用时可以用下面测试，注意model参数一定要传。SamplingParams 类中的说明。中的sampling_params。按照说明安装就可以了，不赘述。到vllm的GitHub仓库。其他更多的参数请参照。具体参数的含义请参照。

vllm serve DeepSeek-R1-Distill-Llama-70B 怎么能做到后台运行呢

keyboard专栏

02-10

2302

这样，你的服务会在后台运行。

如何使用vllm在服务器上部署模型并调用

程序源的博客

10-15

5138

如果网络超时或者报错。可以选择从魔塔社区下载，vllm默认是从huggingface去下载的。环境准备：python3.10，cuda12.1。在魔塔社区找到自己要下载的模型。如果没有下载模型，会先下载模型的。

vllm serve运行时如何指定显卡？

09-03

首先，用户的问题是关于如何在vllm serve运行时指定显卡。用户引用了两个站内引用：一个是关于启动大模型时启用异步引擎的，另一个是关于部署LLM时的内存占用和FP8量化的。我需要参考用户上一次的问题和我的回答。...

如何将hf-mirror.com作为vllm默认的下载源? conda如何移除虚拟环境？conda 如何复制一份虚拟环境？

xiezhipu的博客

03-03

590

上回咱说道，如果你没办法访问huggingface.co，则可以把modelscope作为vllm默认的下载源。但如果你非得用你用不了的huggingface.co呢？那你可以考虑将hf-mirror.com作为vllm默认的下载源。这里，hf-mirror.com和huggingface.co的效果是一样的。此设置对所有基于Hugging Face库的下载生效，包括vLLM。建议将此命令写入~/.bashrc或~/.zshrc实现永久生效。执行下载时观察终端输出，若显示域名即配置成功。token。

vLLM官方中文教程：使用vLLM的两种方式(离线推理和vllm server)

热门推荐

my_name_is_learn的博客

03-10

1万+

本文介绍了使用vllm推理框架的两种方式，离线推理和vllm server

vllm作为服务启动，无需额外编写sh文件，一步到位【Ubuntu】

applebomb的专栏

04-05

760

我的是使用minicoda3安装在默认路径的，因此激活文件是/root/miniconda3/bin/activate。tensor-parallel-size 2：这里是指定在2个显卡上运行，由于我的环境是双卡，因此启用了张量并行。/data/llm/Qwen_QwQ-32B-Q5_K_S.gguf：这个是你的模型文件位置。cosyvoice：这个是conda的环境名，你的vllm装在哪个环境，就指定为哪个环境。/data/llm：这个是运行目录，我是直接指定了GGUF目录。

【vllm server 参数】

qq_23211463的博客

05-18

2688

服务的运行方式、模型加载、分布式设置、内存管理、安全设置等多个方面，以满足特定的需求和运行环境。记录的日志信息，展示了程序启动时传入的命令行参数（

vLLM Serve 命令参数详解

weixin_45921929的博客

05-13

2398

vLLM Serve 命令参数详解

vllm server 启动的推理框架进行模型调用参数说明

keyboard专栏

11-06

2852

你可以通过调整以上的参数来控制模型生成的结果，包括输出的长度、多样性、准确性等。对于你的场景，建议重点调整max_tokens和top_p参数，以确保生成有效且合适的SQL查询。

vllm的使用方式，入门教程

kcarly的专栏

02-27

3867

vLLM是一个强大且易于使用的推理框架，适用于多种场景。通过上述步骤，您可以快速上手并开始使用vLLM进行大语言模型推理。如果遇到问题，可以参考官方文档或社区资源进行解决。全参数微调（Full-Parameter Fine-Tuning）vLLM支持对预训练模型进行全参数微调，以适应特定任务或数据集。这种方法通过调整所有模型参数来优化性能，适用于需要大量数据和计算资源的场景。LoRA是一种高效、快速且参数效率高的微调方法，特别适用于资源有限的环境，如移动应用或边缘设备。

简单使用vllm

make_progress的博客

10-22

3157

vLLM是一个快速且易于使用的LLM推理和服务库。它支持分布式部署、容器化部署和OpenAI的数据格式等，并且内置了大模型服务，可以直接用命令启动。vllm与Ollama有一定的区别，Ollama适合个人和小服务，vllm适合企业和提供服务，vllm的性能较高，并且并发性也较好。vLLM是一个Python库，它包含预编译的C++和CUDA（12.1）二进制文件，因此需要有GPU支持。

【大模型】大模型推理部署工具之vLLM的使用（1）

酒酿小圆子呀～

03-02

2306

首先介绍一下vLLM是什么？vLLM 是一个快速且易用的用于 LLM 推理和服务的库。vLLM最初由UC Berkeley的Sky Computing Lab 开发，现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。最先进的服务吞吐量使用对注意力键和值内存进行高效管理对传入请求进行连续批处理使用 CUDA/HIP 图进行快速模型执行量化：GPTQ、AWQ、INT4、INT8 和 FP8优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成。

vllm server 都有那些参数

keyboard专栏

11-06

7144

vllmserver 提供了多个参数来配置模型部署的方式，涵盖了资源管理、并行策略、模型缓存等。下面是常见的vllm。