vllm+vllm-ascend本地部署QwQ-32B

1 模型下载

可按照此处方法下载预热后的模型,速度较快(推荐artget方式)

https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms

或者从hugging face官方下载。

2 vllm-ascend安装

2.1 使用vllm+vllm-ascend基础镜像

基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest
拉取镜像(v0.7.0.3的正式版本尚未发布)

docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev

启动镜像
QwQ-32B 需要70G以上显存,2张64G的卡

docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/davinci_manager --device /dev/devmm_svm --device /dev/hisi_hdc -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info -v /etc/ascend_install.info:/etc/ascend_install.info -v /xxx/models/llmmodels:/usr1/project/models quay.io/ascend/vllm-ascend:v0.7.3-dev bash

/xxx/models/llmmodels是宿主机放模型的目录,/usr1/project/models是容器内目录

2.2 源码编译安装

# Install vLLM
git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm
cd vllm
VLLM_TARGET_DEVICE=empty pip install . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

# Install vLLM Ascend
git clone  --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

具体可以参考链接:https://vllm-ascend.readthedocs.io/en/latest/installation.html

3 启动模型

openai兼容接口

vllm serve /usr1/project/models/QwQ-32B --tensor_parallel_size 2 --served-model-name "QwQ-32B" --max-num-seqs 256 --max-model-len=4096 --host xx.xx.xx.xx --port 8001 &

/usr1/project/models/QwQ-32B:模型路径
tensor_parallel_size:和卡数量保持一致
served-model-name:接口调用需要传入的模型名称
vllm其余具体参数含义请参考vllm官方文档
在这里插入图片描述

<think>好的,我现在需要帮助用户解决在Docker中部署和使用vLLM结合Open WebUI QwQ-32B模型的问题。首先,我需要确认用户提到的模型名称是否正确,用户写的是“QwQ-32B”,但根据提供的引用,正确的名称应该是“Qwen-32B”或“DeepSeek-R1-Distill-Qwen-32B”。可能是用户打错了,但需要先确认这一点。假设用户确实是指Qwen-32B,那么接下来需要结合引用中的信息来构建步骤。 根据引用[2],vLLM可以无缝集成HuggingFace和Modelscope的模型,而引用[3]提到昇腾部署的DeepSeek-R1-Distill-Qwen-32B支持OpenAI-API。因此,用户可能希望使用Docker容器来部署vLLM服务,并通过Open WebUI与之交互。 首先,用户需要编写Dockerfile来构建包含vLLM和必要依赖的镜像。需要安装vLLM、PyTorch、CUDA等。然后,配置vLLM的服务,启动模型服务,如引用[1]和[3]中的命令,设置模型名称和API参数。接下来,部署Open WebUI,修改其配置文件指向vLLM的API地址,确保两者在同一个Docker网络中可以通信。最后,通过Docker Compose编排这两个服务,简化部署流程。 可能遇到的问题包括模型路径是否正确、端口映射是否冲突、依赖版本是否兼容等。需要提醒用户注意这些方面,并建议检查日志进行故障排除。此外,用户可能需要根据实际硬件调整启动参数,比如GPU支持和模型加载选项。 总结步骤:构建vLLM镜像,启动模型服务,部署Open WebUI,配置连接,最后测试。同时,生成相关问题,如性能优化、API认证、日志查看等,帮助用户进一步了解部署后的管理和使用。</think>### 在 Docker 中部署 vLLM 与 Open WebUI Qwen-32B 的步骤 #### 1. **准备 Docker 环境** - 安装 Docker 和 NVIDIA 容器工具(如需 GPU 支持): ```bash # 安装 Docker curl -fsSL https://get.docker.com | bash # 安装 NVIDIA Container Toolkit distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list apt-get update && apt-get install -y nvidia-docker2 ``` #### 2. **构建 vLLM 服务镜像** - 创建 `Dockerfile.vllm`: ```dockerfile FROM nvidia/cuda:12.1.1-base-ubuntu22.04 RUN apt-get update && apt-get install -y python3-pip git RUN pip3 install vllm transformers torch EXPOSE 8000 CMD ["python3", "-m", "vllm.entrypoints.openai.api_server", "--model", "Qwen/Qwen-32B", "--served-model-name", "Qwen-32B", "--tensor-parallel-size", "4"] ``` - 构建镜像: ```bash docker build -t vllm-qwen -f Dockerfile.vllm . ``` #### 3. **启动 vLLM 服务容器** - 运行容器(假设使用 4 张 GPU): ```bash docker run --gpus all -p 8000:8000 --name vllm_service vllm-qwen ``` - 验证服务: ```bash curl http://localhost:8000/v1/models ``` #### 4. **部署 Open WebUI** - 创建 `docker-compose.yml`: ```yaml version: '3' services: webui: image: ghcr.io/open-webui/open-webui:main ports: - "3000:8080" environment: - OPENAI_API_BASE_URL=http://vllm_service:8000/v1 - DEFAULT_MODEL=Qwen-32B depends_on: - vllm_service vllm_service: image: vllm-qwen ports: - "8000:8000" deploy: resources: reservations: devices: - driver: nvidia count: 4 capabilities: [gpu] ``` - 启动服务: ```bash docker-compose up -d ``` #### 5. **访问 Open WebUI** - 浏览器访问 `http://localhost:3000`,在设置中选择模型 `Qwen-32B` 并保存。 --- ### 关键配置说明 1. **vLLM 模型加载**:通过 `--model Qwen/Qwen-32B` 指定模型路径(需提前从 HuggingFace 或 ModelScope 下载)[^2]。 2. **GPU 资源配置**:`tensor-parallel-size` 需与实际 GPU 数量匹配[^3]。 3. **服务互联**:Docker Compose 中通过服务名 `vllm_service` 实现容器间通信,无需暴露端口到宿主机[^1]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值