vllm部署qwen1.5

本文介绍了如何使用Docker从NVCR.io镜像拉取并配置NVIDIAPyTorch环境,安装VLLM库,以及部署OpenAI风格的API服务,包括设置CUDA设备和参数以优化GPU资源利用。
摘要由CSDN通过智能技术生成

1、拉取镜像:

docker pull nvcr.io/nvidia/pytorch:23.10-py3

        此镜像需要自己安装vllm,也可拉取官方镜像,但只可开启类openai api服务

docker pull vllm/vllm-openai:latest  
docker run --runtime nvidia --gpus all --name vllm \
    -v /mount/nfs/Dataset/ql/model:/root/model \
    -v /mount/nfs/Dataset/ql/vllm:/root/vllm \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8880:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model /root/model/Qwen/qwen1.5-14b-chat-gptq-int4 \
    --gpu-memory-utilization 0.8 \
    --tensor-parallel-size 2 \
    --max-model-len 8129 \
    --served-model-name Qwen1.5-14B-Chat               

2、安装环境

docker run -id --runtime nvidia --gpus all --name vllm \
    -v /mount/nfs/Dataset/ql/model:/root/model \
    -v /mount/nfs/Dataset/ql/vllm:/root/vllm \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8880:8000 \
    --ipc=host \
    nvcr.io/nvidia/pytorch:23.10-py3
 
docker exec -it vllm /bin/bash
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

3、部署服务

        部署api服务:

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.api_server --model /root/model/Qwen/qwen1.5-14b-chat-gptq-int4


curl http://localhost:8000/generate \
    -d '{
        "prompt": "San Francisco is a",
        "use_beam_search": true,
        "n": 4,
        "temperature": 0
    }'

        部署openai风格的 api服务

CUDA_VISIBLE_DEVICES=6,7 python -m vllm.entrypoints.openai.api_server \
--model /root/model/Qwen/qwen1.5-14b-chat-gptq-int4 \
--served-model-name qwen1.5-14b-chat-int4
--gpu-memory-utilization 0.8 \
--tensor-parallel-size 2

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "llama-2-13b-chat-hf",
        "prompt": "San Francisco is a",
        "max_tokens": 7,
        "temperature": 0
    }'

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值