如何使用vllm在服务器上部署模型并调用

前言

📢博客主页:程序源⠀-CSDN博客
📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正!

 一、前期准备

环境准备:python3.10,cuda12.1

安装vllm:

Installation — vLLM

# (Recommended) Create a new conda environment.
conda create -n myenv python=3.10 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
pip install vllm

二、模型下载、启动服务

在魔塔社区找到自己要下载的模型。复制模型名称

魔搭社区

 直接用这个命令

vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123

如果没有下载模型,会先下载模型的。

如果网络超时或者报错。可以选择从魔塔社区下载,vllm默认是从huggingface去下载的。

要设置环境变量

export VLLM_USE_MODELSCOPE=True

三、调用服务

api_key是启动命令行里面下自己定义的

和openAI一样的调用方式

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc123",
)

completion = client.chat.completions.create(
  model="NousResearch/Meta-Llama-3-8B-Instruct",
  messages=[
    {"role": "user", "content": "Hello!"}
  ]
)

print(completion.choices[0].message)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值