win系统部署参考文档:https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/quick-start.md
在 UI-TARS 中配置 VLM(视觉语言模型)模型,无论是选择云端(Hugging Face)还是本地(vLLM)部署,都需要经过一系列步骤,下面为你详细展开介绍。
本地 vLLM 模型部署配置步骤
1. 环境准备
- 安装 Python:确保你的系统安装了 Python 3.8 及以上版本,可在命令行输入 `python --version` 进行检查。若未安装,可从 [Python 官网](Download Python | Python.org) 下载安装。
- 安装依赖库:打开命令行,执行以下命令安装必要的 Python 库:pip install transformers torch vllm
2. 模型下载
从 Hugging Face 等模型仓库下载你所需的 VLM 模型,记录好模型文件的本地存储路径。
3. 启动 vLLM 服务
在命令行中,使用以下命令启动与 OpenAI 兼容的 API 服务:
python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <模型本地路径>,请将 `<模型本地路径>` 替换为你实际下载的模型文件所在路径。
4. 配置 UI-TARS 客户端
- 打开 UI-TARS:启动 UI-TARS Windows 客户端。
- 进入模型配置界面:在客户端中找到模型配置相关的功能区域,通常在设置或者模型管理模块。
- 添加模型配置:
- 模型名称:为模型设置一个便于识别的名称,例如 `local-vlm-model`。
- API 基础 URL:输入 vLLM 服务的基础 URL,默认情况下为 `http://localhost:8000/v1`。
- 认证信息:若服务需要认证,需填写相应的认证信息;若无需认证,可留空。
云端 Hugging Face 模型部署配置步骤
1. 创建 Hugging Face 账户
若你还没有 Hugging Face 账户,需前往 [Hugging Face 官网](https://huggingface.co/) 注册一个新账户。
2. 选择并部署模型
- 选择模型:在 Hugging Face 模型仓库中挑选合适的 VLM 模型。
- 创建推理端点:在模型页面中,点击“Deploy”(部署)按钮,选择创建推理端点。按照指引完成端点的创建,包括选择计算资源、配置模型参数等。
3. 获取端点信息
创建端点成功后,你会得到端点的 API 地址和认证密钥。请妥善保存这些信息,后续配置 UI-TARS 时会用到。
4. 配置 UI-TARS 客户端
- 打开 UI-TARS:启动 UI-TARS 客户端。
- 进入模型配置界面:找到客户端中的模型配置区域。
- 添加模型配置:
- 模型名称:为模型取一个合适的名称,例如 `huggingface-vlm-model`。
- API 基础 URL:输入 Hugging Face 推理端点的 API 地址。
- 认证信息:填写获取到的认证密钥,通常以 `Bearer <密钥>` 的格式输入。
测试配置
完成上述配置后,你可以进行简单的测试来验证模型是否配置成功。
- 准备测试数据:准备一张图像和一段文本提示。
- 发起推理请求:在 UI-TARS 客户端中,选择已配置的模型,上传测试图像,输入文本提示,然后点击“开始推理”按钮。
- 检查结果:若能正常得到合理的推理结果,则说明模型配置成功;若出现错误,需根据错误信息检查配置是否正确。
按照以上步骤操作,你就能在 UI-TARS 中成功配置 VLM 模型,无论是选择本地部署还是云端部署都能顺利进行。
!怕麻烦只想使用UI-TARS的可以参考官方教程,直接调用火山方舟Docs