vllm部署Mistral-Large-Instruct-2407

1. 引入

2024年7月底又上演了大模型疯狂内卷,23号Llama3.1-405B发布,性能已经接近GPT4;24号Mistral Large 2发布,只用了123B的参数,就在代码、推理、数学领域又超过了Llama3.1-405B。

并且,Mistral-Large-Instruct-2407官方就通告支持中文,这个也很少见。而且在通用能力测评中,也表现不错。

那么,如何部署使用Mistral-Large-Instruct-2407呢?有没有什么坑?

2. vllm部署方法

经笔者实测,使用4张A800,才能将Mistral-Large-Instruct-2407跑起来,具体配置方法如下所示:

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
        --model /data/models/Mistral-Large-Instruct-2407/ \
### 关于 Mistral-Large-Instruct-2407-AWQ 的详细介绍 #### 模型概述 Mistral-Large-Instruct-2407-AWQ 是一款基于量化技术优化的大规模预训练语言模型,旨在降低运行成本并提高推理效率。该版本采用了 AWQ (Activation-aware Weight Quantization) 技术,在保持较高精度的同时显著减少了计算资源需求[^1]。 #### 获取文档与下载链接 为了方便开发者获取最新资料,建议访问官方发布的教程页面以及魔搭社区中的 Hugging Face 镜像站点来查找详细的安装指南和技术文档。这些平台通常会提供最全面的说明和支持材料[^3]。 ```bash # 访问HuggingFace镜像站获取更多详情 https://hf-mirror.com/ ``` #### 使用方法简介 对于希望快速上手此模型的应用场景而言,可以通过 OpenWebUI 工具实现一键部署功能。这使得即使是不具备深厚技术背景的人也能轻松完成配置工作。具体操作流程可参照相关视频教程了解每一步骤的具体实施细节[^2]。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "mistral-large-instruct-2407-awq" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "<|user|>\nWhat is the capital of France?<|end|>" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值