vllm部署Mistral-Large-Instruct-2407

ybdesire

已于 2024-07-26 06:01:05 修改

阅读量1.3k

点赞数 3

分类专栏：大语言模型深度学习运维文章标签：数据库 mysql

于 2024-07-25 23:30:00 首次发布

本文链接：https://blog.csdn.net/ybdesire/article/details/140691972

版权

1. 引入

2024年7月底又上演了大模型疯狂内卷，23号Llama3.1-405B发布，性能已经接近GPT4；24号Mistral Large 2发布，只用了123B的参数，就在代码、推理、数学领域又超过了Llama3.1-405B。

并且，Mistral-Large-Instruct-2407官方就通告支持中文，这个也很少见。而且在通用能力测评中，也表现不错。

那么，如何部署使用Mistral-Large-Instruct-2407呢？有没有什么坑？

2. vllm部署方法

经笔者实测，使用4张A800，才能将Mistral-Large-Instruct-2407跑起来，具体配置方法如下所示：

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server \
        --model /data/models/Mistral-Large-Instruct-2407/ \

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ybdesire

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

最强开源模型 Mixtral-8x7B-Instruct-v0.1 详细介绍：稀疏 Mixtral of experts

AI天才研究院

02-02

1443

同样，在推理过程中，假设每个令牌仅使用两名专家，推理速度 (FLOP) 就像使用 12B 模型（而不是 14B 模型），因为它计算 2x7B 矩阵乘法，但共享一些层。然后，输入的信息将以最高的概率发送给专家，确保最合适的专家处理手头的任务。C) 另请注意，虽然有推理服务，但实现了 FP8 实现，每个令牌运行 3 个专家（而不是默认的 2 个）——但激活更多专家是有害的，因为该模型经过训练只需要处理 3 个专家的贡献2个顶级的。它是最强大的开放权重模型，具有宽松的许可证，也是成本/性能权衡方面的最佳模型。

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-Tools助力（二）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

10-16

2万+

在大语言模型推理中使用工具增强模型的能力和准确性，获取实时信息，提高效率并降低计算负担

1 条评论您还未登录，请先登录后发表或查看评论

大模型推理工具：vLLM的入门使用

2401_84215165的博客

04-08

2万+

vLLM是一个快速且易于使用的LLM推理和服务库。最先进的服务吞吐量使用PagedNote有效管理注意力键和值内存传入请求的连续批处理使用CUDA/HIP图快速执行模型量化：GPTQ、AWQ、SqueezeLLM、FP8 KV缓存优化的CUDA内核与流行的拥抱脸模型无缝集成高吞吐量服务于各种解码算法，包括并行采样、波束搜索等分布式推理的张量并行性支持流式输出与OpenAI兼容的API服务器支持NVIDIA GPU和AMD GPU（实验性）前缀缓存支持。

vLLM 部署大模型

哦豁灬

04-04

2万+

vLLM 是来自 UC Berkeley 的 LMSYS 在 LLM 推理方面的最新工作（没错就是搞出 Vicuna 的那个 group），最大亮点是采用 Paged Attention 技术，结合 Continuous Batching，极大地优化了 realtime 场景下的 LLM serving 的 throughput 与内存使用。

vllm 支持QwQ工具调用的设定

最新发布

chenxin0215的博客

03-23

859

Auto tool choice. tells vLLM that you want to enable the model to generate its own tool calls when it deems appropriate. 开启vllm支持函数调用功能。vllm 推荐对于qwen2.5 以及 QwQ系列，启动选项配置为 “--tool-call-parser hermes”vllm安装使用的帖子已经很多了，本文主要记录下，vllm 支持tool calling 时的部署设定；

通过函数调用探索 Mistral Large

数智笔记

03-06

844

在不断发展的人工智能世界中，Mistral AI 凭借其最新模型的发布成为备受关注的竞争者。本文深入探讨了 Mistral AI 方法的独特之处以及它在 AI 领域的突出表现，特别是与 OpenAI 等巨头相比。我们将研究其在常规提示和函数调用方面的能力，以及它如何作为 AI 领域中可行的替代方案。

详解各种LLM系列｜（3）Mistral-7B 技术内容详解

weixin_49659123的博客

01-10

4487

Mistral - 7B是怎么实现在各项数据集上的表现都超过Llama2 - 13B的

从Mistral Nemo到Large2 核心技术详解

强化学习曾小健

07-31

960

作者：Kevin吴嘉文，新加坡管理大学信息技术硕士原文：https://zhuanlan.zhihu.com/p/711294388在本文中，梳理了Mistral 系列模型（Mistral 7B，Mistral Nemo, Mistral Large 2）的关键信息，包括它们的主要特点、亮点以及相关资源链接。

理解vllm分布式推理服务中的多节点Multi-Node部署方式

ybdesire的专栏

08-21

4848

使用vllm中的多节点分布式推理模式部署llm

OpenCSG首发中文Chinese Mistral Large 2！

OpenCSG的博客

08-05

1177

为了更好地服务于中文用户，我们在mistral-large-instruct-2407的基础上进行了大量中文语料的微调，最终推出了CSG-Wukong-Chinese-Mistral-Large2-123B。通过对比，我们可以明显看出，CSG-Wukong-Chinese-Mistral-Large2-123B在对话生成的流畅性、语义理解的准确性和上下文关联性方面均优于Llama3.1-405B中文版。通过本次微调，mistral-large-instruct-2407模型的中文能力得到了显著提升。

【开源加速中】纳尼？闭源大模型竟然开源了，Mistral AI再开源 Mistral Large 大模型

weixin_41446370的博客

07-25

1601

就在昨天，Meta发布了 Llama 3.1 之后的不久，Mistral AI 正式宣布发布新一代旗舰机型 Mistral Large 2。与前代产品相比，Mistral Large 2 在代码生成、数学和推理方面的能力大大增强。它还提供了更强大的多语言支持和高级函数调用功能。但不仅如此，在HF上居然出现了，闭源的大模型居然也开始开源了，而且支持到24年7月的知识库。

开源疯狂内卷！媲美GPT-4o、支持中文，超Llama 3.1

yXIAOyu_的博客

07-28

515

特别是在英语、中文、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、日语、韩语、阿拉伯语和印地语方面表现出色。Mistral Large 2能生成文本、摘要、代码等，尤其是128K上下文窗口，在代码和数学推理方面进行了极大增强，支持Python、Java、C、 C++、JavaScript等几十种编程语言。性能测试方面，Mistral.ai特意将Mistral Large 2与GPT-4o、Llama 3.1 405B、GPT-4等主流开闭源大模型进行了综合对比。

使用 vLLM 部署本地 LLM 指南

热门推荐

spicy_chicken123的博客

01-24

3万+

我们输入以下命令启动服务器，–model 为本地模型的路径，–served-model-name 是模型在服务器中的别名，这里我们取简称 openchat，其他都是默认值，当然也可以自己设置。在这里我们不演示了，直接将 vLLM 部署为模仿 OpenAI API 协议的服务器，这使得 vLLM 可以用作使用 OpenAI API 的应用程序的直接替代品。当然，你也可以试一试 ChatCompletions 格式的请求，ChatCompletions API 的请求内容如下，两种的格式还是有一些区别的。

5分钟在本地PC上使用VLLM快速启动Mistral-Small-24B-Instruct-2501

engchina的专栏

02-02

1291

5分钟在本地PC上使用VLLM快速启动Mistral-Small-24B-Instruct-2501

使用 vLLM 解锁更快的 LLM 服务：分步指南

iCloudEnd的博客

05-15

279

在继续之前，请确保了解 vLLM 提供的内容。针对不同行业的 LLM 部署进行了根本性改进吞吐量比 Hugging Face Transformers 高出24 倍，无需修改底层模型架构基于 PagedAttention，一种先进的注意力管理技术。通过智能地将键值缓存划分为更小的动态块（称为“页面”），PagedAttention 可最大程度地减少内存浪费并优化 GPU 利用率。单输出完成：吞吐量比 Hugging Face Transformers高 14 倍至 24 倍；

只需三步，手把手带你在本地部署运行大模型

AAI666666的博客

03-04

1万+

在当前的技术环境下，大型语言模型（LLMs）已经成为人工智能领域的一个重要里程碑。

谁是开源之王？Mistral Large 2重磅发布，支持80多种编程语言

ai2nv的博客

07-29

487

Llama 3.1登顶开源大模型王座仅仅过了一天，就被拉下了神坛，这次的主角是一家法国的团队Mistral AI，发布了其最新旗舰模型Mistral Large 2，这是一个具有 1230 亿参数的大型人工智能模型。该模型旨在增强代码生成、数学和推理能力，并支持超过 80 种编程语言。模型信息：1230 亿个参数，性能媲美 Llama 3.1 405B，但参数量仅为其三分之一，更适合个人开发者来部署。：上下文窗口为 128k tokens，适合处理长文本。

在线教程丨超大模型部署无压力！一键运行 Llama 3.1 405B 和 Mistral Large 2

HyperAI超神经

08-08

1508

作者：李宝珠编辑：xixi、李宝珠HyperAI超神经为大家上线了 Llama 3.1 405B 和 Mistral Large 2407 的一键部署教程，无需输入任何命令，只需点击「克隆」即可体验。当地时间 7 月 23 日，Meta 正式发布 Llama 3.1，超大号的 405B 参数版本强势开启了开源模型的高光时刻，在多项基准测试中，表现追平甚至超越了现有 SOTA 模型 GPT-4o 和...

Mistral-Large-Instruct-2407-AWQ

01-21

### 关于 Mistral-Large-Instruct-2407-AWQ 的详细介绍 #### 模型概述 Mistral-Large-Instruct-2407-AWQ 是一款基于量化技术优化的大规模预训练语言模型，旨在降低运行成本并提高推理效率。该版本采用了 AWQ (Activation-aware Weight Quantization) 技术，在保持较高精度的同时显著减少了计算资源需求[^1]。 #### 获取文档与下载链接为了方便开发者获取最新资料，建议访问官方发布的教程页面以及魔搭社区中的 Hugging Face 镜像站点来查找详细的安装指南和技术文档。这些平台通常会提供最全面的说明和支持材料[^3]。 ```bash # 访问HuggingFace镜像站获取更多详情 https://hf-mirror.com/ ``` #### 使用方法简介对于希望快速上手此模型的应用场景而言，可以通过 OpenWebUI 工具实现一键部署功能。这使得即使是不具备深厚技术背景的人也能轻松完成配置工作。具体操作流程可参照相关视频教程了解每一步骤的具体实施细节[^2]。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "mistral-large-instruct-2407-awq" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "<|user|>\nWhat is the capital of France?<|end|>" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ```