lmdeploy v0.7.3 震撼发布!支持 Qwen3/DeepSeekV2/Llama4,性能碾压 Ollama/VLLM?

在这里插入图片描述

LMDeploy(由 InternLM 团队开发的高效推理引擎)迎来 v0.7.3 版本,带来多项重磅升级!本次更新不仅新增了对 Qwen3、Qwen3MoE、DeepSeekV2、Llama4 等热门模型的支持,还在 Ascend NPU 上优化了 8bit 量化推理(W8A8),并大幅提升 MOE(混合专家)模型 的推理效率!


📢 核心更新亮点
  1. 🔥 新模型支持

    • Qwen3 & Qwen3MoE:通义千问最新开源模型,MoE 架构性能更强!
    • DeepSeekV2:深度求索的高效大模型,推理速度再升级!
    • Llama4:Meta 新一代开源模型,LMDeploy 率先适配!
  2. ⚡ Ascend NPU 优化

    • 支持 W8A8 低精度推理,显著降低显存占用!
    • QwenVL2.5 支持 Graph 模式,推理速度更快!
    • MOE 模型优化,Ascend 平台性能提升!
  3. 💡 功能增强

    • 交互式 API 支持 spaces_between_special_tokens,优化特殊 token 处理。
    • 动态端口检测,避免端口冲突问题。
    • Dynamo 模式修复,提升 PyTorch 兼容性。
  4. 🐞 Bug 修复

    • 修复 finish_reason 返回错误问题。
    • 优化 MLP 激活计算,减少显存占用。
    • 修复 Qwen3MoE 配置解析 问题。

🆚 LMDeploy vs. Ollama vs. VLLM:谁更强?
特性LMDeployOllamaVLLM
模型支持✅ Qwen3/DeepSeekV2/Llama4✅ Llama/Gemma✅ Llama/Mistral
推理优化🔥 Ascend NPU + W8A8 + MOE❌ 依赖 CPU/GPU 原生推理✅ PagedAttention + vLLM 引擎
低精度支持✅ 8bit/4bit 量化❌ 仅 FP16/FP32✅ 8bit 量化
部署灵活性✅ 支持 Triton/HTTP API✅ 本地 CLI 工具✅ FastAPI + OpenAI 兼容
性能对比Ascend 优化,MOE 加速🐢 适合轻量级本地推理⚡ 适合高吞吐 GPU 推理

结论

  • LMDeploy国产芯片(Ascend)优化MOE 模型支持 上优势明显,适合企业级部署。
  • Ollama 适合 个人开发者 快速体验模型,但功能较简单。
  • VLLMGPU 高并发推理 上表现优秀,但缺少 NPU 支持。

📥 如何体验?
pip install lmdeploy==0.7.3

或参考官方文档:https://github.com/InternLM/lmdeploy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

福大大架构师每日一题

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值