transformers v4.51.0 震撼发布！Llama 4、Phi4-Multimodal、DeepSeek-V3、Qwen3 四大模型齐登场，AI 领域再迎巨变！

最新推荐文章于 2025-05-08 11:45:58 发布

福大大架构师每日一题

最新推荐文章于 2025-05-08 11:45:58 发布

阅读量657

点赞数 28

分类专栏：文心一言vschatgpt 文章标签： llama 人工智能

本文链接：https://blog.csdn.net/weixin_48502062/article/details/147026637

版权

文心一言vschatgpt 专栏收录该内容

571 篇文章

订阅专栏

在这里插入图片描述

引言

2025年4月6日，HuggingFace 正式发布了 Transformers v4.51.0，本次更新堪称 AI 界的“超级大礼包”！不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型，还优化了多项功能，修复了诸多 Bug，让 AI 开发者们直呼“真香”！

本文将深入解析 v4.51.0 的核心更新，包括：

Llama 4：Meta 最新 MoE 架构，支持多模态输入
Phi4-Multimodal：轻量级多模态模型，支持文本、图像、语音
DeepSeek-V3：超强 MoE 语言模型，训练成本大幅降低
Qwen3：阿里通义千问最新架构，即将发布
其他重要改进与 Bug 修复

如果你是 AI 开发者、研究人员，或者对前沿 AI 技术感兴趣，这篇文章绝对不容错过！

1. Llama 4：Meta 最新 MoE 架构，支持多模态输入

1.1 两大版本：Maverick 和 Scout

Meta 此次推出的 Llama 4 采用了 混合专家（Mixture-of-Experts, MoE）架构，并分为两个版本：

Llama 4 Maverick：17B 激活参数，总参数量约 400B，128 个专家
Llama 4 Scout：17B 激活参数，总参数量约 109B，16 个专家

两者均支持 多模态输入（文本+图像），并在 200 种语言数据上进行了训练，其中 12 种语言（如阿拉伯语、西班牙语、德语、印地语）进行了专门的微调。

1.2 部署方式

Scout 适用于单张服务器级 GPU，支持 4-bit/8-bit 量化，适合轻量级部署。
Maverick 提供 BF16 和 FP8 格式，适合高性能计算场景。

1.3 代码示例：多模态推理

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://example.com/rabbit.jpg"
url2 = "https://example.com/cat.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "描述这两张图片的异同？"},
        ]
    },
]

inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
response = processor.batch_decode(outputs)[0]
print(response)

运行方式：

torchrun --nproc-per-instance=8 script.py  # 需要 8 张 GPU

2. Phi4-Multimodal：轻量级多模态模型，支持文本、图像、语音

2.1 模型特点

支持文本、图像、音频输入，输出为文本
128K 上下文长度，适用于长文本任务
采用 监督微调（SFT）+ 直接偏好优化（DPO）+ RLHF 训练，确保安全性和指令遵循能力

2.2 多语言支持

模态	支持语言
文本	阿拉伯语、中文、英语、法语、德语等 23 种
视觉	英语
音频	英语、中文、德语、法语、日语等 8 种

2.3 适用场景

多模态对话（如 ChatGPT 视觉版）
语音转文本（ASR）
跨语言翻译

3. DeepSeek-V3：超强 MoE 语言模型，训练成本大幅降低

3.1 核心亮点

671B 总参数，37B 激活参数（MoE 架构）
采用 多头潜在注意力（MLA） 和 DeepSeekMoE 架构，训练效率极高
仅需 2.788M H800 GPU 小时（相比同类模型大幅降低）
训练过程极其稳定，无损失尖峰或回滚

3.2 性能表现

在多项基准测试中，DeepSeek-V3 超越开源模型，接近闭源顶级模型（如 GPT-4）。

3.3 适用领域

大规模 NLP 任务（文本生成、代码补全）
企业级 AI 应用（客服、数据分析）

4. Qwen3：阿里通义千问最新架构

虽然 Qwen3 的模型尚未正式发布，但 Transformers v4.51.0 已支持其架构，预计阿里很快会推出新版本。

4.1 预期特性

更强的 长文本理解能力
优化 多轮对话 和 代码生成
可能支持 多模态输入

5. 其他重要改进与 Bug 修复

5.1 文档优化

新增 大量可直接复用的代码示例，方便开发者快速上手

5.2 关键 Bug 修复

修复 Gemma3 图像处理问题
优化 FP8 权重加载（如 DeepSeek-V3）
修复 Llama 缓存机制问题

总结

HuggingFace/Transformers v4.51.0 的发布，标志着 AI 开源生态的又一次飞跃！

Llama 4 带来更强大的多模态 MoE 模型
Phi4-Multimodal 让轻量级多模态 AI 触手可及
DeepSeek-V3 以低成本实现顶级性能
Qwen3 蓄势待发，或将再次刷新中文 AI 表现

如果你是 AI 开发者，赶快升级体验吧！

pip install -U transformers[hf_xet]

未来，AI 的边界在哪里？HuggingFace 正在一步步给出答案！ 🚀