Qwen3 正式发布

2025 年 4 月 29 日,阿里巴巴正式发布新一代通义千问模型 Qwen31。此次发布的 Qwen3 包含多种模型版本,具体如下:

  • MoE 模型:有 Qwen3-235B-A22B(总参数 2350 亿,激活参数 220 亿)和 Qwen3-30B-A3B(总参数 300 亿,激活参数 30 亿)。
  • 密集模型:包括 Qwen3-32B、14B、8B、4B、1.7B、0.6B,均为 Apache 2.0 开源协议。

Qwen3 具有以下特点:

  • 上下文长度:密集模型中,0.6B、1.7B、4B 为 32K,8B 及以上为 128K;MoE 模型均为 128K。
  • 性能表现
    • Qwen3-235B-A22B:在 ArenaHard(95.6)、AIME'24(85.7)、LiveCodeBench v5(70.7)等测试中,优于 DeepSeek - R1、o1、Grok - 3 等模型,仅在 AIME'25(81.5)略低于 Gemini - 2.5 - Pro(86.7)。
    • Qwen3-30B-A3B:在 ArenaHard(91.0)、AIME'24(80.4)等测试中,超越 QwQ - 32B(激活参数为其 10 倍)。
    • Qwen3-4B:性能可与 Qwen2.5 - 72B - Instruct 媲美,如在 ArenaHard 中为 76.6,Qwen2.5 - 72B - Instruct 为 81.2。
  • 优势领域:在编码(如 CodeForces Elo Rating)、数学(AIME 系列)、多语言(MultilF 8 Languages)任务中表现突出。
  • 多语言支持:覆盖 119 种语言和方言,包括印欧语系、汉藏语系、阿拉伯语、日语、韩语等。
  • 增强的代理能力:优化了编码和工具调用能力,推荐搭配 Qwen - Agent 使用,支持 MCP 协议和自定义工具集成。
  • 预训练数据:使用 36 万亿 token,是 Qwen2.5 的 2 倍,涵盖网页、PDF 文档(通过 Qwen2.5 - VL 提取文本),并通过 Qwen2.5 - Math/Code 生成数学和代码合成数据。
  • 架构优化:MoE 模型通过稀疏激活降低计算成本,密集模型参数效率更高,如 Qwen3 - 4B 性能相当于 Qwen2.5 - 72B。

此外,为释放 Qwen3 的强大性能,模力方舟基于昇腾最新发布的 vLLM Ascend v0.8.4rc2 进行适配。英特尔也第一时间深度优化 Qwen3 大模型,助力其在 PC 客户端、边缘计算、智能驾舱等场景的应用。

Qwen3 系列模型包括 2 个 MoE 模型和 6 个 Dense 模型,参数量从 0.6B 到 235B1。其中,Qwen3-235B-A22B 总参数 2350 多亿、激活参数 220 多亿,Qwen3-30B-A3B 总参数 300 亿、激活参数 30 亿。与其他同类型模型相比,情况如下:

  • 与 Llama 3 相比:Llama 3 有 80 亿参数的 Llama 3 8B 和 700 亿参数的 Llama 3 70B7。Qwen3 的参数量覆盖范围更广,从较小的 0.6B 到较大的 235B,包含了多种不同规模的模型,能满足不同场景和需求。而 Llama 3 目前主要是 8B 和 70B 两种参数量规模。
  • 与 Phi-3 相比:微软 Phi-3 系列模型有 Phi-3-mini(3.8B)、Phi-3-small(7B)和 Phi-3-vision(42 亿)等9。Qwen3 在参数量上有更多选择,且有大规模的 235B 模型,而 Phi-3 目前以小模型为主,参数量相对较小。
  • 与 Mistral 相比:Mistral 有 Mistral 7B(70 亿参数)、Mixtral 8x7B(46.7 亿参数)、Mixtral 8x22B(141 亿参数)、Mistral Large 2(123 亿参数)和 Mistral Small 3.1(240 亿参数)等810。Qwen3 的参数量范围更宽,最大参数量 235B 大于 Mistral 系列模型,同时也有多个小参数量模型可与 Mistral 的部分模型对应比较。
  • 与 DeepSeek-R1 等模型相比:Qwen3 旗舰模型 Qwen3-235B-A22B 的总参数量是 DeepSeek-R1 的 1/3 左右,但在代码、数学、通用能力等基准测试中表现出色,超过了 DeepSeek-R1、o1、o3 - mini、Grok - 3 等全球顶尖模型,在部分关键指标上可与 Gemini 2.5 Pro 媲美。
### Qwen 各版本差异与特性 #### Qwen 1 Qwen 1 是早期的基础版本,主要作为通义千问系列的第一个正式发布的模型。它提供了基础的语言理解和生成能力,并支持多种应用场景,如问答、文本生成等。虽然具体细节未提及,但它奠定了后续版本发展的基础。 #### Qwen 1.5 Qwen 1.5 被描述为 Qwen 2 的测试版本,旨在改进和优化基于 transformers 的使用方式[^1]。这一版本可能引入了一些新的功能或架构上的调整,以便更好地适应实际应用需求。尽管仍处于测试阶段,但它的推出表明了研发团队对持续迭代和提升模型性能的重视。 #### Qwen 2 关于 Qwen 2 的直接信息较少,但从上下文中可以推测,这是一个重要的更新版本,相较于 Qwen 1 和 Qwen 1.5,在性能、效率以及适用范围等方面都有显著增强。通常情况下,这种命名方式意味着一次重大的技术飞跃或者全新的设计思路被采纳。 #### Qwen 2.5 Qwen 2.5 则进一步扩展了整个家族的产品线,推出了多个子系列来满足不同的业务场景和技术要求: - **Qwen2.5-Coder 系列**: 这一专门针对编程任务而打造的新成员包含了两个变体——Qwen2.5-Coder-1.5B 和 Qwen2.5-Coder-7B。它们经过大量代码数据集训练后展现出卓越的能力,在多项评测指标上达到了行业领先水平[^4]。 - **Qwen2.5-1.5B-Instruct**: 此外还有像端侧部署友好型的小规模指令微调版(例如 model_id: Qwen/Qwen2.5-1.5B-Instruct),适合资源受限环境下的快速响应服务[^3]. 总体来看,Qwen 家族随着版本号增加不断演进完善,从最初单纯追求强大表达力到现在兼顾专业化细分领域表现. ```python # 示例代码展示如何加载某个特定版本的大模型 from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct") model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

自不量力的A同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值