对标OpenAI o1、DS-R1，1分钟速览阿里开源Qwen3核心看点！

最新推荐文章于 2025-05-14 14:53:30 发布

大模型知识

最新推荐文章于 2025-05-14 14:53:30 发布

阅读量586

点赞数 13

文章标签：腾讯云云计算语言模型 llama python 大模型

本文链接：https://blog.csdn.net/ytt0523_com/article/details/147607874

版权

就在刚刚（4.29凌晨），备受关注的Qwen3系列模型产品重磅发布！8款细分产品、包括两个MOE模型产品、六款Dense模型产品，其中旗舰产品 Qwen3-235B-A22B属于MOE模型，拥有235B的参数量，实际推理过程中激活其中22B参数，本文汇总了Qwen3的核心看点，一起速览！

一、Qwen3 从0.6B到235B多种选择

如下图所示，阿里的通义千问Qwen3模型家族，共8款「混合推理」模型全部开源， 且免费商用。

1、MOE的旗舰模型Qwen3-235B-A22B，官方表示在代码、数学、通用能力等基准测试中，与一众顶级模型相比，比如R1、o1 Grok3 beta等，表现非常出色，和R1相比显存占用仅为其三分之一。

2、另一款MoE模型Qwen3-30B-A3B， 总参数量30B，激活参数量3B，虽然是QwQ-32B10%，但是测试表现更胜一筹，官方数据显示， Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

3、各版本Qwen3模型的详细参数量，如下

目前，在Qwen Chat 网页版和手机 App上，Qwen3的三款模型也已经上线了。

二、两种“思考模式”可选，满足响应快和满的需求

官方信息显示，Qwen3模型支持两种思考模式：

1. 思考模式：对标DeepSeek的深度思考，在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。

2. 非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

这两种方式类似DeepSeek官网的否开启“深度思考”；Qwen3的这两种模式的结合可增强模型实现稳定且高效的“思考预算”控制能力。让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡（性能和效率不可兼得，就看用户看重那个了）。

三、面向多客户群体和全球视野，支持高达119 种语言和方言

这个特点可以为开拓全球市场提供优势。

四、Agent功能大幅增强

阿里官方消息显示，Qwen3 在工具调用能力方面表现出色。推荐使用 Qwen-Agent 来充分发挥 Qwen3 的 Agent 能力。Qwen-Agent 内部封装了工具调用模板和工具调用解析器，大大降低了代码复杂性。

Agent作为是大模型领域重点关注的核心能力之一，最近在MCP 模型上下文协议的引入更是大大增强了 Agent 的适用性和灵活性，大大拓宽了应用场景。在评估模型Agent能力的BFCL评测中，Qwen3创下70.8的新高，超越Gemini2.5-Pro、OpenAI-o1等顶尖模型，将大幅降低Agent调用工具的门槛。Qwen3原生支持MCP协议，并具备工具调用（function calling）能力，结合封装了工具调用模板和工具调用解析器的Qwen-Agent 框架，将大大降低编码复杂性，实现高效的手机及电脑Agent操作等任务。

五、阿里通义成为全球最大的开源模型族群

结合公开信息，阿里通义已开源200余个模型，全球下载量超3亿次，千问衍生模型数超10万个，已超越美国Llama，成为全球第一开源模型

六、部署框架广泛支持

结合公开信息显示，阿里Qwen的开发团队也在博客中给出了一些推荐设置。对于部署，推荐使用 SGLang 和 vLLM 等框架；而对于本地使用，像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中，无论是用于研究、开发还是生产环境。未来开发团队也将放出 Qwen3 模型的技术报告或训练配方。

各类开发者、企业以及研究机构和均可免费在 HuggingFace、魔搭社区等平台下载模型并商用，也可以通过阿里云百炼调用 Qwen3 的 API 服务。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！