今天凌晨,Qwen3发布
介于 DeepSeek 和 OpenAI 暂无动静,Qwen 算是把头条保住了,恭喜~
本文量大管饱、一次满足:发布内容、实际体验、训练细节,和 Qwen 发展回顾
发布内容
本次发布,包含 MoE 和 Dense 两种架构:
MoE:有 30B(3B激活)和 235B(22B激活)两种。
Dense:包含 0.6B、1.7B、4B、8B、14B 和 32B 这六款
本次发布的旗舰模型是 Qwen3-235B-A22B,后缀 235B 指的是模型大小 235B,A22B 指的是激活参数 22B。
在代码、数学、通用能力等基准测试中,这个 235B 的 Qwen3,水平超过 671B 的 DeepSeek R1。
Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro。
对于小一点的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表现超过 DeepSeek V3/GPT-4o
Qwen3-4B 这样的小模型,也能匹敌 Qwen2.5-72B-Instruct
「思考模式」的无缝切换
在我看来,在功能层面,Qwen3 最显著的更新,是引入了「思考模式/非思考模式」的无缝切换。
思考模式的输出方式,类似 DeepSeek R1,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
非思考模式则更类似 DeepSeek V3,提供快速的即时响应,适用于那些简单问题。
通过这种方式,用户能够根据具体需求,来控制模型的“思考”的程度,做到效果、成本、时间上的平衡。
在不同思考深度下,模型的得分情况
掌握多种语言
Qwen2 支持 29 种语言
中英文 + 27 种其他语言
Qwen3 支持了 119 个语种和方言
更强的 Agent 能力
本次 Qwen3 的更新,还体现在了 Agent 和 代码能力,同时也加强了对 MCP 的支持。
值得一提的是,Qwen 有一个配套的 Qwen-Agent 项目,可以方便地使用 API 进行工具调用,或结合现有的工具链进行扩展
实际体验
接下来用两个个例子,直观的展示本次 Qwen3 的能力变化
当然了,你也可以访问 Qwen 的网站,来直接体验
https://chat.qwen.ai/
长/短思考
对于是否思考,你可以开启/关闭,以及设定的长度
也可以让他讲讲人生道理
代码能力
所谓原汤化原食,让他给本文做个可视化,美感还是在线的
让英雄查英雄,让 Qwen3 画 Qwen3
训练细节
接下来,让我们看看这个模型是怎么训出来的,过程上包括预训练和后训练。
预训练
先做一个基础的了解:
Qwen2.5 的训练数据,是在 18 万亿 token
Qwen3 的训练数据翻倍:约 36 万亿个 token,涵盖了 119 种语言和方言。
这些数据,一方面是来自于互联网信息的收集,一方面则是通过 Qwen2.5-VL 来从各 PDF 中来提取内容,再通过 Qwen2.5 改进质量。为了补充数学和编程领域的训练数据,Qwen2.5-Math 和 Qwen2.5-Coder 被用来生成合成数据。
在预训练中,有三个阶段:
第一阶段,模型在30万亿tokens的数据上预训练,使用4K的上下文长度,这一阶段主要是帮助模型建立基本的语言技能和常识理解。
第二阶段,增强了STEM领域(科学、技术、工程、数学)和编程任务的训练,增加了5万亿tokens的数据量,进一步提升模型的推理能力。
第三阶段,通过加入高质量的长文本数据,扩展了上下文长度到32K,让Qwen3能够处理更长的输入,例如长篇文章或复杂的对话。
训练出来,大概就是这么个效果
通过这些步骤,Qwen3的Dense基础模型在性能上达到了Qwen2.5更大模型的水平。例如,Qwen3-1.7B、4B、8B、14B、32B等版本的表现,和Qwen2.5的3B、7B、14B、32B、72B相当。而Qwen3的MoE模型,则只用了10%的激活参数,便能提供同样的推理能力,极大地节省了计算资源。
后训练
Qwen3的后训练是让模型实现“逐步推理”和“快速响应”的关键。团队通过四个阶段的优化,使得Qwen3不仅在复杂任务中有出色表现,在简单任务中也能快速给出答案。
第一阶段:长链推理冷启动:这一步通过微调多样化的推理数据,让模型具备了处理复杂任务的基本能力,包括数学、编程和逻辑推理等任务。
第二阶段:强化学习(RL):第二阶段利用强化学习进一步提升模型的推理能力,让模型能够在面对复杂任务时更加高效地寻找最佳答案。
第三阶段:思考模式和非思考模式融合:这一创新允许模型在面对不同任务时,灵活切换“思考模式”和“非思考模式”。思考模式下,模型逐步推理,适合复杂问题;而非思考模式下,模型则能快速作出反应,适合日常对话和简单问题。
第四阶段:通用任务强化学习:最后阶段,通过对20多个常见任务的强化学习微调,确保了Qwen3能够在不同应用场景下灵活应对,包括指令跟随、格式化输出和智能代理能力等。
流程化成图,大概是这样
通过这一系列后训练,使得 Qwen3 掌握了思考模式,以及更好的工具调用能力。
Qwen 发展历史回顾
阿里最早推出的AI,叫做通义千问 ,最早出现在 2023年4月。
在那时,叫做「通义千问大模型」
那时,它还是阿里云的闭源模型,定位类似 ChatGPT,为企业客户提供服务,并不开放源码。
2023年8月初,Qwen 开源
首个开源的 Qwen 模型
23年8月,阿里开源了两个新模型,Qwen-7B 和 Qwen-7B-Chat,在 ModelScope 和 Hugging Face 同时上线,以 Apache 2.0 的方式开源,Tech Report 也一并放出。
这一次,也是“Qwen”这一名称首次被启用,主要面向开源社区,追求开源可用性、轻量部署、广泛适配;
2023年9月底,Qwen-14B 发布
紧接着,Qwen-14B 开源
相比 Qwen-7B,Qwen-14B 训练量更大,中文能力、代码生成、长文本推理都有明显提升
同期,阿里开源了 qwen.cpp、Qwen-Agent,工具链和应用框架开始成型。
那段时间,Qwen-7B 的训练也做了补强,tokens 从 2.2T 加到了 2.4T,上下文长度扩展到了 8K。
2023年11月底,Qwen-72B 上线
这是一版旗舰规模的模型,参数量拉到 720亿,预训练数据达到了 3万亿 tokens。
这个版本的 Qwen,原生支持 32K 上下文,在中文推理、复杂数学、多轮对话上的表现明显更稳了。
小型号也同步补了:Qwen-1.8B,面对边缘侧和轻量场景进行适配。
一波下来,Qwen把从1B到72B的参数区间基本打通了。
2024年春节期间,Qwen1.5
去年春节的时候,Qwen1.5 亮相
大过年的,Qwen1.5 发布,在基础上做了深度优化,主要是底层结构调整、训练对齐增强。
同一阶段,还放出了第一版 MoE 架构的 Qwen1.5-MoE-A2.7B,推理成本压下来了,但推理链条拉得更长。
24年6月初,Qwen2
Qwen2,一个颇具影响力的版本
Qwen2 算是换了新的底盘: 预训练数据量大幅扩张,推理能力、代码生成、长文本处理全部提升。
首批放出了 7B、32B、72B 三个尺寸,全覆盖了中大型场景。
2024年9月中,Qwen2.5 接棒
这里是一些描述
新加了3B、14B、32B三个尺寸,适配更多硬件资源。
同步发了 MoE版,优化了推理稀疏度,同时放出了 Qwen2.5-Omni,一个能统一文本、图像、音频、视频处理的多模态模型。
那时候,Qwen2.5-7B 和 Omni-7B 在 Hugging Face 开源榜单上连续多周霸榜。
2025年4月底,Qwen3 到来
今天,Qwen3 开源
这一次,Qwen3 系列从 Dense 和 MoE 两条线同步推进,从 0.6B 覆盖到了 235B。
训练过程中,第一次引入了 渐进式长文本预训练 和 长文本后训练,超长文本处理做了系统级的优化。
推理任务上,模型内部支持了 思考模式 / 非思考模式 的无缝切换,单个模型内可以根据复杂度自动适配推理链路。
同时的,这个版本的模型,对外部工具的调用能力得到加强,为接下来的 Agent 大战做足准备。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。