Qwen3(通义千问3)是阿里云Qwen团队推出的新一代开源大语言模型系列,涵盖密集模型和混合专家(MoE)模型多个规模。本次发布共开源了 6 个密集模型和 2 个 MoE 模型,参数量从 6亿 到 2350亿 不等。其中密集模型包括约0.6B、1.7B、4B、8B、14B和32B参数版本,MoE模型包括总参数约30B(激活参数3B)和235B(激活参数22B)的两种。所有模型均采用Apache 2.0开源许可,开发者可自由下载使用。
Qwen3 模型简介
亮点一 混合推理模式
Qwen3 支持在一个模型中无缝切换“思考模式”和“非思考模式”。在处理复杂逻辑推理、数学计算或代码生成等任务时,模型会进入“思考模式”逐步推理;而针对一般对话需求则采用高效的“非思考模式”,快速给出回答。这种“混合”架构让模型在复杂任务上能够自行检查和推理(类似OpenAI的 o3模型思路),提升准确性,但在简单任务上仍保持高速响应。
Qwen3 是否开启推理模式需要用户主动控制,而非完全自主决定。它提供了两种机制供用户选择:
硬开关机制
用户可通过设置 enable_thinking=True-
或 False
显式启用或关闭推理模式 ;
*软开关机制*
在已启用推理模式的前提下,用户可通过特定指令(如 /think
和 /no
)临时切换模式。
/think :强制进入深度推理模式(适合复杂逻辑、多步骤计算等任务)
/no_think:快速切换至轻量模式(适用于简单问答、低延迟需求场景)
亮点二 推理能力大幅度提升
相较前代模型,Qwen3 的推理能力大幅增强。在数学、代码和常识推理方面,Qwen3在“思考模式”下超越了此前内部基准模型,在“非思考模式”下也****胜过 Qwen2.5 系列的Instruct模型。同时,通过监督微调和人类反馈RLHF,Qwen3 拥有更优的人类偏好对齐,在创意写作、角色扮演、多轮对话和指令遵循等方面表现出色,能带来更加自然、生动的对话体验。
大部分 Qwen3 模型支持长上下文输入,最大上下文长度可达 128K tokens。这意味着模型可以高效处理超长文档和多轮对话,比常规的4K或8K上下文窗口长得多。较小模型(如0.6B、1.7B参数版)默认支持32K上下文,中大型模型(8B及以上)则扩展到128K,从而在长文本摘要、长对话等场景下表现更佳。
Qwen3 在大规模多语种语料上进行预训练,支持119种语言和方言,覆盖中英双语在内的广泛语言环境。据官方介绍,Qwen3 的预训练语料规模接近 36万亿 tokens,约为上一代 Qwen2.5 的两倍。数据来源包括互联网网页、PDF文档等,并借助 Qwen2.5-VL 等模型提取清洗文本,同时合成了额外的数学和代码数据作为补充。如此海量且多样的训练数据,使Qwen3在中英文等多语言理解、翻译和知识覆盖上都有强大表现。
值得一提的是,Qwen3 引入的架构和训练改进极大提升了“小模型”的效率:官方指出**区区4B参数*的 Qwen3 模型,其性能已可媲美上一代72B*参数的 Qwen2.5 模型。
这对本地部署非常有利,因为用户在资源有限的设备上也能获得过去需要超大模型才能实现的能力。
Qwen3 模型使用方法
一、在线使用
通义AI助手:
https://www.tongyi.com/qianwen/spm=5176.28326591.0.0.40f76ee1zBYunq
Chat Qwen:
https://chat.qwen.ai/
二、API调用
阿里云百炼平台
https://bailian.console.aliyun.com/console?tab=model#/model-market
在python中的调用方法:
import os
from openai import OpenAI
client = OpenAI(
# 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
# 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
model="qwen3-235b-a22b", # 改这里选模型型号
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你是谁?"},
],
# Qwen3模型通过enable_thinking参数控制思考过程(开源版默认True,商业版默认False)
# 使用Qwen3开源版模型时,若未启用流式输出,请将下行取消注释,否则会报错
# extra_body={"enable_thinking": False},
)
print(completion.model_dump_json())
**三、本地部署(**以ollama为例)
打开:https://ollama.com/,点击Models;
找到qwen3点开
点击右上角Download先下载ollama
等ollama安装完成后,打开命令提示符,并输入你要运行的模型指令
注意,此命令默认运行 GGUF格式Q4_K_M量化模型版本。
命令结束后,之后就可以运行模型并进行聊天了。
第一种方式是直接在终端使用:
如果想查看所有可以本地部署的不同参数量和量化精度的模型,可以点击Tags,同样的,将命令中的qwen3:4b改成对应的模型名称即可。
但是,在终端直接使用不够人性化,因此推荐大家搭配相关软件使用,
下面介绍第二种:在cherry studio软件使用本地模型的方案:
1、下载cherry studio软件
https://www.cherry-ai.com/
2、配置模型
打开软件,点击左下角设置-模型服务-ollama-管理
再点击默认模型,将默认助手模型选择成刚才配置的本地模型
最后,打开左上角的助手,添加新话题,就可以进行聊天了。
具体如何基于python调用本地/api形式的LLM并通过编程定义聊天UI,见下期内容~
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈