DeepSeek发布V3.2系列模型,性能媲美GPT-5与Gemini

        12月1日,深度求索(DeepSeek)正式开源 DeepSeek-V3.2 与 V3.2-Speciale 两款大语言模型。它们不仅在 国际数学奥林匹克(IMO) 和 国际信息学奥林匹克(IOI) 中达成“金牌级”自动解题能力,更在多项权威基准上 追平 GPT-5,甚至在推理任务上超越它、比肩 Gemini-3.0-Pro。

两款模型有着不同的定位:

        DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此次是正式版更新。在公开推理测试中,V3.2达到了GPT-5的水平,仅略低于谷歌的Gemini3 Pro。

        DeepSeek-V3.2-Speciale则是此次的重头戏,其目标是“将开源模型的推理能力推向极致,探索模型能力的边界”。据介绍,Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。超越了 GPT-5,并在推理能力上与 Gemini-3.0-Pro 相当。

        本次发布的模型突破了三个关键技术点:高效的稀疏注意力机制(DSA)、可扩展的强化学习训练框架,以及大规模智能体任务合成流水线。


一、DSA:让长上下文“又快又准”的稀疏注意力机制

处理 128K 上下文,传统 Transformer 的 O(L²) 注意力机制会迅速吃光显存,拖慢推理速度。
DeepSeek-V3.2 引入自研的 DeepSeek Sparse Attention(DSA),巧妙解决这一难题。

DSA 核心由两部分组成:

  • 闪电索引器:用极少量轻量头(支持 FP8)快速判断哪些历史 token 与当前查询最相关;

  • 细粒度 Top-k 选择:仅保留 2048 个关键 key-value 对参与计算,将复杂度从 O(L²) 降至 O(L·k)。

更关键的是,DSA 并非简单“剪枝”,而是通过 两阶段训练(先 KL 对齐密集注意力分布,再端到端稀疏微调),确保性能无损甚至略有提升。在 AA-LCR3、Fiction.liveBench 等长文本推理任务中,V3.2 表现优于前代模型。

在DSA机制的加持下,128K的序列推理成本可以降低60%以上,并且让推理速度提升约3.5倍速度,内存占用则减少70%,同时模型本身的性能没有明显下降,可以说从根本上改变了AI大模型在注意力领域的表现。

根据官方提供的数据,在H800集群上进行AI模型测试时,在序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段则是从2.4美元降到了0.8美元,让DeepSeek V3.2可能成为同级别AI大模型里长文本推理成本最低的模型。


二、可扩展强化学习:RL 预算超预训练 10%,释放推理极限

多数开源模型止步于监督微调(SFT),但 DeepSeek-V3.2 把 强化学习(RL)后训练预算提升至预训练成本的 10% 以上。

基于自研的 Scaling GRPO 算法,团队引入多项稳定性优化:

  • 无偏 KL 正则化,避免低概率 token 被过度优化;

  • 离策略序列掩码,过滤高 KL 散度的噪声样本;

  • Keep Routing 机制,确保 MoE 模型训练与推理路由一致。

这套框架支持 数学、代码、Agent、对齐等多任务联合 RL,避免灾难性遗忘。

效果立竿见影:V3.2 在 AIME、HMMT、GPQA Diamond 上达到 GPT-5 水平;而 V3.2-Speciale 更在 IMO、CMO、ICPC 等竞赛中实现无需专门训练的金牌表现——这不仅是性能突破,更是对“开源能否挑战人类最高智力活动”的有力回应。


三、智能体任务合成流水线:让模型学会“边想边做”

过去,开源模型在工具调用、代码执行、网页操作等 Agent 任务中明显落后。
DeepSeek 的解法是:自己造数据,自己练模型。

团队构建了一套 端到端智能体任务合成流水线,自动生成:

  • 1827 个可验证环境(含 Bash、搜索、数据库、代码解释器等工具);

  • 85,000+ 复杂任务提示(如“三天旅行预算规划”“GitHub 代码修复”)。

每个任务都配有自动生成的解决方案与验证函数,确保模型只能通过工具调用完成任务,且结果可自动判对。

基于此,DeepSeek-V3.2 首次在开源社区实现 “思考内嵌工具调用”(Thinking-Integrated Tool Use):模型可在推理链任意步骤自主调用工具,并基于结果继续思考——真正从“聊天助手”进化为“智能执行者”。

在 MCP-Universe、BrowseComp、SWE-bench Verified 等未见过的 Agent 基准上,V3.2 显著优于其他开源模型,证明其具备强大的域外泛化能力。

DeepSeek-V3.2 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

 大模型相关课程:

11.大模型的发展与局限性
21.1 ollama本地快速部署deepseek
31.2 linux本地部署deepseek千问蒸馏版+web对话聊天
41.3 linux本地部署通义万相2.1+deepseek视频生成
51.4 Qwen2.5-Omni全模态大模型部署
61.5 Stable Diffusion中文文生图模型部署
71.6 DeepSeek-OCR部署尝鲜
82.1 从零训练自己的大模型概述
92.2 分词器
102.3 预训练自己的模型
112.4 微调自己的模型
122.5 人类对齐训练自己的模型
133.1 微调训练详解
143.2 Llama-Factory微调训练deepseek-r1实践
153.3 transform+LoRA代码微调deepseek实践
164.1 文生图(Text-to-Image)模型发展史
174.2 文生图GUI训练实践-真人写实生成
184.3 文生图代码训练实践-真人写实生成
195.1 文生视频(Text-to-Video)模型发展史
205.2 文生视频(Text-to-Video)模型训练实践
216.1 目标检测模型的发展史
226.2 YOLO模型训练实践及目标跟踪
231.1 Dify介绍
241.2 Dify安装
251.3 Dify文本生成快速搭建旅游助手
261.4 Dify聊天助手快速搭建智能淘宝店小二
271.5 Dify agent快速搭建爬虫助手
281.6 Dify工作流快速搭建数据可视化助手
291.7 Dify chatflow快速搭建数据查询智能助手
302.1 RAG介绍
312.2 Spring AI-手动实现RAG
322.3 Spring AI-开箱即用完整实践RAG
332.4 LlamaIndex实现RAG
342.5 LlamaIndex构建RAG优化与实践
352.6 LangChain实现RAG企业知识问答助手
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hay_lee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值