DeepSeek发布V3.2系列模型，性能媲美GPT-5与Gemini

最新推荐文章于 2025-12-16 17:08:08 发布

原创最新推荐文章于 2025-12-16 17:08:08 发布 · 1.2k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#gpt

前沿技术专栏收录该内容

6 篇文章

订阅专栏

12月1日，深度求索（DeepSeek）正式开源 DeepSeek-V3.2 与 V3.2-Speciale 两款大语言模型。它们不仅在国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）中达成“金牌级”自动解题能力，更在多项权威基准上追平 GPT-5，甚至在推理任务上超越它、比肩 Gemini-3.0-Pro。

两款模型有着不同的定位:

DeepSeek-V3.2的目标是平衡推理能力与输出长度，适合日常使用，例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp，此次是正式版更新。在公开推理测试中，V3.2达到了GPT-5的水平，仅略低于谷歌的Gemini3 Pro。

DeepSeek-V3.2-Speciale则是此次的重头戏，其目标是“将开源模型的推理能力推向极致，探索模型能力的边界”。据介绍，Speciale是V3.2的长思考增强版，同时结合了DeepSeek-Math-V2的定理证明能力，该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。超越了 GPT-5，并在推理能力上与 Gemini-3.0-Pro 相当。

本次发布的模型突破了三个关键技术点：高效的稀疏注意力机制（DSA）、可扩展的强化学习训练框架，以及大规模智能体任务合成流水线。

一、DSA：让长上下文“又快又准”的稀疏注意力机制

处理 128K 上下文，传统 Transformer 的 O(L²) 注意力机制会迅速吃光显存，拖慢推理速度。
DeepSeek-V3.2 引入自研的 DeepSeek Sparse Attention（DSA），巧妙解决这一难题。

DSA 核心由两部分组成：

闪电索引器：用极少量轻量头（支持 FP8）快速判断哪些历史 token 与当前查询最相关；
细粒度 Top-k 选择：仅保留 2048 个关键 key-value 对参与计算，将复杂度从 O(L²) 降至 O(L·k)。

更关键的是，DSA 并非简单“剪枝”，而是通过两阶段训练（先 KL 对齐密集注意力分布，再端到端稀疏微调），确保性能无损甚至略有提升。在 AA-LCR3、Fiction.liveBench 等长文本推理任务中，V3.2 表现优于前代模型。

在DSA机制的加持下，128K的序列推理成本可以降低60%以上，并且让推理速度提升约3.5倍速度，内存占用则减少70%，同时模型本身的性能没有明显下降，可以说从根本上改变了AI大模型在注意力领域的表现。

根据官方提供的数据，在H800集群上进行AI模型测试时，在序列长度达到128K时，预填充阶段每百万token的成本从0.7美元降到了0.2美元左右，解码阶段则是从2.4美元降到了0.8美元，让DeepSeek V3.2可能成为同级别AI大模型里长文本推理成本最低的模型。

二、可扩展强化学习：RL 预算超预训练 10%，释放推理极限

多数开源模型止步于监督微调（SFT），但 DeepSeek-V3.2 把强化学习（RL）后训练预算提升至预训练成本的 10% 以上。

基于自研的 Scaling GRPO 算法，团队引入多项稳定性优化：

无偏 KL 正则化，避免低概率 token 被过度优化；
离策略序列掩码，过滤高 KL 散度的噪声样本；
Keep Routing 机制，确保 MoE 模型训练与推理路由一致。

这套框架支持数学、代码、Agent、对齐等多任务联合 RL，避免灾难性遗忘。

效果立竿见影：V3.2 在 AIME、HMMT、GPQA Diamond 上达到 GPT-5 水平；而 V3.2-Speciale 更在 IMO、CMO、ICPC 等竞赛中实现无需专门训练的金牌表现——这不仅是性能突破，更是对“开源能否挑战人类最高智力活动”的有力回应。

三、智能体任务合成流水线：让模型学会“边想边做”

过去，开源模型在工具调用、代码执行、网页操作等 Agent 任务中明显落后。
DeepSeek 的解法是：自己造数据，自己练模型。

团队构建了一套端到端智能体任务合成流水线，自动生成：

1827 个可验证环境（含 Bash、搜索、数据库、代码解释器等工具）；
85,000+ 复杂任务提示（如“三天旅行预算规划”“GitHub 代码修复”）。

每个任务都配有自动生成的解决方案与验证函数，确保模型只能通过工具调用完成任务，且结果可自动判对。

基于此，DeepSeek-V3.2 首次在开源社区实现 “思考内嵌工具调用”（Thinking-Integrated Tool Use）：模型可在推理链任意步骤自主调用工具，并基于结果继续思考——真正从“聊天助手”进化为“智能执行者”。

在 MCP-Universe、BrowseComp、SWE-bench Verified 等未见过的 Agent 基准上，V3.2 显著优于其他开源模型，证明其具备强大的域外泛化能力。

DeepSeek-V3.2 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

大模型相关课程：

1	一	1.大模型的发展与局限性
2	二	1.1 ollama本地快速部署deepseek
3		1.2 linux本地部署deepseek千问蒸馏版+web对话聊天
4		1.3 linux本地部署通义万相2.1+deepseek视频生成
5		1.4 Qwen2.5-Omni全模态大模型部署
6		1.5 Stable Diffusion中文文生图模型部署
7		1.6 DeepSeek-OCR部署尝鲜
8		2.1 从零训练自己的大模型概述
9		2.2 分词器
10		2.3 预训练自己的模型
11		2.4 微调自己的模型
12		2.5 人类对齐训练自己的模型
13		3.1 微调训练详解
14		3.2 Llama-Factory微调训练deepseek-r1实践
15		3.3 transform+LoRA代码微调deepseek实践
16		4.1 文生图（Text-to-Image）模型发展史
17		4.2 文生图GUI训练实践-真人写实生成
18		4.3 文生图代码训练实践-真人写实生成
19		5.1 文生视频（Text-to-Video）模型发展史
20		5.2 文生视频（Text-to-Video）模型训练实践
21		6.1 目标检测模型的发展史
22		6.2 YOLO模型训练实践及目标跟踪
23	三	1.1 Dify介绍
24		1.2 Dify安装
25		1.3 Dify文本生成快速搭建旅游助手
26		1.4 Dify聊天助手快速搭建智能淘宝店小二
27		1.5 Dify agent快速搭建爬虫助手
28		1.6 Dify工作流快速搭建数据可视化助手
29		1.7 Dify chatflow快速搭建数据查询智能助手
30		2.1 RAG介绍
31		2.2 Spring AI-手动实现RAG
32		2.3 Spring AI-开箱即用完整实践RAG
33		2.4 LlamaIndex实现RAG
34		2.5 LlamaIndex构建RAG优化与实践
35		2.6 LangChain实现RAG企业知识问答助手