找了Deepseek和Qwen,Llama,Claude,GPT的综合能力对比表,除了红色部分Claude和GPT-4o没对外官宣,其余数据均来源Deepseek官网数据,为了便于快速理解,对能力测试项进行了中引文标注和英文缩写解释。
项目 | DeepSeek V3 | DeepSeek V2.5 | Qwen2.5 | Llama3.1 | Claude-3.5 | GPT-4o |
---|---|---|---|---|---|---|
架构<br>Architecture | MoE(Mixture of Experts,专家混合) | MoE(Mixture of Experts,专家混合) | Dense(密集) | Dense(密集) | Dense(密集) | Dense(密集) |
激活参数量<br>Activated Parameters | 37B | 21B | 72B | 405B | 175B+ | 200B+ |
总参数量<br>Total Parameters | 671B | 236B | 72B | 405B | 175B+ | 200B+ |
英文能力<br>English Capability | ||||||
MMLU(EM)<br>Multi-choice Multi-Subject Test(多学科多项选择题) | 88.5 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 |
MMLU-Redux(EM)<br>Reduced Version of MMLU(简化版多学科测试) | 89.1 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 |
MMLU-Pro(EM)<br>Professional Version of MMLU(专业版多学科测试) | 75.9 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 |
DROP(3-shot F1)<br>Reading Comprehension Test(阅读理解测试) | 91.6 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 |
代码能力<br>Code Capability | ||||||
HumanEval-Mul(Pass@1)<br>Code Generation Test(代码生成测试) | 82.6 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 |
LiveCodeBench(Pass@1-COT)<br>Live Code Evaluation(实时代码评估) | 40.5 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 |
数学能力<br>Math Capability | ||||||
AIME 2024(Pass@1)<br>American Invitational Mathematics Examination(美国邀请赛数学考试) | 39.2 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 |
MATH-500(EM)<br>Math Problem Solving Test(数学问题解决测试) | 90.2 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 |
中文能力<br>Chinese Capability | ||||||
CLUEWSC(EM)<br>Chinese Language Understanding Evaluation(中文理解评估) | 90.9 | 90.4 | 91.4 | 84.7 | 85.4 | 87.9 |
C-Eval(EM)<br>Chinese Academic Evaluation(中文学术评估) | 86.5 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 |
项目解释
-
架构(Architecture):模型的内部结构。MoE 是一种混合专家架构,架构将模型划分为多个“专家”(子网络),每个输入仅激活部分专家,通过路由机制动态分配任务,适合高效计算;Dense 是传统的密集架构,模型中的所有参数对每个输入都完全激活,即每个神经元都会参与计算。
-
激活参数量(Activated Parameters):模型在运行时实际使用的参数量,MoE有效。
-
总参数量(Total Parameters):模型的总参数规模。
-
EM(Exact Match):完全匹配率,用于评估模型生成的答案与标准答案完全一致的比例。
-
F1 Score:用于阅读理解任务,衡量模型生成答案与标准答案的匹配程度。
-
Pass@1:代码生成任务中,模型生成的代码首次运行通过的比例。
-
COT(Chain of Thought):思维链,用于评估模型在复杂任务中的推理能力。
测试结果分析
测试结果逐项打分,都是标准测试,测试和结果均可重复验证,下面对结果进行逐项分析
1. 模型基本信息
-
DeepSeek V3 和 DeepSeek V2.5 是基于 MoE(Mixture of Experts)架构 的模型,而 Qwen2.5 和 Llama3.1 是基于 Dense(密集)架构 的模型。
-
激活参数量(# Activated Params) 和 总参数量(# Total Params) 反映了模型的规模。DeepSeek V3 的总参数量最大(671B),而 Qwen2.5 和 Llama3.1 的激活参数量分别为 72B 和 405B。
2. 英语能力测试
-
MMLU (EM):测试模型在多项选择题上的表现,涵盖 57 个学科领域。DeepSeek V3 和 Llama3.1 表现最佳(88.5 和 88.6)。
-
MMLU-Redux (EM):MMLU 的简化版本,DeepSeek V3 和 Claude-3.5 表现较好(89.1 和 88.9)。
-
MMLU-Pro (EM):更难的 MMLU 版本,Claude-3.5 领先(78.0),DeepSeek V3 紧随其后(75.9)。
-
DROP (3-shot F1):测试模型在阅读理解任务中的表现,DeepSeek V3 表现最佳(91.6)。
-
IF-Eval (Prompt Strict):评估模型遵循指令的能力,DeepSeek V3 和 Claude-3.5 表现接近(86.1 和 86.5)。
-
GPQA-Diamond (Pass@1):测试模型在复杂科学问题上的表现,Claude-3.5 领先(65.0),DeepSeek V3 次之(59.1)。
-
SimpleQA (Correct):测试简单问答任务的表现,GPT-4o 表现最佳(38.2),DeepSeek V3 次之(24.9)。
-
FRAMES (Acc.):测试对话任务中的准确性,GPT-4o 表现最佳(80.5),DeepSeek V3 次之(73.3)。
-
LongBench v2 (Acc.):测试长文本理解能力,DeepSeek V3 和 GPT-4o 表现接近(48.7 和 48.1)。
3. 代码能力测试
-
HumanEval-Mul (Pass@1):测试模型在代码生成任务中的表现,DeepSeek V3 领先(82.6)。
-
LiveCodeBench (Pass@1-COT):测试模型在代码生成任务中的表现(使用 Chain-of-Thought 推理),DeepSeek V3 表现最佳(40.5)。
-
LiveCodeBench (Pass@1):测试模型在代码生成任务中的表现(无推理),DeepSeek V3 依然领先(37.6)。
-
Codeforces (Percentile):测试模型在编程竞赛问题上的表现,DeepSeek V3 表现最佳(51.6)。
-
SWE Verified (Resolved):测试模型在软件工程任务中的表现,Claude-3.5 领先(50.8),DeepSeek V3 次之(42.0)。
-
Aider-Edit (Acc.):测试模型在代码编辑任务中的表现,Claude-3.5 表现最佳(84.2),DeepSeek V3 次之(79.7)。
-
Aider-Polyglot (Acc.):测试模型在多语言代码编辑任务中的表现,Claude-3.5 领先(45.3),DeepSeek V3 次之(49.6)。
4. 数学能力测试
-
AIME 2024 (Pass@1):测试模型在数学竞赛问题上的表现,DeepSeek V3 表现最佳(39.2)。
-
MATH-500 (EM):测试模型在数学问题上的表现,DeepSeek V3 领先(90.2)。
-
CNMO 2024 (Pass@1):测试模型在中文数学竞赛问题上的表现,DeepSeek V3 表现最佳(43.2)。
5. 中文能力测试
-
CLUEWSC (EM):测试模型在中文语义理解任务中的表现,Qwen2.5 表现最佳(91.4),DeepSeek V3 次之(90.9)。
-
C-Eval (EM):测试模型在中文多项选择题上的表现,DeepSeek V3 和 Qwen2.5 表现接近(86.5 和 86.1)。
-
C-SimpleQA (Correct):测试模型在中文简单问答任务中的表现,DeepSeek V3 表现最佳(64.1)。
结论
-
DeepSeek V3 在大多数测试项中表现优异,尤其是在代码生成、数学问题和中文能力方面。
-
Claude-3.5 在复杂科学问题(GPQA-Diamond)和代码编辑任务(Aider-Edit)中表现突出。
-
GPT-4o 在简单问答(SimpleQA)和长文本理解(LongBench v2)中表现较好。
-
Qwen2.5 和 Llama3.1 在某些特定任务(如中文语义理解)中也有不错的表现。