Deepseek到底强在什么地方?

       找了Deepseek和Qwen,Llama,Claude,GPT的综合能力对比表,除了红色部分Claude和GPT-4o没对外官宣,其余数据均来源Deepseek官网数据,为了便于快速理解,对能力测试项进行了中引文标注和英文缩写解释。

项目DeepSeek V3DeepSeek V2.5Qwen2.5Llama3.1Claude-3.5GPT-4o
架构<br>ArchitectureMoE(Mixture of Experts,专家混合)MoE(Mixture of Experts,专家混合)Dense(密集)Dense(密集)Dense(密集)Dense(密集)
激活参数量<br>Activated Parameters37B21B72B405B175B+200B+
总参数量<br>Total Parameters671B236B72B405B175B+200B+
英文能力<br>English Capability
MMLU(EM)<br>Multi-choice Multi-Subject Test(多学科多项选择题)88.580.685.388.688.387.2
MMLU-Redux(EM)<br>Reduced Version of MMLU(简化版多学科测试)89.180.385.686.288.988.0
MMLU-Pro(EM)<br>Professional Version of MMLU(专业版多学科测试)75.966.271.673.378.072.6
DROP(3-shot F1)<br>Reading Comprehension Test(阅读理解测试)91.687.876.788.788.383.7
代码能力<br>Code Capability
HumanEval-Mul(Pass@1)<br>Code Generation Test(代码生成测试)82.677.477.377.281.780.5
LiveCodeBench(Pass@1-COT)<br>Live Code Evaluation(实时代码评估)40.529.231.128.436.333.4
数学能力<br>Math Capability
AIME 2024(Pass@1)<br>American Invitational Mathematics Examination(美国邀请赛数学考试)39.216.723.323.316.09.3
MATH-500(EM)<br>Math Problem Solving Test(数学问题解决测试)90.274.780.073.878.374.6
中文能力<br>Chinese Capability
CLUEWSC(EM)<br>Chinese Language Understanding Evaluation(中文理解评估)90.990.491.484.785.487.9
C-Eval(EM)<br>Chinese Academic Evaluation(中文学术评估)86.579.586.161.576.776.0

项目解释

  1. 架构(Architecture):模型的内部结构。MoE 是一种混合专家架构,架构将模型划分为多个“专家”(子网络),每个输入仅激活部分专家,通过路由机制动态分配任务,适合高效计算;Dense 是传统的密集架构,模型中的所有参数对每个输入都完全激活,即每个神经元都会参与计算。

  2. 激活参数量(Activated Parameters):模型在运行时实际使用的参数量,MoE有效。

  3. 总参数量(Total Parameters):模型的总参数规模。

  4. EM(Exact Match):完全匹配率,用于评估模型生成的答案与标准答案完全一致的比例。

  5. F1 Score:用于阅读理解任务,衡量模型生成答案与标准答案的匹配程度。

  6. Pass@1:代码生成任务中,模型生成的代码首次运行通过的比例。

  7. COT(Chain of Thought):思维链,用于评估模型在复杂任务中的推理能力。

测试结果分析

测试结果逐项打分,都是标准测试,测试和结果均可重复验证,下面对结果进行逐项分析

1. 模型基本信息

  • DeepSeek V3 和 DeepSeek V2.5 是基于 MoE(Mixture of Experts)架构 的模型,而 Qwen2.5 和 Llama3.1 是基于 Dense(密集)架构 的模型。

  • 激活参数量(# Activated Params) 和 总参数量(# Total Params) 反映了模型的规模。DeepSeek V3 的总参数量最大(671B),而 Qwen2.5 和 Llama3.1 的激活参数量分别为 72B 和 405B。


2. 英语能力测试

  • MMLU (EM):测试模型在多项选择题上的表现,涵盖 57 个学科领域。DeepSeek V3 和 Llama3.1 表现最佳(88.5 和 88.6)。

  • MMLU-Redux (EM):MMLU 的简化版本,DeepSeek V3 和 Claude-3.5 表现较好(89.1 和 88.9)。

  • MMLU-Pro (EM):更难的 MMLU 版本,Claude-3.5 领先(78.0),DeepSeek V3 紧随其后(75.9)。

  • DROP (3-shot F1):测试模型在阅读理解任务中的表现,DeepSeek V3 表现最佳(91.6)。

  • IF-Eval (Prompt Strict):评估模型遵循指令的能力,DeepSeek V3 和 Claude-3.5 表现接近(86.1 和 86.5)。

  • GPQA-Diamond (Pass@1):测试模型在复杂科学问题上的表现,Claude-3.5 领先(65.0),DeepSeek V3 次之(59.1)。

  • SimpleQA (Correct):测试简单问答任务的表现,GPT-4o 表现最佳(38.2),DeepSeek V3 次之(24.9)。

  • FRAMES (Acc.):测试对话任务中的准确性,GPT-4o 表现最佳(80.5),DeepSeek V3 次之(73.3)。

  • LongBench v2 (Acc.):测试长文本理解能力,DeepSeek V3 和 GPT-4o 表现接近(48.7 和 48.1)。


3. 代码能力测试

  • HumanEval-Mul (Pass@1):测试模型在代码生成任务中的表现,DeepSeek V3 领先(82.6)。

  • LiveCodeBench (Pass@1-COT):测试模型在代码生成任务中的表现(使用 Chain-of-Thought 推理),DeepSeek V3 表现最佳(40.5)。

  • LiveCodeBench (Pass@1):测试模型在代码生成任务中的表现(无推理),DeepSeek V3 依然领先(37.6)。

  • Codeforces (Percentile):测试模型在编程竞赛问题上的表现,DeepSeek V3 表现最佳(51.6)。

  • SWE Verified (Resolved):测试模型在软件工程任务中的表现,Claude-3.5 领先(50.8),DeepSeek V3 次之(42.0)。

  • Aider-Edit (Acc.):测试模型在代码编辑任务中的表现,Claude-3.5 表现最佳(84.2),DeepSeek V3 次之(79.7)。

  • Aider-Polyglot (Acc.):测试模型在多语言代码编辑任务中的表现,Claude-3.5 领先(45.3),DeepSeek V3 次之(49.6)。


4. 数学能力测试

  • AIME 2024 (Pass@1):测试模型在数学竞赛问题上的表现,DeepSeek V3 表现最佳(39.2)。

  • MATH-500 (EM):测试模型在数学问题上的表现,DeepSeek V3 领先(90.2)。

  • CNMO 2024 (Pass@1):测试模型在中文数学竞赛问题上的表现,DeepSeek V3 表现最佳(43.2)。


5. 中文能力测试

  • CLUEWSC (EM):测试模型在中文语义理解任务中的表现,Qwen2.5 表现最佳(91.4),DeepSeek V3 次之(90.9)。

  • C-Eval (EM):测试模型在中文多项选择题上的表现,DeepSeek V3 和 Qwen2.5 表现接近(86.5 和 86.1)。

  • C-SimpleQA (Correct):测试模型在中文简单问答任务中的表现,DeepSeek V3 表现最佳(64.1)。

结论

  • DeepSeek V3 在大多数测试项中表现优异,尤其是在代码生成、数学问题和中文能力方面。

  • Claude-3.5 在复杂科学问题(GPQA-Diamond)和代码编辑任务(Aider-Edit)中表现突出。

  • GPT-4o 在简单问答(SimpleQA)和长文本理解(LongBench v2)中表现较好。

  • Qwen2.5 和 Llama3.1 在某些特定任务(如中文语义理解)中也有不错的表现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值