DeepSeek-V3重磅发布:性能暴增3倍,价格却只有其他大模型的1/5!深度解析与实测
- MMLU-Pro (EM)
全称:Massive Multitask Language Understanding Professional
评测内容:专业领域的多任务语言理解能力
EM (Exact Match):完全匹配的准确率
特点:比普通MMLU更专业,难度更高
- GPQA-Diamond (Pass@1)
全称:General Programming Questions Assessment
评测内容:通用编程问题解决能力
Pass@1:第一次尝试就通过的比率
特点:测试模型解决实际编程问题的能力