评测集名称 | 评测分类 | 支持语言 | 评测原理 | 官网地址 | 评测集内容 | 评测集指标 | 排行榜 | 备注 |
---|---|---|---|---|---|---|---|---|
EvalPlus | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | EvalPlus GitHub | HumanEval+(比原始HumanEval多80倍的测试用例)、 MBPP+(比原始MBPP多35倍的测试用例) | 信息未提供 | EvalPlus Leaderboard | |
LiveCodeBench | 综合代码能力 | 多种编程语言 | 通过代码生成、代码修正、代码执行和测试输出预测等任务的综合表现来评估模型的代码相关能力。 | LiveCodeBench | LiveCodeBench 收集了来自 LeetCode、AtCoder 和 Codeforces 等竞赛平台的新问题,确保评估的代码相关能力是最新和全面的。 | pass@1 and pass@5 | LiveCodeBench Leaderboard | 与EvalPlus类似,但更全面 |
BigCodeBench | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | bigcodebench | 用于通过代码解决实际和具有挑战性的任务。它旨在在更真实的环境中评估大型语言模型 (LLM) 的真实编程能力。该基准测试专为类似 HumanEval 的函数级代码生成任务而设计,但具有更复杂的指令和多样化的函数调用。 | Pass@1 | 排行榜 排行榜2 | |
Aider | 代码修复 | 多种编程语言(如Python、Java、C++等) | 通过修复代码中的错误并评估修复后的代码是否符合预期来评估模型的代码修复能力。 | 信息未提供 | 225个编程练习,这些练习是从Exercism平台中挑选的最难的题目,涵盖多种流行编程语言,以测试LLM的编码能力,以及它能否将新代码整合到现有代码中 | Percent completed correctly 和 Percent using correct edit format | 排行榜 | |
McEval | 多语言代码生成 | 40多种编程语言 | McEval是一个大规模多语言代码评测基准测试,覆盖40种编程语言并包含16K个测试样本,旨在推动代码大型语言模型(LLMs)在多语言场景下的发展。该基准测试包含具有挑战性的代码补全、理解和生成评估任务以及精心策划的大规模多语言指令语料库McEval-Instruct,以支持多语言编程语言生成 | 官网 | 信息未提供 | 排行榜 | ||
MdEval | 多语言代码修复 | 40多种编程语言 | 通过修复多种编程语言的代码错误并评估修复后的代码是否符合预期来评估模型的多语言代码修复能力。 | 官网 | 信息未提供 | 信息未提供 | 信息未提供 | |
Humaneval-Infilling | 代码补全与生成 | 多种编程语言 | 通过在代码中填充缺失部分并评估生成的代码是否符合预期来评估模型的代码补全和生成能力。 | HumanEval-Infilling GitHub | 信息未提供 | 信息未提供 | 信息未提供 | |
CrossCodeEval | 代码补全与生成 | 多种编程语言 | 通过在代码中填充缺失部分并评估生成的代码是否符合预期来评估模型的代码补全和生成能力。 | 官网 | 建立在一组多样化的现实世界、开源、许可许可的存储库上,采用四种流行的编程语言:Python、Java、TypeScript 和 C#。 | 信息未提供 | 信息未提供 | CrossCodeEval 是一个多语言、多样化的代码补全基准,需要深入的跨文件上下文理解才能准确地完成代码 |
CrossCodeLongEval | 代码补全与生成 | 多种编程语言 | 通过在长代码片段中填充缺失部分并评估生成的代码是否符合预期来评估模型的长代码片段补全和生成能力。 | Code Match 和 Identifier Match | 信息未提供 | 信息未提供 | 信息未提供 | 使用不多 |
RepoEval | 代码补全与生成 | 多种编程语言 | 通过在实际代码库中进行代码补全和生成任务并评估生成的代码是否符合预期来评估模型的实际应用能力。 | 官网 | RepoEval是一个用于评估存储库级别代码自动补全系统的基准测试,它使用从GitHub获取的最新高质量存储库,并包含了三个级别的代码补全粒度:行、API调用和函数体。评估已补全函数的正确性时,利用存储库中的单元测试,而不仅仅依赖于基于相似性的指标。 | 信息未提供 | 信息未提供 | |
SAFIM | 代码补全与生成 | 多种编程语言 | 通过一次性执行生成的代码并评估其成功率来评估模型的代码补全和生成能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 | |
HumanEval | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | 官方地址 | 一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力 | Pass@k | 排行榜 | 其他介绍,单一问题解决能力 |
MBPP | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | 官方网站 | 约1000个众包Python编程问题,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。每个问题包括任务描述、代码解决方案和3个自动化测试用例 | Pass@k | 信息未提供 | |
MultiPL-E | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 | |
CRUXEval-O Cot | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 | |
Fill-in-the-Middle Average (Python, Java, JS) | 代码补全与生成 | Python, Java, JavaScript | 通过在代码中填充缺失部分并评估生成的代码是否符合预期来评估模型的代码补全和生成能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 | |
GSM8K | 数学问题解决 | Python | 通过解决数学问题并评估生成的代码是否正确来评估模型的数学问题解决能力。 | 信息未提供 | 一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力 | 得分 | 排行榜 | |
MATH | 数学问题解决 | Python | 通过解决数学问题并评估生成的代码是否正确来评估模型的数学问题解决能力。 | 信息未提供 | 信息未提供 | 得分 | 信息未提供 | |
MMLU | 多语言理解 | 多种编程语言 | 通过评估模型对多种编程语言的理解能力来评估模型的多语言理解能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 | |
Spider | 数据库查询生成 | SQL | 通过生成数据库查询语句并评估其正确性来评估模型的数据库查询生成能力。 | 信息未提供 | 信息未提供 | Component Matching、Exact Matching、Execution Acc | 信息未提供 | |
BIRD-SQL | 数据库查询生成 | SQL | 通过生成数据库查询语句并评估其正确性来评估模型的数据库查询生成能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 | |
CodeArena vs. GPT4 Turbo 0.0.1 | 代码生成 | 多种编程语言 | 通过生成代码的正确性和完整性来评估模型的代码生成能力。 | 信息未提供 | 信息未提供 | 信息未提供 | 信息未提供 |
其余参考 https://www.datalearner.com/ai-models/llm-benchmark-tests/