代码大模型评测集汇总

评测集名称评测分类支持语言评测原理官网地址评测集内容评测集指标排行榜备注
EvalPlus代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。EvalPlus GitHubHumanEval+(比原始HumanEval多80倍的测试用例)、 MBPP+(比原始MBPP多35倍的测试用例)信息未提供EvalPlus Leaderboard
LiveCodeBench综合代码能力多种编程语言通过代码生成、代码修正、代码执行和测试输出预测等任务的综合表现来评估模型的代码相关能力。LiveCodeBenchLiveCodeBench 收集了来自 LeetCode、AtCoder 和 Codeforces 等竞赛平台的新问题,确保评估的代码相关能力是最新和全面的。pass@1 and pass@5LiveCodeBench Leaderboard与EvalPlus类似,但更全面
BigCodeBench代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。bigcodebench用于通过代码解决实际和具有挑战性的任务。它旨在在更真实的环境中评估大型语言模型 (LLM) 的真实编程能力。该基准测试专为类似 HumanEval 的函数级代码生成任务而设计,但具有更复杂的指令和多样化的函数调用。Pass@1排行榜 排行榜2
Aider代码修复多种编程语言(如Python、Java、C++等)通过修复代码中的错误并评估修复后的代码是否符合预期来评估模型的代码修复能力。信息未提供225个编程练习,这些练习是从Exercism平台中挑选的最难的题目,涵盖多种流行编程语言,以测试LLM的编码能力,以及它能否将新代码整合到现有代码中Percent completed correctly 和 Percent using correct edit format排行榜
McEval多语言代码生成40多种编程语言McEval是一个大规模多语言代码评测基准测试,覆盖40种编程语言并包含16K个测试样本,旨在推动代码大型语言模型(LLMs)在多语言场景下的发展。该基准测试包含具有挑战性的代码补全、理解和生成评估任务以及精心策划的大规模多语言指令语料库McEval-Instruct,以支持多语言编程语言生成官网信息未提供排行榜
MdEval多语言代码修复40多种编程语言通过修复多种编程语言的代码错误并评估修复后的代码是否符合预期来评估模型的多语言代码修复能力。官网信息未提供信息未提供信息未提供
Humaneval-Infilling代码补全与生成多种编程语言通过在代码中填充缺失部分并评估生成的代码是否符合预期来评估模型的代码补全和生成能力。HumanEval-Infilling GitHub信息未提供信息未提供信息未提供
CrossCodeEval代码补全与生成多种编程语言通过在代码中填充缺失部分并评估生成的代码是否符合预期来评估模型的代码补全和生成能力。官网建立在一组多样化的现实世界、开源、许可许可的存储库上,采用四种流行的编程语言:Python、Java、TypeScript 和 C#。信息未提供信息未提供CrossCodeEval 是一个多语言、多样化的代码补全基准,需要深入的跨文件上下文理解才能准确地完成代码
CrossCodeLongEval代码补全与生成多种编程语言通过在长代码片段中填充缺失部分并评估生成的代码是否符合预期来评估模型的长代码片段补全和生成能力。Code Match 和 Identifier Match信息未提供信息未提供信息未提供使用不多
RepoEval代码补全与生成多种编程语言通过在实际代码库中进行代码补全和生成任务并评估生成的代码是否符合预期来评估模型的实际应用能力。官网RepoEval是一个用于评估存储库级别代码自动补全系统的基准测试,它使用从GitHub获取的最新高质量存储库,并包含了三个级别的代码补全粒度:行、API调用和函数体。评估已补全函数的正确性时,利用存储库中的单元测试,而不仅仅依赖于基于相似性的指标。信息未提供信息未提供
SAFIM代码补全与生成多种编程语言通过一次性执行生成的代码并评估其成功率来评估模型的代码补全和生成能力。信息未提供信息未提供信息未提供信息未提供
HumanEval代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。官方地址一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力Pass@k排行榜其他介绍,单一问题解决能力
MBPP代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。官方网站约1000个众包Python编程问题,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。每个问题包括任务描述、代码解决方案和3个自动化测试用例Pass@k信息未提供
MultiPL-E代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。信息未提供信息未提供信息未提供信息未提供
CRUXEval-O Cot代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。信息未提供信息未提供信息未提供信息未提供
Fill-in-the-Middle Average (Python, Java, JS)代码补全与生成Python, Java, JavaScript通过在代码中填充缺失部分并评估生成的代码是否符合预期来评估模型的代码补全和生成能力。信息未提供信息未提供信息未提供信息未提供
GSM8K数学问题解决Python通过解决数学问题并评估生成的代码是否正确来评估模型的数学问题解决能力。信息未提供一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力得分排行榜
MATH数学问题解决Python通过解决数学问题并评估生成的代码是否正确来评估模型的数学问题解决能力。信息未提供信息未提供得分信息未提供
MMLU多语言理解多种编程语言通过评估模型对多种编程语言的理解能力来评估模型的多语言理解能力。信息未提供信息未提供信息未提供信息未提供
Spider数据库查询生成SQL通过生成数据库查询语句并评估其正确性来评估模型的数据库查询生成能力。信息未提供信息未提供Component Matching、Exact Matching、Execution Acc信息未提供
BIRD-SQL数据库查询生成SQL通过生成数据库查询语句并评估其正确性来评估模型的数据库查询生成能力。信息未提供信息未提供信息未提供信息未提供
CodeArena vs. GPT4 Turbo 0.0.1代码生成多种编程语言通过生成代码的正确性和完整性来评估模型的代码生成能力。信息未提供信息未提供信息未提供信息未提供

其余参考 https://www.datalearner.com/ai-models/llm-benchmark-tests/

### 大模型问答系统的性能评估 #### 性能评测方法 对于大语言模型(LLM),尤其是应用于问答系统中的模型,其性能评测可以从多个维度展开。不同于传统的软件测试方式,针对 LLM 的测试更倾向于依据特定的标准和指标来进行评价[^1]。 准确性测试是衡量 LLM 表现的重要组成部分之一。这一过程不仅关注于模型能否给出正确的答案,还涉及到对错误类型的深入分析以及理解模型在不同场景下的表现差异。为了全面评估准确性,通常会设计一系列具有代表性的测试案例覆盖各种可能的情况,并统计模型的回答质量。 除了准确性之外,其他重要的考量因素还包括但不限于响应时间、上下文理解和推理能力等方面。这些方面共同构成了一个完整的性能画像,有助于识别潜在的问题领域并指导后续优化工作。 #### 关键性能指标 常见的三大类指标涵盖了: - **准确性**:这是指模型提供正确答案的比例。可以通过对比预测结果与真实标签之间的匹配程度来量化该值。 - **一致性**:指的是当输入相似问题时,模型能够稳定地返回相近的结果;即使面对细微的变化也保持逻辑连贯性和语义一致性[^4]。 - **鲁棒性**:即系统对外部干扰或异常情况的抵抗能力。这包括处理噪声数据的能力,在不常见词汇面前的表现等特性[^3]。 #### 使用工具和技术手段 微调预训练好的大型语言模型可以显著提升其在特定任务上的效能。为此目的开发了一系列专用工具链支持整个流程——从准备定制化的训练集直至最终部署上线前的各项验证活动。例如,在医疗健康领域内利用 NCBI 数据库资源完成针对性改进就是一个典型实例。 此外,非回归测试作为一种有效的策略被广泛采纳用来监控版本迭代过程中是否存在退化现象发生。具体做法是在每次更新前后执行相同的基准测试套件并将所得分数加以比较从而及时发现任何不利变动趋势。 #### 最佳实践建议 最佳实践中强调持续集成环境的重要性,确保每一次代码提交都能触发自动化构建流水线自动运行单元测试、集成测试乃至端到端的功能检测等一系列环节。同时也要重视文档记录维护良好习惯以便团队成员间交流协作更加顺畅高效。 ```python def evaluate_model_performance(model, test_data): """ 对给定的大规模语言模型进行综合性能评估 参数: model (object): 待测的语言模型对象 test_data (list of tuples): 测试样本集合,每条记录由(问题字符串, 正确答案列表)组成 返回: dict: 各项评分汇总表单 """ results = { 'accuracy': calculate_accuracy(model, test_data), 'consistency': measure_consistency(model, generate_variations(test_data)), 'robustness': assess_robustness(model, add_noise_to_inputs(test_data)) } return results # 假设函数实现细节... ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值