HumanEval数据集分享

来源: AINLPer公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2024-3-10

在这里插入图片描述

该数据集是由OpenAI、Anthropic等开发的一个代码生成评测基准测试,它包含了164个人工编写的Python编程问题。这个数据集旨在评估大型语言模型在代码生成方面的能力,特别是在解决实际编程任务方面的表现。每个编程问题都包括函数头、docstrings(文档字符串,用于描述函数的功能)、函数体和几个单元测试。这些问题覆盖了从基础的字符串操作到复杂的算法设计等多种编程任务。

在评测过程中,模型会针对每个单元测试问题生成多个(k个)代码样本。如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即Pass@k得分。这个指标可以帮助评估模型在生成正确代码方面的能力。

相关数据集与论文获取,GZ: AINLPer公众号 回复:HE数据集

  • 15
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值