清华、智谱AI 团队推出代码评测基准 NaturalCodeBench | 最新快讯

大型语言模型(LLM)在为生产活动生成代码方面表现出强大的能力。然而,目前的代码合成基准,如 HumanEval、MBPP 和 DS-1000,主要面向算法和数据科学的入门任务,不能充分满足现实世界中普遍存在的编码挑战要求。

  为了填补这一空白,来自清华大学和智谱 AI 的研究团队提出了自然代码基准(NaturalCodeBench,简称 NCB),这是一个具有挑战性的代码基准,旨在反映真实编码任务的复杂性和场景的多样性。

  据介绍,NCB 由 402 个 Python 和 Java 中的高质量问题组成,这些问题都是从在线编码服务的自然用户查询中精心挑选出来的,涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难,他们还提出了一个半自动化管道,从而提高测试用例构建的效率。与人工解决方案相比,其效率提高了 4 倍多。

  他们在 39 个 LLM 上进行的系统实验发现,HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大,这表明我们对实际代码合成场景缺乏关注,或者对 HumanEval 进行了过度优化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。

  论文链接:

  https://arxiv.org/abs/2405.04520

  GitHub 地址:

  GitHub - THUDM/NaturalCodeBench

java相关学习资源、电视剧等资源下载,请点击

来自: 网易科技

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

最新科技快讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值