大型语言模型(LLM)在为生产活动生成代码方面表现出强大的能力。然而,目前的代码合成基准,如 HumanEval、MBPP 和 DS-1000,主要面向算法和数据科学的入门任务,不能充分满足现实世界中普遍存在的编码挑战要求。
为了填补这一空白,来自清华大学和智谱 AI 的研究团队提出了自然代码基准(NaturalCodeBench,简称 NCB),这是一个具有挑战性的代码基准,旨在反映真实编码任务的复杂性和场景的多样性。
据介绍,NCB 由 402 个 Python 和 Java 中的高质量问题组成,这些问题都是从在线编码服务的自然用户查询中精心挑选出来的,涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难,他们还提出了一个半自动化管道,从而提高测试用例构建的效率。与人工解决方案相比,其效率提高了 4 倍多。
他们在 39 个 LLM 上进行的系统实验发现,HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大,这表明我们对实际代码合成场景缺乏关注,或者对 HumanEval 进行了过度优化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。
论文链接:
https://arxiv.org/abs/2405.04520
GitHub 地址:
GitHub - THUDM/NaturalCodeBench
java相关学习资源、电视剧等资源下载,请点击
来自: 网易科技