清华、智谱AI 团队推出代码评测基准 NaturalCodeBench | 最新快讯

最新推荐文章于 2024-11-16 13:52:27 发布

最新科技快讯

最新推荐文章于 2024-11-16 13:52:27 发布

阅读量581

点赞数 6

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/www3300300/article/details/138752139

版权

最新快讯专栏收录该内容

378 篇文章 8 订阅

订阅专栏

大型语言模型（LLM）在为生产活动生成代码方面表现出强大的能力。然而，目前的代码合成基准，如 HumanEval、MBPP 和 DS-1000，主要面向算法和数据科学的入门任务，不能充分满足现实世界中普遍存在的编码挑战要求。

　　为了填补这一空白，来自清华大学和智谱 AI 的研究团队提出了自然代码基准（NaturalCodeBench，简称 NCB），这是一个具有挑战性的代码基准，旨在反映真实编码任务的复杂性和场景的多样性。

　　据介绍，NCB 由 402 个 Python 和 Java 中的高质量问题组成，这些问题都是从在线编码服务的自然用户查询中精心挑选出来的，涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难，他们还提出了一个半自动化管道，从而提高测试用例构建的效率。与人工解决方案相比，其效率提高了 4 倍多。

　　他们在 39 个 LLM 上进行的系统实验发现，HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大，这表明我们对实际代码合成场景缺乏关注，或者对 HumanEval 进行了过度优化。另一方面，即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。

　　论文链接：

　　https://arxiv.org/abs/2405.04520

　　GitHub 地址：

　　GitHub - THUDM/NaturalCodeBench

java相关学习资源、电视剧等资源下载，请点击

来自: 网易科技

最新科技快讯

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

最新科技快讯 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。