中国科学院大学:LLM多维代码生成评测

在这里插入图片描述

📖标题:Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
🌐来源:arXiv, 2407.11470

🛎️文章简介

🔸研究问题:当前大语言模型(LLM)在生成代码时,其质量是否能满足软件开发的需求。
🔸主要贡献:论文提出了一个名为RACE的多维度代码生成评估框架,从可读性、可维护性、正确性、效率4个维度,综合评价LLM的代码生成质量。

📝重点思路

🔺相关工作

🔸LLM表现不错的代码能力,如CodeX、CodeGen和AlphaCode等在在代码生成、代码修复和代码翻译等场景取得了显着的成绩。
🔸现有的LLM代码基准,如HumanEval、APPS和MBPP等,重点关注代码练习、数据科学和竞赛等场景,测试用例的通过率作为唯一的评估指标,没有系统地评估跨多维度的代码能力。

🔺论文方案

🔸RACE框架的设计理念,源自软件工程中对代码质量的要求。
🔸首先,根据质量定义,总结了每个维度的多个代表性因素,包括正确性、可读性、可维护性和效率。
🔸其次,为每个因素设计了一些合理的定制需求,并将其集成到任务描述中,要求模型生成既正确又满足这些需求的代码。
🔸最后,利用静态分析和运行时监控技术,开发了针对每个因素的评估指标。

🔎分析总结

🔸通过对18个代表性的LLM实验,发现目前代码生成能力仍达不到软件开发的要求。
🔸尤其是在遵循定制化要求时,代码的正确性会受到影响。
🔸此外,代码的可读性是评估生成代码整体质量的关键指标。

💡个人观点

论文提出了一个多维度的代码生成评估框架RACE,并强调了提高生成代码多维度质量的重要性。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值