📖标题:Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
🌐来源:arXiv, 2407.11470
🛎️文章简介
🔸研究问题:当前大语言模型(LLM)在生成代码时,其质量是否能满足软件开发的需求。
🔸主要贡献:论文提出了一个名为RACE的多维度代码生成评估框架,从可读性、可维护性、正确性、效率4个维度,综合评价LLM的代码生成质量。
📝重点思路
🔺相关工作
🔸LLM表现不错的代码能力,如CodeX、CodeGen和AlphaCode等在在代码生成、代码修复和代码翻译等场景取得了显着的成绩。
🔸现有的LLM代码基准,如HumanEval、APPS和MBPP等,重点关注代码练习、数据科学和竞赛等场景,测试用例的通过率作为唯一的评估指标,没有系统地评估跨多维度的代码能力。
🔺论文方案
🔸RACE框架的设计理念,源自软件工程中对代码质量的要求。
🔸首先,根据质量定义