📖标题:Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
🌐来源:arXiv, 2407.11470
🛎️文章简介
🔸研究问题:当前大语言模型(LLM)在生成代码时,其质量是否能满足软件开发的需求。
🔸主要贡献:论文提出了一个名为RACE的多维度代码生成评估框架,从可读性、可维护性、正确性、效率4个维度,综合评价LLM的代码生成质量。
📝重点思路
🔺相关工作
🔸LLM表现不错的代码能力,如CodeX、CodeGen和AlphaCode等在在代码生成、代码修复和代码翻译等场景取得了显着的成绩。
🔸现有的LLM代码基准,如HumanEval、APPS和MBPP等,重点关注代码练习、数据科学和竞赛等场景,测试用例的通过率作为唯一的评估指标,没有系统地评估跨多维度的代码能力。
🔺论文方案
🔸RACE框架的设计理念,源自软件工程中对代码质量的要求。
🔸首先,根据质量定义,总结了每个维度的多个代表性因素,包括正确性、可读性、可维护性和效率。
🔸其次,为每个因素设计了一些合理的定制需求,并将其集成到任务描述中,要求模型生成既正确又满足这些需求的代码。
🔸最后,利用静态分析和运行时监控技术,开发了针对每个因素的评估指标。
🔎分析总结
🔸通过对18个代表性的LLM实验,发现目前代码生成能力仍达不到软件开发的要求。
🔸尤其是在遵循定制化要求时,代码的正确性会受到影响。
🔸此外,代码的可读性是评估生成代码整体质量的关键指标。
💡个人观点
论文提出了一个多维度的代码生成评估框架RACE,并强调了提高生成代码多维度质量的重要性。
附录