目录
大型语言模型能否取代 Stack Overflow?关于大型语言模型代码生成的鲁棒性和可靠性研究
作者: 李忠,王子龙
摘要:
最近,大型语言模型(LLMs)显示出了非凡的能力,能够理解自然语言并生成编程代码。当遇到编码问题时,软件工程师咨询 LLMs 已成为一种常见做法。尽管已经做出了努力以避免语法错误并使代码与预期语义一致,但 LLMs 代码生成的可靠性和鲁棒性尚未得到充分研究。可执行代码并不等同于可靠和鲁棒的代码,尤其是在现实世界软件开发的背景下。例如,生成代码中对 API 的误用可能导致严重问题,如资源泄漏、程序崩溃等。现有的代码评估基准和数据集侧重于构建诸如编程面试中的编程问题等小型任务。然而,这偏离了开发人员通常咨询 LLMs 的问题。为了填补这一缺失的部分,我们提出了一个数据集 RobustAPI,用于评估由 LLMs 生成的代码的可靠性和鲁棒性。我们从 Stac