论文阅读：Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model C

最新推荐文章于 2024-09-11 23:03:17 发布

CSPhD-winston-杨帆

最新推荐文章于 2024-09-11 23:03:17 发布

阅读量308

点赞数 4

分类专栏：论文阅读 LLMs-鲁棒性文章标签：论文阅读语言模型人工智能

本文链接：https://blog.csdn.net/whiffeyf/article/details/140732064

版权

LLMs-鲁棒性同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

论文阅读

16 篇文章 0 订阅

订阅专栏

Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model Code Generation

这篇论文提出了一个名为 RobustAPI 的新基准测试，旨在评估大型语言模型（LLMs）生成代码时的 API 误用行为。以下是对论文内容的总结：

背景与动机：随着大型语言模型在编程领域的应用日益增多，它们生成的代码的可靠性和鲁棒性成为了关键问题。尽管这些模型能够生成语法正确的代码，但它们在实际软件开发中可能不够可靠，尤其是在 API 使用方面。
RobustAPI 基准测试：作者创建了 RobustAPI，一个包含 1208 个 Stack Overflow 上的问题和相关 Java API 的数据集，用以评估 LLMs 生成的代码的可靠性和鲁棒性。
实验设置：论文中对几个主流的 LLMs（包括 GPT-3.5、GPT-4、Llama-2 和 Vicuna-1.5）进行了评估，考虑了零样本、单不相关样本和单相关样本三种实验设置。
评估方法：使用静态分析方法，特别是基于抽象语法树（AST）的技术，来检测代码中的 API 误用。
主要发现：
- 大型语言模型普遍存在 API 误用问题，即使是最新的商业模型。
- 不相关样本的添加并没有显著降低 API 误用率，反而可能增加了误用率。
- 正确使用 API 的示例可以显著降低某些模型的 API 误用率。
- 提高温度或用 API 规则替换单样本示例对 API 误用率没有显著影响。
结论：尽管大型语言模型在代码生成方面取得了进步，但它们在现实世界软件开发中的可靠性和鲁棒性方面仍有待提高。
未来工作：提出了改进生成代码质量的方法，包括上下文学习、微调和预训练，并强调了评估和改进 LLMs 在现实世界软件开发中的重要性。
开源贡献：为了促进未来研究，作者将 RobustAPI 数据集和基准测试开源。
致谢：作者对审稿人和会议组织者的建设性评论表示感谢。

整体来看，这篇论文强调了在软件开发中使用 LLMs 时需要考虑的代码质量与安全性问题，并提供了一个评估和改进这些模型的框架。

CSPhD-winston-杨帆

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model C

作者创建了 RobustAPI，一个包含 1208 个 Stack Overflow 上的问题和相关 Java API 的数据集，用以评估 LLMs 生成的代码的可靠性和鲁棒性。整体来看，这篇论文强调了在软件开发中使用 LLMs 时需要考虑的代码质量与安全性问题，并提供了一个评估和改进这些模型的框架。：提出了改进生成代码质量的方法，包括上下文学习、微调和预训练，并强调了评估和改进 LLMs 在现实世界软件开发中的重要性。
复制链接

扫一扫

专栏目录