港中文：LLM网站生成基准WebGen-Bench-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147860313

在这里插入图片描述

📖标题：WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
🌐来源：arXiv, 2505.03733

🌟摘要

🔸基于LLM的代理在复杂代码库中生成和管理代码方面显示出巨大潜力。在本文中，我们介绍了 WebGen-Bench，这是一个新颖的基准，旨在衡量基于 LLM 的代理从头开始创建多文件网站代码库的能力。它包含不同的网站生成说明，通过人工注释者和 GPT-4o 的综合努力创建。这些指令跨越三个主要类别和 13 个次要类别，包含几乎所有重要的 Web 应用程序类型。为了评估生成的网站的质量，我们使用 GPT-4o 生成针对指令中描述的每个功能的测试用例，然后手动过滤、调整和组织以确保准确性，从而产生 647 个测试用例。每个测试用例都指定了在网站上执行的操作和操作后的预期结果。为了自动化测试并提高可重复性，我们使用强大的网络导航代理在生成的网站上执行测试，并确定观察到的响应是否与预期结果一致。
🔸我们评估了三个高性能代码代理框架——Bolt.diy、OpenHands 和 Aider——使用多个专有和开源 LLM 作为引擎。由 DeepSeek-R1 提供支持的最佳性能组合 Bolt.diy 在测试集上仅实现了 27.8% 的准确率，突出了我们基准的挑战性。此外，我们构建了 WebGen-Instruct，这是一个由 6,667 个网站生成指令组成的训练集。在从这个训练集的子集生成的Bolt.diy轨迹上训练Qwen2.5-Coder-32B-Instruct达到了38.2%的准确率，超过了最好的专有模型的性能。我们发布了我们的数据生成、训练和测试代码、数据集和模型权重在https://github.com/mnluzimu/WebGen-Bench 上。

🛎️文章简介

🔸研究问题：如何系统性地评估大语言模型（LLM）在从零开始生成网站的能力？
🔸主要贡献：论文提出了WebGen-Bench基准，首次系统性评估LLM驱动的代理生成符合用户指令的网站的能力。

📝重点思路

🔸通过使用GPT-4o生成多样化的网站生成指令和测试用例，确保覆盖网站功能和外观要求。
🔸采用精细化的测试案例构建方法，针对每个指令要求设计具体的测试案例，评估生成网站的功能性和外观。
🔸引入了一套详细的评估指标，包括网站的渲染成功率、内容相关性、布局和现代感等，以量化网站外观的美学。
🔸利用DeepSeek-V3模型进行生成轨迹的选择性生成和拒绝抽样，构建了包含6,667个网站生成指令的训练集WebGen-Instruct，并对其进行了微调。

🔎分析总结

🔸实验结果表明，WebGen-LM-32B模型在WebGen-Bench基准上实现了38.2%的准确率，超越了最佳的专有模型DeepSeek-R1，显示出训练集和拒绝采样过程的有效性。
🔸Bolt.diy与DeepSeek-R1组合在功能性上达到27.8%的准确率，表明当前的基准仍然对现有LLMs和代理框架具有挑战性。
🔸论文还发现，较小的开源模型在性能上显著低于专有模型，显示出模型规模与生成网站的复杂性和完整性之间的正相关关系。
🔸在外观评分方面，Bolt.diy与Claude-3.5-Sonnet组合获得了3.0的最佳表现，且外观评分与功能准确率之间存在一定的松散相关性。