📖标题:WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
🌐来源:arXiv, 2505.03733
🌟摘要
🔸基于LLM的代理在复杂代码库中生成和管理代码方面显示出巨大潜力。在本文中,我们介绍了 WebGen-Bench,这是一个新颖的基准,旨在衡量基于 LLM 的代理从头开始创建多文件网站代码库的能力。它包含不同的网站生成说明,通过人工注释者和 GPT-4o 的综合努力创建。这些指令跨越三个主要类别和 13 个次要类别,包含几乎所有重要的 Web 应用程序类型。为了评估生成的网站的质量,我们使用 GPT-4o 生成针对指令中描述的每个功能的测试用例,然后手动过滤、调整和组织以确保准确性,从而产生 647 个测试用例。每个测试用例都指定了在网站上执行的操作和操作后的预期结果。为了自动化测试并提高可重复性,我们使用强大的网络导航代理在生成的网站上执行测试,并确定观察到的响应是否与预期结果一致。
🔸我们评估了三个高性能代码代理框架——Bolt.diy、OpenHands 和 Aider——使用多个专有和开源 LLM 作为引擎。由 DeepSeek-R1 提供支持的最佳性能组合 Bolt.diy 在测试集上仅实现了 27.8% 的准确率,突出了我们基准的挑战性。此外,我们构建了 WebGen-Instruct,这是一个由 6,667 个网站生成指令组成的训练集。在从这个训练集的子集生成的Bolt.diy轨迹上训练Qwen2.5-Coder-32B-Instruct达到了38.2%的准确率,超过了最好的专有模型的性能。我们发布了我们的数据生成、训练和测试代码、数据集和模型权重在https://github.com/mnluzimu/WebGen-Bench 上。
🛎️文章简介
🔸研究问题:如何系统性地评估大语言模型(LLM)在从零开始生成网站的能力?
🔸主要贡献:论文提出了WebGen-Bench基准,首次系统性评估LLM驱动的代理生成符合用户指令的网站的能力。
📝重点思路
🔸通过使用GPT-4o生成多样化的网站生成指令和测试用例,确保覆盖网站功能和外观要求。
🔸采用精细化的测试案例构建方法,针对每个指令要求设计具体的测试案例,评估生成网站的功能性和外观。
🔸引入了一套详细的评估指标,包括网站的渲染成功率、内容相关性、布局和现代感等,以量化网站外观的美学。
🔸利用DeepSeek-V3模型进行生成轨迹的选择性生成和拒绝抽样,构建了包含6,667个网站生成指令的训练集WebGen-Instruct,并对其进行了微调。
🔎分析总结
🔸实验结果表明,WebGen-LM-32B模型在WebGen-Bench基准上实现了38.2%的准确率,超越了最佳的专有模型DeepSeek-R1,显示出训练集和拒绝采样过程的有效性。
🔸Bolt.diy与DeepSeek-R1组合在功能性上达到27.8%的准确率,表明当前的基准仍然对现有LLMs和代理框架具有挑战性。
🔸论文还发现,较小的开源模型在性能上显著低于专有模型,显示出模型规模与生成网站的复杂性和完整性之间的正相关关系。
🔸在外观评分方面,Bolt.diy与Claude-3.5-Sonnet组合获得了3.0的最佳表现,且外观评分与功能准确率之间存在一定的松散相关性。
💡个人观点
论文的核心在于提出了WebGen-Bench这一新的基准测试框架,填补了当前缺乏针对从零开始生成网站能力评估的空白。
🧩附录