港中文:LLM网站生成基准WebGen-Bench

在这里插入图片描述

📖标题:WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
🌐来源:arXiv, 2505.03733

🌟摘要

🔸基于LLM的代理在复杂代码库中生成和管理代码方面显示出巨大潜力。在本文中,我们介绍了 WebGen-Bench,这是一个新颖的基准,旨在衡量基于 LLM 的代理从头开始创建多文件网站代码库的能力。它包含不同的网站生成说明,通过人工注释者和 GPT-4o 的综合努力创建。这些指令跨越三个主要类别和 13 个次要类别,包含几乎所有重要的 Web 应用程序类型。为了评估生成的网站的质量,我们使用 GPT-4o 生成针对指令中描述的每个功能的测试用例,然后手动过滤、调整和组织以确保准确性,从而产生 647 个测试用例。每个测试用例都指定了在网站上执行的操作和操作后的预期结果。为了自动化测试并提高可重复性,我们使用强大的网络导航代理在生成的网站上执行测试,并确定观察到的响应是否与预期结果一致。
🔸我们评估了三个高性能代码代理框架——Bolt.diy、OpenHands 和 Aider——使用多个专有和开源 LLM 作为引擎。由 DeepSeek-R1 提供支持的最佳性能组合 Bolt.diy 在测试集上仅实现了 27.8% 的准确率,突出了我们基准的挑战性。此外,我们构建了 WebGen-Instruct,这是一个由 6,667 个网站生成指令组成的训练集。在从这个训练集的子集生成的Bolt.diy轨迹上训练Qwen2.5-Coder-32B-Instruct达到了38.2%的准确率,超过了最好的专有模型的性能。我们发布了我们的数据生成、训练和测试代码、数据集和模型权重在https://github.com/mnluzimu/WebGen-Bench 上。

🛎️文章简介

🔸研究问题:如何系统性地评估大语言模型(LLM)在从零开始生成网站的能力?
🔸主要贡献:论文提出了WebGen-Bench基准,首次系统性评估LLM驱动的代理生成符合用户指令的网站的能力。

📝重点思路

🔸通过使用GPT-4o生成多样化的网站生成指令和测试用例,确保覆盖网站功能和外观要求。
🔸采用精细化的测试案例构建方法,针对每个指令要求设计具体的测试案例,评估生成网站的功能性和外观。
🔸引入了一套详细的评估指标,包括网站的渲染成功率、内容相关性、布局和现代感等,以量化网站外观的美学。
🔸利用DeepSeek-V3模型进行生成轨迹的选择性生成和拒绝抽样,构建了包含6,667个网站生成指令的训练集WebGen-Instruct,并对其进行了微调。

🔎分析总结

🔸实验结果表明,WebGen-LM-32B模型在WebGen-Bench基准上实现了38.2%的准确率,超越了最佳的专有模型DeepSeek-R1,显示出训练集和拒绝采样过程的有效性。
🔸Bolt.diy与DeepSeek-R1组合在功能性上达到27.8%的准确率,表明当前的基准仍然对现有LLMs和代理框架具有挑战性。
🔸论文还发现,较小的开源模型在性能上显著低于专有模型,显示出模型规模与生成网站的复杂性和完整性之间的正相关关系。
🔸在外观评分方面,Bolt.diy与Claude-3.5-Sonnet组合获得了3.0的最佳表现,且外观评分与功能准确率之间存在一定的松散相关性。

💡个人观点

论文的核心在于提出了WebGen-Bench这一新的基准测试框架,填补了当前缺乏针对从零开始生成网站能力评估的空白。

🧩附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值