OpenAI：agent网页信息获取基准-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147431242

在这里插入图片描述

📖标题：BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents
🌐来源：arXiv, 2504.12516

🌟摘要

🔸我们介绍BrowseComp，这是一个简单但具有挑战性的基准，用于衡量代理浏览网页的能力。BrowseComp包含1266个问题，这些问题需要持续在互联网上搜索难以找到的、纠缠的信息。尽管问题很难回答，但BrowseComp简单易用，因为预测的答案很短，很容易与参考答案进行验证。浏览代理的BrowseComp可以被视为类似于编程竞赛是编码代理的一个不完整但有用的基准。
🔸虽然BrowseComp避开了真正的用户查询分发的挑战，比如生成长答案或解决歧义，但它衡量了在查找信息时锻炼持久性和创造性的重要核心能力。BrowseComp可以在以下网址找到https://github.com/openai/simple-evals.

🛎️文章简介

🔸研究问题：如何评估人工智能代理在浏览互联网时获取信息的能力，特别是面对复杂和难以找到信息的问题？
🔸主要贡献：论文提出了一个新的基准数据集BrowseComp，包含1266个具有挑战性的问题，旨在评估AI代理的浏览能力和信息获取的创造性。

📝重点思路

🔸数据收集与验证：通过人类训练者创建问题，确保问题具有挑战性且答案简单明确。
🔸设计问题：问题需要在10分钟内难以被他人解决，且现有模型无法解决。
🔸评估模型表现：通过比较不同模型（如GPT-4o和Deep Research）在BrowseComp上的解答准确性，分析其浏览和推理能力。
🔸采用多种投票策略：通过聚合多个答案（如多数投票、加权投票和最佳答案选择）提升模型的性能。

🔎分析总结

🔸人类训练者在BrowseComp中只解决了29.2%的问题，显示出其难度之大。
🔸模型在处理复杂问题时需要创造性搜索，单靠简单的搜索策略难以取得成功。
🔸Deep Research模型在任务中表现优异，能够处理多源信息并综合答案，但在信心校准方面存在不足。
🔸通过使用额外计算资源，可以显著提高模型在BrowseComp上的表现，表明计算能力与模型表现呈正相关。