📖标题:BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents
🌐来源:arXiv, 2504.12516
🌟摘要
🔸我们介绍BrowseComp,这是一个简单但具有挑战性的基准,用于衡量代理浏览网页的能力。BrowseComp包含1266个问题,这些问题需要持续在互联网上搜索难以找到的、纠缠的信息。尽管问题很难回答,但BrowseComp简单易用,因为预测的答案很短,很容易与参考答案进行验证。浏览代理的BrowseComp可以被视为类似于编程竞赛是编码代理的一个不完整但有用的基准。
🔸虽然BrowseComp避开了真正的用户查询分发的挑战,比如生成长答案或解决歧义,但它衡量了在查找信息时锻炼持久性和创造性的重要核心能力。BrowseComp可以在以下网址找到https://github.com/openai/simple-evals.
🛎️文章简介
🔸研究问题:如何评估人工智能代理在浏览互联网时获取信息的能力,特别是面对复杂和难以找到信息的问题?
🔸主要贡献:论文提出了一个新的基准数据集BrowseComp,包含1266个具有挑战性的问题,旨在评估AI代理的浏览能力和信息获取的创造性。
📝重点思路
🔸数据收集与验证:通过人类训练者创建问题,确保问题具有挑战性且答案简单明确。
🔸设计问题:问题需要在10分钟内难以被他人解决,且现有模型无法解决。
🔸评估模型表现:通过比较不同模型(如GPT-4o和Deep Research)在BrowseComp上的解答准确性,分析其浏览和推理能力。
🔸采用多种投票策略:通过聚合多个答案(如多数投票、加权投票和最佳答案选择)提升模型的性能。
🔎分析总结
🔸人类训练者在BrowseComp中只解决了29.2%的问题,显示出其难度之大。
🔸模型在处理复杂问题时需要创造性搜索,单靠简单的搜索策略难以取得成功。
🔸Deep Research模型在任务中表现优异,能够处理多源信息并综合答案,但在信心校准方面存在不足。
🔸通过使用额外计算资源,可以显著提高模型在BrowseComp上的表现,表明计算能力与模型表现呈正相关。
💡个人观点
论文的核心在于提出了BrowseComp基准,聚焦于网页信息检索的能力,还强调了AI代理在面对复杂问题时所需的创造性和持久性。
🧩附录