一直都在爆料 OpenAI “草莓”的那个账号，难道竟然会是一个智能体？斯坦福系的创企居然在“炒作”AgentQ ！

本文链接：https://blog.csdn.net/weixin_54165147/article/details/141190685

🐱 个人主页：TechCodeAI启航，公众号：TechCodeAI

🙋‍♂️ 作者简介：2020参加工作，专注于前端各领域技术，共同学习共同进步，一起加油呀！

💫 优质专栏：AI相关最新技术分享（目前在向AI方向发展，欢迎大佬交流）

📢 资料领取：AI人工智能入门、进阶资料都可以找我免费领取

🔥 摸鱼学习交流：我们的宗旨是在「工作中摸鱼，摸鱼中进步」，期待大佬一起来摸鱼！

就在不久前，OpenAI 的神秘项目「Q*」毫无意外地受到了圈内各路人士的高度瞩目。就在上个月，以其作为前身、拥有代号「草莓（Strawberry）」的项目再度被暴露于大众视野之中。据相关推测表明，此项目极有可能具备提供高级推理能力的特性。

在最近的这几日，针对这个项目，网络世界中接连掀起了几波堪称“坑死人不眨眼”的传播浪潮。特别是有一个名为「草莓哥」的账号，一刻不停地进行宣扬，不断地给予人们希望却又不停地让众人失望。

谁能料到，这个 Sam Altman 现身何处，它就于何处跟帖的“营销号”，其内里居然是个智能体？

就在今日，一家名为 AI 智能体初创公司“MultiOn”的创始人毅然站出来承认：虽说没能盼到 OpenAI 发布“Q*”，不过我们推出了操控“草莓哥”账号的全新智能体 Agent Q，赶紧来和我们一同在线畅玩吧！

MultiOn 联合创始人兼 CEO Div Garg，他在斯坦福读计算机科学博士期间休学创业。

这一轮看似让 OpenAI 为自己充当嫁衣的营销运作，把众人都弄得一头雾水。要知道，近期有众多的人通宵达旦地期盼着 OpenAI 的“重大新闻”。而这一切得回溯到 Sam Altman 与“草莓哥”之间的互动，在 Sam Altman 晒出的草莓照片下方，他给“草莓哥”做出了回复：惊喜即刻将至。

然而，“MultiOn”的创始人 Div Garg 竟然已将认领 Agent Q 即为“草莓哥”的帖子默默地删除掉了。

此次，“MultiOn”公开表示，他们所发布的 Agent Q 属于一款具有开创性的 AI 智能体。其训练方式融合了蒙特卡洛树搜索（MCTS）以及自我批判，并且借助一种被称作直接偏好优化（DPO）的算法来领会人类的反馈信息。

与此同时，身为具备规划以及 AI 自我修复能力的新一代 AI 智能体，Agent Q 的性能达到了 LLama 3 基线零样本性能的 3.4 倍之多。并且，在针对真实场景任务展开的评估当中，Agent Q 的成功几率高达 95.4%。

那 Agent Q 究竟能够发挥怎样的作用呢？下面咱们先来瞧瞧官方给出的演示示例。

它有能力帮您预定在某个特定时间某家餐厅的座位。

接下来，它会替您实施网页方面的操作，就像查询空位的相关状况。最终顺利地完成预定。

此外，它甚至还能够为您预定航班（像是本周六从纽约出发飞往旧金山的单程航班，座位要求靠窗且为经济舱）。

然而，令人意想不到的是，网友们貌似对 Agent Q 丝毫不认可。大家更为关注的还是他们到底有没有借助“草莓哥”的账号进行炒作这件事，甚至有一部分人直接将他们斥为毫无廉耻的骗子。

重要组件和方法概览

当下，Agent Q 的有关论文已然公布，是由 MultiOn 以及斯坦福大学的研究者共同创作完成的。这项研究取得的成果会在今年后续的时间里向开发人员以及使用 MultiOn 的普通用户予以开放。

论文地址：https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

总结而言：Agent Q 能够独立自主地在网页上展开规划，并且能够自行纠正错误，从成功与失败的经历当中获取经验，进而提升其在繁杂任务里的表现水平。最终，这个智能体能够更出色地规划如何在互联网中畅游，以更好地适应现实世界中的复杂状况。

就技术细节方面来说，Agent Q 的主要构成部分涵盖了以下内容：

采用 MCTS（Monte Carlo Tree Search，蒙特卡洛树搜索）来实施引导式搜索：此项技术借助探索多样的操作以及网页，自主地生成相关数据，以此达到探索与利用的平衡。MCTS 运用高采样温度以及丰富多样的提示，来拓展操作的空间，有力地确保了轨迹集合的多元化以及最优性。

AI 的自我评判：在每一个步骤当中，基于 AI 的自我评判都会给出极具价值的反馈，从而让智能体的决策流程得以完善。这一环节的步骤级反馈对于长期任务极为关键，原因在于稀疏的信号往往会致使学习面临重重困难。

直接偏好优化（DPO）：这种算法通过从 MCTS 生成的数据构建偏好对，以此来对模型进行细微的调整。这种离策略的训练方式允许模型从聚合的数据集中（包含在搜索过程中所探索的次优分支）有效地进行学习，进而提升在复杂环境中的成功几率。

接下来着重阐述一下网页（Web-Page）端的 MCTS 算法。研究人员深入探究了怎样通过 MCTS 为智能体赋予额外的搜索能力。

在过往的工作当中，MCTS 算法通常由四个阶段构成：分别是选择、扩展、模拟以及反向传播，每一个阶段在平衡探索和利用、迭代优化策略等方面都发挥着极为重要的作用。

研究人员将网页智能体的执行过程归结为网页树搜索，其中的状态由智能体的历史以及当前网页的 DOM 树共同组成。和国际象棋或者围棋之类的棋盘游戏有所不同，研究人员所运用的复杂网络智能体操作空间呈现出开放的格式并且是可变的。

研究人员将基础模型作为操作建议（action-proposal）的分布，并且在每个节点（网页）上抽取固定数量的可能操作。一旦在浏览器当中选择并执行了一个操作，就会进入下一个网页，并且这个网页与更新后的历史记录一同成为新的节点。

研究人员针对反馈模型进行多次的迭代查询，每次都会从列表当中删除从上一次迭代当中所选取的最佳操作，一直到对所有的操作完成完整的排序。下图 4 展现了完整的 AI 反馈过程。

扩展与回溯。研究者于浏览器的环境里选取并执行一项操作，从而抵达一个新的节点（页面）。从被选定的状态节点轨迹起始，他们运用当下的策略 𝜋_𝜃 来延展轨迹，一直到抵达终止的状态。环境会在轨迹终结之时回馈奖励 𝑅，其中要是智能体获得成功，那么 𝑅 = 1，否则 𝑅 = 0。紧接着，借由从叶节点朝着根节点自下而上地对每个节点的数值进行更新，从而反向传播这一奖励，具体情况如下：

下图 3 呈现了所有的结果以及基线情况。当使智能体在测试阶段能够去搜索信息的时候，也就是为基础的 xLAM-v0.1-r 模型运用 MCTS 之时，其成功率从 28.6% 提高至 48.4%，近乎达到平均人类表现的 50.0%，并且明显超越了仅仅通过结果监督训练的零样本 DPO 模型所具备的性能。

研究者进一步依照下图中所概述的算法对基础模型予以了细微的调整，其结果相较于基础的 DPO 模型提升了 0.9%。在经过精心训练的 Agent Q 模型之上再次应用 MCTS ，智能体的性能提升至 50.5%，稍稍超出了人类的平均表现水平。

他们觉得，即便智能体历经了诸多的强化学习训练，在测试之时拥有搜索能力依旧属于一个关键的范式转变。和未曾经过训练的零样本智能体相较而言，这属于一次显著的迈进。

另外，虽说密集级监督相较于纯粹基于结果的监督有所优化，然而在 WebShop 环境当中，此种训练方式所带来的提升成效并非十分显著。这是由于在这个环境之内，智能体仅仅需要做出较短的决策路径，能够凭借结果来进行信用分配的学习。

评估结果

研究者选取了让智能体在 OpenTable 官网上预订餐厅这一任务，来检测 Agent Q 框架于真实世界中的表现状况。想要达成这个订餐任务，智能体必须于 OpenTable 网站上寻找到餐厅的页面，选定特定的日期和时间，并且拣选契合用户偏好的座位，最终提交用户的联系方式，方可预订成功。

起初，他们针对 xLAM-v0.1-r 模型展开了实验，然而该模型的表现差强人意，初始成功率仅仅为 0.0%。所以，他们改而运用 LLaMa 70B Instruct 模型，获取了一些初步的成果。

但由于 OpenTable 属于一个实时环境，很难凭借编程或者自动化的形式展开测量与评估。故而，研究者借助 GPT-4-V 依据以下指标为每个轨迹收集奖励：(1) 日期和时间设定无误，(2) 聚会规模设定恰当，(3) 用户信息输入准确，以及 (4) 点击完成预订。倘若满足上述全部条件，便视作智能体完成了任务。结果监督设置如下图 5 所示。

然而 Agent Q 把 LLaMa-3 模型的零样本成功率由 18.6% 显著提升至 81.7%，这一结果仅仅在单日的自主数据收集之后就达成了，相当于成功率猛增了 340%。在引入在线搜索的功能之后，成功率甚至攀升到了 95.4%。

更多技术细节和评估结果请参阅原论文。

参考链接：https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities