CMU：在LLM的agent中引入经验学习

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142363853

在这里插入图片描述

📖标题：AGENT WORKFLOW MEMORY
🌐来源：arXiv, 2409.07429

摘要

🔸尽管基于语言模型的代理具有解决网络导航等现实世界任务的潜力，但当前的方法仍然难以处理具有复杂动作轨迹的长期任务。相比之下，人类可以通过从过去的经验中学习可重用的任务工作流并使用它们来指导未来的行动，从而灵活地解决复杂的任务。
🔸为了构建能够从这一过程中受益的代理，我们引入了代理工作流内存（AWM），这是一种诱导常用例程（即工作流）的方法，并有选择地向代理提供工作流以指导后续代。AWM灵活地应用于离线和在线场景，其中代理通过预先训练示例或动态测试查询来诱导工作流。
🔸我们在两个主要的网络导航基准上进行了实验——Mind2Web和WebArena。这两个基准总共涵盖了来自旅行、购物和社交媒体等200多个领域的1000多个任务。AWM显著提高了Mind2Web和WebArena的基线结果24.6%和51.1%的相对成功率，同时减少了成功解决WebArena任务所需的步骤数量。此外，在线AWM在跨任务、网站和领域评估中具有稳健的泛化能力，随着训练测试任务分配差距的扩大，其绝对得分从8.9分超过基线到14.0分。详见https://github.com/zorazrw/agent-workflow-memory

🛎️文章简介

🔸研究问题：当前基于语言模型的代理在处理数字任务时缺乏对任务上下文或环境变化的鲁棒性，无法从过去的成功和失败中学习并适应新任务。
🔸主要贡献：论文提出了代理工作流记忆（AWM）机制，通过提取和学习可重用的工作流来增强代理的适应性和任务解决能力。

📝重点思路

🔺相关工作

🔸Web代理基准：如MiniWob评估航班预订等各种场景，WebShop模拟电子商务网站，VisualWebArena扩展了需要视觉输入的任务等。
🔸增强复杂任务的代理：许多工作通过修改代理的动作空间、启用LLM自反馈来细化预测动作或者人工针对某些任务设计行动等。
🔸从经验中学习：许多作品提出从基于规则的经验中提取经常重用的子例。

🔺论文方案

🔸概述：AWM机制结合了语言模型和文本记忆，其中文本记忆包含了内置动作的文档，如CLICK和TYPE。
🔸评测：在两个代理网页导航基准测试（WebArena和Mind2Web）上评估AWM的表现，还探索了扩展代理操作空间的工作流，表示为AWM-AS。
🔸实验1：在WebArena测试中，采用了BrowserGym框架及其默认动作空间，并使用可访问性树来表示网页。
🔸实验2：在Mind2Web测试中，AWM通过跨任务的结果改进来展示其有效性。

🔎分析总结

🔸性能提升：AWM在WebArena基准测试中，通过滚动处理仅数十个示例后，相对于不适应的基线代理，性能差距高达22.5分。
🔸泛化能力：AWM展示了其在不同任务、网站和领域中的优越泛化能力。
🔸任务成功率提升：AWM在WebArena和Mind2Web上，分别实现了24.6%和51.1%的任务成功率相对提升。
🔸动作空间扩展的效果：通过将工作流扩展到代理的动作空间中，AWM-AS略微提高了步骤成功率，并在整体成功率上与基础记忆增强的AWM保持一致。