在线决策Auto-GPT:基准和附加意见

246 篇文章 2 订阅
231 篇文章 0 订阅

23年10月来自亚马逊的论文”Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions“。

Auto-GPT是一种自主智体,它利用了大语言模型(LLM)在决策任务中的最新进展。尽管人们对Auto-GPT这样风格的智体越来越感兴趣,但是对Auto-GPT在解决现实世界决策任务方面的有效性和灵活性方面,仍然存在疑问。其在现实世界中的参与能力有限,而且缺乏基准点,导致了这些不确定性。这篇论文提出一个全面的基准研究,针对在模拟现实世界场景的决策任务中如Auto-GPT风格的智体。

本文目标是深入了解这个问题,并了解基于GPT智体的适应性。比较了流行的LLM(如GPT-4、GPT-3.5、Claude和Vicuna)在Auto-GPT风格智体决策任务中的性能。此外,还引入了附加意见算法,一种简单有效的方法,将基于监督/模仿的学习器结合到Auto-GPT方案中。这种方法实现了轻量级的监督学习,不需要对基础LLM进行微调。通过仔细的基线比较和消融研究证明,附加意见算法显著提高了在线决策基准的性能,包括WebShop和ALFWorld。

WebShop[24]是一个模拟环境,它从Amazon.com上抓取1181436种产品并将其托管在一个独立的服务器上,复制网络购物体验。该环境为智体提供了一个现实的行动空间,包括执行产品搜索、点击项目、导航回以前的页面和进行购买等选项。该环境配备了一个集成的搜索引擎,为购物智体提供了模拟网络浏览器的实时观察结果。评估过程包括根据产品描述确定智体是否成功购买了预期产品,其中成功需要产品本身、属性、选项和价格的所有匹配。用具有微调动作策略组件的IL(模仿学习)方法作为基线模型,并将其与流行的具有Auto-GPT风格网络购物适应的生成LLM进行比较。

ALFWorld[19]是一个突破性的重搜索环境,将ALFRED[18]数据集复杂的、面向任务的语言理解与TextWorld[4]的沉浸式交互式小说相配合。ALFRED(Action Learning From Realistic Environments and Directives)基准测试为模型提供了一个强大的测试平台,使其能够在详细的交互式3D环境中学习从语言指令中解析和执行复杂的任务。同时,TextWorld作为一个动态学习平台,用于在基于文本的游戏中训练和评估强化学习智体。将这两个平台交织在一起,ALFWorld将基于文本游戏的语言理解和决策挑战与3D环境中的物理交互结合在一起,体现了将自然语言指令与现实世界物理交互融合的关键一步。该环境包含25000多个独特的、程序生成的任务,这些任务分布在厨房、客厅和卧室等不同区域的真实感环境中。这些任务需要复杂的解决问题技能以及对语言和环境的全面理解,从而为人工智能的性能评估创造一个更高的基准。尽管ALFWorld为强化学习、自然语言理解和交互式决策研究提供了一个富有挑战性但丰富的试验台,但也采用DAgger[15]IL(模仿学习)智体作为基线针对未见的数据集进行评估。然后,将其与采用Auto-GPT风格方法的主流生成语言学习模型进行比较,这些模型仅针对ALFWorld任务通过工具演示进行调整。

将Auto-GPT应用于这两项任务,无需进行大量调整,只需直接将任务要求或问题作为Auto-GPT的目标即可。例如,输入诸如“我想购买一个易于安装的折叠储物箱,由人造皮革制成,尺寸为60x40x40cm”之类的信息。为了便于Auto-GPT理解可用操作,将每个操作表示为一个工具。值得注意的是,当以说教式的方式使用无示例的工具说明时,表现不佳。然而,仅举几个例子性能就显著提高。因此,包含一到三个少样本示例用于工具演示,这样利用LLM的上下文学习能力。

进一步设计对Auto-GPT工作流的更改,考虑外部专家模型的其他意见。具体来说,在Auto-GPT的决策阶段从专家模型中抽取前k个意见,并将这些意见呈现在提示的上下文部分,做出更明智的决策。如下算法伪代码概述了修改后的Auto-GPT工作流。在这项工作中,为这两项任务用现成的IL模型作为外部专家。给LLM建议其他意见的提示遵循这样的模板“这是命令的一(几个)建议:<带参数的操作>请将此建议作为参考并做出自己的判断。”

添加图片注释,不超过 140 字(可选)

如图所示是带附加意见的Auto-GPT一个步骤。在这里,附加意见是由其他专家模型生成的——这里是IL模型,但可扩展到其他模型,如Rule或其他LLM。

添加图片注释,不超过 140 字(可选)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值