香港理工大学:LLM基于探索纠正的agent学习

在这里插入图片描述

📖标题:E2CL: Exploration-based Error Correction Learning for Embodied Agents
🌐来源:arXiv, 2409.03256

摘要

🔸语言模型在知识利用和推理方面表现出越来越强的能力。然而,当在具体环境中作为代理应用时,它们的内在知识和环境知识之间往往会出现错位,导致不可行的行动。传统的环境对齐方法,如专家轨迹上的监督学习和强化学习,分别在覆盖环境知识和实现高效收敛方面面临局限性。
🔸受人类学习的启发,我们提出了基于探索的纠错学习(E2CL),这是一种利用探索引起的错误和环境反馈来增强基于LM的代理的环境对齐的新框架。E2CL结合了教师指导和教师自由探索,以收集环境反馈并纠正错误行为。代理学会提供反馈和自我纠正,从而增强其对目标环境的适应性。
🔸Virtualhome环境中的评估表明,E2CL训练的代理优于基线方法训练的代理,并表现出卓越的自校正能力。

🛎️文章简介

🔸研究问题:语言模型在具体环境中作为代理应用时,常常会遇到内在知识与环境知识之间的错位,导致执行动作时频繁出错。
🔸主要贡献:论文提出了基于探索的错误纠正学习(E2CL)框架,使语言模型代理能够通过有效的反馈,驱动探索和纠正来与环境对齐。

📝重点思路

🔺相关工作

🔸语言模型代理:由于语言模型的泛化能力越来越强,它们通常被视为代理的策略函数来规划行为,但存在模型内部知识与环境知识不一致的问题。
🔸从失败中学习:一些研究关注从负样本(历史失败)中学习,作为仅从正样本学习的替代方法,通过降低负样本概率和增加正样本概率来提高性能。

🔺论文方案

🔸E2CL框架:包括预调优阶段、探索阶段和训练阶段,旨在通过自我反馈和自我修正增加环境适应性。
🔸预调优阶段:作为环境探索的基础,通过任务指令和专家轨迹数据集,用自回归的方式训练代理基本的规划能力。
🔸探索阶段:通过两种方式确保数据多样性和质量 ①代理通过无教师探索(TFE),自由执行预测计划和收集轨迹来获取多样化经验 ②代理通过教师引 导探索(TGE),使用强大的语言模型(如GPT-4o)自动纠正错误动作。
🔸训练阶段:代理通过微调最小化损失函数,对齐环境知识并发展自我反馈和纠正能力,包括①指令+轨迹→行动 ②指令+轨迹+行动→反馈 ③指令+轨迹+行动+反馈→纠正行动。
🔸推理阶段:提出了推测性推理,不会直接执行动作,而是通过生成反馈后预测动作变化,来决定是否执行还是纠正。

🔎分析总结

🔸E2CL训练的代理在虚拟环境中的表现优于基线方法,展示了其在实际部署中的潜力。
🔸E2CL在自我纠正能力方面表现出色,生成的正确纠正动作频率远高于行为克隆(BC)和基于提示的方法,无论是在已见任务还是未见任务中。
🔸E2CL能够生成符合环境物理约束的正确纠正动作,确保了推测性推理中的可靠自我纠正过程。

💡个人观点

论文的核心是基于探索的错误来纠正学习,并引入了推测性推理算法,以增强代理的环境对齐能力和自我纠正能力。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值