📖标题:E2CL: Exploration-based Error Correction Learning for Embodied Agents
🌐来源:arXiv, 2409.03256
摘要
🔸语言模型在知识利用和推理方面表现出越来越强的能力。然而,当在具体环境中作为代理应用时,它们的内在知识和环境知识之间往往会出现错位,导致不可行的行动。传统的环境对齐方法,如专家轨迹上的监督学习和强化学习,分别在覆盖环境知识和实现高效收敛方面面临局限性。
🔸受人类学习的启发,我们提出了基于探索的纠错学习(E2CL),这是一种利用探索引起的错误和环境反馈来增强基于LM的代理的环境对齐的新框架。E2CL结合了教师指导和教师自由探索,以收集环境反馈并纠正错误行为。代理学会提供反馈和自我纠正,从而增强其对目标环境的适应性。
🔸Virtualhome环境中的评估表明,E2CL训练的代理优于基线方法训练的代理,并表现出卓越的自校正能力。
🛎️文章简介
🔸研究问题:语言模型在具体环境中作为代理应用时,常常会遇到内在知识与环境知识之间的错位,导致执行动作时频繁出错。
🔸主要贡献:论文提出了基于探索的错误纠正学习(E2CL)框架,使语言模型代理能够通过有效的反馈,驱动探索和纠正来与环境对齐。
📝重点思路
🔺相关工作
🔸语言模型代理:由于语言模型的泛化能力越来越强,它们通常被视为代理的策略函数来规划行为,但存在模型内部知识与环境知识不一致的问题。
🔸从失败中学习:一些研究关注从负样本(历史失败)中学习,作为仅从正样本学习的替代方法,通过降低负样本概率和增加正样本概率来提高性能。
🔺论文方案
🔸E2CL框架:包括预调优阶段、探索阶段和训练阶段,旨在通过自我反馈和自我修正增加环境适应性。
🔸预调优阶段:作为环境探索的基础,通过任务指令和专家轨迹数据集,用自回归的方式训练代理基本的规划能力。
🔸探索阶段:通过两种方式确保数据多样性和质量 ①代理通过无教师探索(TFE),自由执行预测计划和收集轨迹来获取多样化经验 ②代理通过教师引 导探索(TGE),使用强大的语言模型(如GPT-4o)自动纠正错误动作。
🔸训练阶段:代理通过微调最小化损失函数,对齐环境知识并发展自我反馈和纠正能力,包括①指令+轨迹→行动 ②指令+轨迹+行动→反馈 ③指令+轨迹+行动+反馈→纠正行动。
🔸推理阶段:提出了推测性推理,不会直接执行动作,而是通过生成反馈后预测动作变化,来决定是否执行还是纠正。
🔎分析总结
🔸E2CL训练的代理在虚拟环境中的表现优于基线方法,展示了其在实际部署中的潜力。
🔸E2CL在自我纠正能力方面表现出色,生成的正确纠正动作频率远高于行为克隆(BC)和基于提示的方法,无论是在已见任务还是未见任务中。
🔸E2CL能够生成符合环境物理约束的正确纠正动作,确保了推测性推理中的可靠自我纠正过程。
💡个人观点
论文的核心是基于探索的错误来纠正学习,并引入了推测性推理算法,以增强代理的环境对齐能力和自我纠正能力。
附录