香港理工大学：LLM基于探索纠正的agent学习

大模型任我行

于 2024-09-18 08:00:00 发布

阅读量463

点赞数 23

分类专栏：大模型-Agent 文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142307703

版权

大模型-Agent 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：E2CL: Exploration-based Error Correction Learning for Embodied Agents
🌐来源：arXiv, 2409.03256

摘要

🔸语言模型在知识利用和推理方面表现出越来越强的能力。然而，当在具体环境中作为代理应用时，它们的内在知识和环境知识之间往往会出现错位，导致不可行的行动。传统的环境对齐方法，如专家轨迹上的监督学习和强化学习，分别在覆盖环境知识和实现高效收敛方面面临局限性。
🔸受人类学习的启发，我们提出了基于探索的纠错学习（E2CL），这是一种利用探索引起的错误和环境反馈来增强基于LM的代理的环境对齐的新框架。E2CL结合了教师指导和教师自由探索，以收集环境反馈并纠正错误行为。代理学会提供反馈和自我纠正，从而增强其对目标环境的适应性。
🔸Virtualhome环境中的评估表明，E2CL训练的代理优于基线方法训练的代理，并表现出卓越的自校正能力。

🛎️文章简介

🔸研究问题：语言模型在具体环境中作为代理应用时，常常会遇到内在知识与环境知识之间的错位，导致执行动作时频繁出错。
🔸主要贡献：论文提出了基于探索的错误纠正学习（E2CL）框架，使语言模型代理能够通过有效的反馈，驱动探索和纠正来与环境对齐。

📝重点思路

🔺相关工作

🔸语言模型代理：由于语言模型的泛化能力越来越强，它们通常被视为代理的策略函数来规划行为，但存在模型内部知识与环境知识不一致的问题。
🔸从失败中学习：一些研究关注从负样本（历史失败）中学习，作为仅从正样本学习的替代方法，通过降低负样本概率和增加正样本概率来提高性能。

🔺论文方案

🔸E2CL框架：包括预调优阶段、探索阶段和训练阶段，旨在通过自我反馈和自我修正增加环境适应性。
🔸预调优阶段：作为环境探索的基础，通过任务指令和专家轨迹数据集，用自回归的方式训练代理基本的规划能力。
🔸探索阶段：通过两种方式确保数据多样性和质量 ①代理通过无教师探索（TFE），自由执行预测计划和收集轨迹来获取多样化经验 ②代理通过教师引导探索（TGE），使用强大的语言模型（如GPT-4o）自动纠正错误动作。
🔸训练阶段：代理通过微调最小化损失函数，对齐环境知识并发展自我反馈和纠正能力，包括①指令+轨迹→行动 ②指令+轨迹+行动→反馈 ③指令+轨迹+行动+反馈→纠正行动。
🔸推理阶段：提出了推测性推理，不会直接执行动作，而是通过生成反馈后预测动作变化，来决定是否执行还是纠正。

🔎分析总结

🔸E2CL训练的代理在虚拟环境中的表现优于基线方法，展示了其在实际部署中的潜力。
🔸E2CL在自我纠正能力方面表现出色，生成的正确纠正动作频率远高于行为克隆（BC）和基于提示的方法，无论是在已见任务还是未见任务中。
🔸E2CL能够生成符合环境物理约束的正确纠正动作，确保了推测性推理中的可靠自我纠正过程。