📖标题:StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs
🌐来源:arXiv, 2410.07745
摘要
🔸尽管具有强大的推理和推断能力,但大型语言模型(LLM)仍然需要外部工具来获取实时信息检索或特定领域的专业知识来解决复杂的任务,这被称为工具学习。现有的工具学习方法主要依赖于专家轨迹的调整,从语言学的角度关注令牌序列学习。然而,有几个挑战:1)模仿静态轨迹限制了它们泛化到新任务的能力。2) 即使是专家轨迹也可能是次优的,可能存在更好的解决方案路径。
🔸在这项工作中,我们介绍了StepTool,这是一种新颖的步进粒度强化学习框架,用于改进LLM中的工具学习。它由两个部分组成:步进粒度奖励整形,根据工具调用成功及其对任务的贡献在每次工具交互时分配奖励;步进粒度优化,使用策略梯度方法以多步方式优化模型。
🔸实验结果表明,StepTool在多步、基于工具的任务中明显优于现有方法,为复杂的任务环境提供了一种鲁棒的解决方案。代码在https://github.com/yuyq18/StepTool.