
📖标题:ToolRL: Reward is All Tool Learning Needs
🌐来源:arXiv, 2504.13958
🌟摘要
🔸当前的大型语言模型(LLM)经常进行监督微调(SFT)以获得工具使用能力。然而,SFT很难将其推广到不熟悉或复杂的工具使用场景。强化学习(RL)的最新进展,特别是使用类似R1的模型,已经证明了有前景的推理和泛化能力。然而,工具使用的奖励设计带来了独特的挑战:可能会使用不同的参数调用多个工具,而粗粒度的奖励信号,如答案匹配,无法提供有效学习所需的细粒度反馈。
🔸在这项工作中,我们首次对强化学习范式中工具选择和应用任务的奖励设计进行了全面研究。我们系统地探索了各种各样的奖励策略,分析了它们的类型、规模、粒度和时间动态。基于这些见解,我们提出了一种针对工具使用任务量身定制的原则性奖励设计,并将其应用于使用组相对策略优化(GRPO)训练LLM。
🔸对不同基准的实证评估表明,我们的方法产生了稳健、可扩展和稳定的训练,比基础模型提高了17%,比SFT模型提高了15%。这些结果突显了周到的奖励设计在提高LLM的工具使用能力和泛化性能方面的关键作用。所有代码的发布都是为了方便未来的研究。详见https://github.com/ qiancheng0/ToolRL
🛎️文章简介
🔸研究问题:大语言模型(LLM)在工具集成推理(TIR)任务中,如何有效学习和优化奖励策略?
🔸主要贡献:论文提出了一种针对TIR的奖励设计框架,并通过强化学习(RL)算法验证了其有效性,为未来的LLM代理训练提供了实证路线图。
📝重点思路
🔸采用强化学习(RL)方法增强大型语言模型的工具集成推理能力,替代传统的监督微调(SFT)方法。
🔸定义工具集成推理(TIR)任务,包括多步推理和工具调用的动态交互。
🔸开发定制的奖励设计,包括格式奖励和正确性奖励,细化奖励信号以反映真实的工具使用复杂性。
🔸利用群体相对策略优化(GRPO)框架进行模型训练,优化奖励信号的使用。
🔎分析总结
🔸通过实验,论文发现细粒度的奖励分解使学习过程更加稳定和有效。
🔸GRPO训练的模型在多种工具使用和问答基准上,性能超过了基础模型和SFT模型,展示了更强的泛化能力。
🔸实验结果表明,奖励设计的动态调整和细粒度评估显著改善了模型在工具调用中的表现,提升了其自主性和反思能力。
💡个人观点
论文的核心是将强化学习应用于工具集成推理,提出了精细化的奖励设计策略。
🧩附录


141

被折叠的 条评论
为什么被折叠?



