清华:细粒度强化学习优化LLM工具使用

在这里插入图片描述

📖标题:StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs
🌐来源:arXiv, 2410.07745

摘要

🔸尽管具有强大的推理和推断能力,但大型语言模型(LLM)仍然需要外部工具来获取实时信息检索或特定领域的专业知识来解决复杂的任务,这被称为工具学习。现有的工具学习方法主要依赖于专家轨迹的调整,从语言学的角度关注令牌序列学习。然而,有几个挑战:1)模仿静态轨迹限制了它们泛化到新任务的能力。2) 即使是专家轨迹也可能是次优的,可能存在更好的解决方案路径。
🔸在这项工作中,我们介绍了StepTool,这是一种新颖的步进粒度强化学习框架,用于改进LLM中的工具学习。它由两个部分组成:步进粒度奖励整形,根据工具调用成功及其对任务的贡献在每次工具交互时分配奖励;步进粒度优化,使用策略梯度方法以多步方式优化模型。
🔸实验结果表明,StepTool在多步、基于工具的任务中明显优于现有方法,为复杂的任务环境提供了一种鲁棒的解决方案。代码在https://github.com/yuyq18/StepTool.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值