Agent-FLAN——为大模型设计有效的智能体调优方法

人工智能咨询培训老师叶梓 转载标明出处

当大模型作为智能体(agents)时,与基于API的模型相比,性能仍然有较大差距。如何将智能体能力整合到通用的LLMs中,成为一个关键且紧迫的问题。由此中国科学技术大学自动化系和上海人工智能实验室的研究者提出了Agent-FLAN方法,旨在通过有效的数据和方法设计,提升大模型(LLMs)在智能体任务中的表现。

方法

研究者们提出了三个关键观察结果:

观察1:智能体训练数据常常与特定的格式(如ReAct和JSON)混合,这导致模型从其预训练的自然对话领域偏离,从而在调优过程中可能过度拟合格式而非学习实际的推理能力。

观察2:通过将训练数据按照模型的不同能力(如检索、指令跟随、推理和理解)进行分解(表3),研究者们发现模型在这些不同能力上显示出不同的学习速度。这表明,为了优化智能体性能,需要根据模型在不同能力上的学习效率来平衡训练数据。

观察3:现有调优方法往往忽视了模型在生成输出时可能出现的幻觉问题,即模型可能会生成与用户查询不相关或不存在的功能响应。这种现象在实际应用中尤为重要,因此需要更多关注和改进调优机制来有效评估和减少这类问题。

并基于这些发现,研究者提出了Agent-FLAN方法。他们通过实验设置,对Llama2系列模型进行了微调,并构建了一个与AgentTuning相一致的数据集,这个数据集包括了多种训练数据源,如ALFWorld、WebShop、Mind2Web、知识图谱、操作系统、数据库和ToolBench,涵盖了从通用智能体到工具使用的不同领域。他们的评估任务包括了复杂问答、网页浏览、科学实验和工具使用等复杂交互任务。

LLMs最初是在自然语言语料库上进行预训练的,但智能体数据通常以特定格式呈现,如ReAct和JSON,这在微调过程中可能导致模型学习偏离其预训练领域。为了解决这个问题,研究者提出了将格式化数据转化为自然对话的方法。他们首先用多轮对话替换了传统的‘THOUGHT-ACTION-ACTIONINPUT’模板,并通过插入引出语句进一步分解JSON参数。图5展示了这种对齐方式,它允许研究者们显式地将智能体任务分解为不同的能力,从而实现更细粒度的数据平衡。通过这种方式,模型能够在不专注于严格格式协议的情况下,充分提升其智能体能力。

研究者们进一步探讨了如何通过能力分解和数据平衡来优化智能体调优。他们明确地将智能体数据沿着每个任务所需的能力(包括推理、检索、理解和指令跟随)进行分解。表2显示,推理和理解是最有益的混合,其次是检索和指令跟随。当减少推理和理解数据的比例时,最终性能有所下降,而减少检索和指令跟随的数据量对性能影响较小,甚至有所提升。这些发现与先前的观察结果一致,表明LLM在不同能力上的学习能力不同,因此需要根据模型的不同学习率来平衡训练数据。

为了解决智能体任务中的幻觉问题,研究者们引入了负样本学习。他们首先建立了Agent-H基准测试,从格式层面和动作层面评估LLMs的幻觉问题。图6展示了通过用户查询和系统提示分割的四种常见智能体任务情境。通过精心策划多样化的负训练样本来覆盖上述各种情况,包括在没有提供工具的情况下用户请求工具,以及在提供工具的情况下用户请求正常对话。这种负样本学习策略显著减少了幻觉问题,同时保持了在T-Eval上的高性能。

通过这些方法,Agent-FLAN在多个智能体评估基准上取得了显著的性能提升,证明了其在智能体调优方面的有效性。表3报告了在Agent-H上的实验结果,以及T-Eval上的得分,全面展示了智能体能力和幻觉问题的改善情况。这些结果进一步证实了智能体调优的必要性,并指出了当前智能体调优方法的内在缺陷。通过引入负样本学习,Agent-FLAN不仅提高了模型对智能体任务的处理能力,还减少了幻觉问题,从而在实际应用中提供了更好的性能。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

研究者们首先分析了数据规模对智能体能力的影响。他们将Agent-FLAN数据集等分为25%、50%、75%和100%,并观察不同数据量对智能体能力的提升效果。图7显示,即使只有25%的训练样本,智能体能力的提升也最为显著。这表明原始的Llama2模型在智能体任务上的能力较弱,需要特定的训练来激发其潜能。随着数据量的增加(50%、75%),性能的提升仍在持续,但增速放缓,这表明单纯扩大智能体训练语料库的规模对模型能力的提升作用有限。因此,丰富训练语料库的多样性或提高其质量可能是提升语言智能体性能的关键。

研究者评估了7B、13B和70B三种不同规模的Llama2模型,图8结果表明,随着模型规模的增加,性能持续改善且没有饱和迹象,证明了更大的模型参数确实能够保证更好的性能。特别是,与原始的ReAct调优相比,特定的智能体调优在模型规模增加时带来了稳步的性能提升。这可能是因为更大的模型已经具备了智能体任务所需的基本能力,如推理和检索。因此,用适当方式和一定量的智能体调优语料来激发智能体能力显得更为重要。

研究者们进一步分析了智能体调优对模型通用能力的影响。他们使用MMLU(语言知识)、GSM8K(数学能力)和HumanEval(编码能力)三种广泛采用的通用能力评估指标来测试模型。表4显示,引入智能体训练语料不仅增强了智能体任务上的能力,还为模型的通用能力带来了额外的好处。这可能是因为智能体语料包含了推理和指令跟随等基本能力,这些能力也适用于其他领域。这进一步表明,将智能体数据适当地整合到当前的LLM训练语料中,可以带来更好的性能表现。

图9展示了在ToolBench和Agent-H数据集上,AgentTuning与Agent-FLAN的比较研究。在ToolBench数据集上,由于能力分解和对“理解”能力的更多关注调优,Agent-FLAN能够跟上给定的长工具信息内容中特定的API信息,而AgentTuning则因幻觉而失败。在Agent-H数据集上,AgentTuning模型展示了无意义的工具使用,而Agent-FLAN则直接给出了首选的响应。

通过这些分析,研究者们得出结论,Agent-FLAN不仅在智能体任务上表现出色,还在提升模型的通用能力方面具有积极作用。这些发现为未来智能体调优和语言模型的发展提供了宝贵的见解。

论文链接:https://arxiv.org/pdf/2403.12881

代码链接:https://github.com/InternLM/Agent-FLAN 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值