CMAT:提升小型语言模型的多智能体协作调优框架

人工智能咨询培训老师叶梓 转载标明出处

大模型(LLMs)已经成为自然语言处理(NLP)的基石。然而,这些模型的有效运行仍然在很大程度上依赖于人为输入来准确引导对话流程。为了解决这一问题,来自华东交通大学的梁雪晨、广东工业大学的陶美玲、多伦多大学的史天宇以及北京Genfun.ai的谢一婷共同提出了一种创新的框架——协作多智能体调优(CMAT)。

方法

CMAT框架采用了先进的监督式微调技术,例如低秩适应(LoRA)和提示调优(PTuning),利用预训练的数据集如AgentBench,并结合了交互式环境参与和记忆更新来进一步优化模型性能。在 CMAT 框架中(图2),用户给助手分配任务,助手根据短期和长期记忆生成 SQL 命令:短期记忆提供来自轨迹历史的即时上下文,而自反输出存储为长期记忆。检查者在环境中执行 SQL 命令前验证其正确性。

在多智能体系统中,参与者(Actor)通过大模型在行为生成中起着至关重要的作用。参与者响应环境状态的观察来生成文本和动作,同时使用反思来评估和调整其行为。在传统的强化学习(RL)框架中,参与者根据特定策略决定行动,并接收有关环境当前状态的信息。在CMAT框架中,参与者模型利用了链式思考(Chain of Thought)和ReAct等方法,增强了传统文本生成模型,使其能够深入到行为生成的不同方面。

算法1 CMAT框架描述了初始化过程、任务分配、行动执行、检查器验证、策略更新和检查器策略更新等步骤。通过这个循环,系统不仅确认了正确的行动,而且还包括根据检查器的反馈更新策略π,创建了一个持续的学习和调整循环。每一次迭代都旨在通过实践和反思优化助手的决策策略,提高任务执行的效率和准确性。

长期记忆对大模型至关重要,它不仅是数据的存储库,更是一个整合的知识管理系统,让模型能长期保留和访问关键信息。研究显示,利用心理语言学中的链式思考(CoT)策略,能显著提升模型解决问题的能力。特别是,先进行CoT再生成答案,比先有答案再构建CoT,能更有效地提高答案的正确率,表明了生成顺序的重要性。

短期记忆则关注即时信息处理,对大模型快速适应变化至关重要,它通过实时反馈机制,使模型能迅速调整策略以应对新情况。

大模型正逐渐采用自我反思机制来优化决策。CMAT框架通过模拟计算与认知的协作,让模型通过反思过去的行动来优化策略。在这一过程中,助手执行任务,检查器验证结果,基于反馈不断调整策略,形成一个持续的学习和调整循环。

综合长期和短期记忆的优势,大模型能更有效地模拟人类的认知过程,提供更自然的交互体验,为AI的未来研究和优化模型性能提供了新的方向。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
 

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

研究团队对智能代理在六个关键领域进行了严格的测试,以确保它们能够应对多样化的实际挑战。这些领域包括将大模型无缝集成到操作系统(OS)中,强调安全性和用户交互;使用SQL进行真实的数据库(DB)操作;在模拟电子商务平台WebShop(WS)上执行任务;构建和使用知识图谱(KG)以增强语义理解;使用M2W数据集进行复杂的网络任务,这是首个用于开发遵循语言指令的通用网络代理的数据集;以及在基于文本的ALFWorld(ALF)中应用抽象推理和视觉任务。

研究中所使用的数据集是通过自行收集的方法精心构建的,旨在提供一个丰富多样的测试环境,全面评估深度学习模型在各种任务中的性能。数据集的构建包括数据收集、筛选、增强和知识蒸馏等关键过程。通过详细的筛选和处理,研究团队确保了数据集的准确性和一致性,只保留了与测试目标直接相关的高质量样本。面对数据不平衡和样本不足的问题,研究团队采用了数据增强和知识蒸馏技术,从大量收集的数据中提取最有价值的信息,构建了一个高效且精炼的测试数据集。

研究团队对TinyAgent-1.8B和CodeLlama系列模型(CodeLlama7B和CodeLlama13B)进行了全面的性能评估,旨在探索它们在多任务检查方面的能力,包括但不限于代码修正、操作系统配置、数据库查询优化和WS。实验结果表明(表1),TinyAgent-1.8B在跨任务性能评估中显示出显著的优势,与CodeLlama系列模型相比。这种性能不仅在代码修正任务中显著,而且在其他检查任务如操作系统配置、数据库查询优化和WS管理中也非常突出。这些发现突出了TinyAgent-1.8B不仅具有高效的代码分析能力,而且广泛适用于其他复杂系统的检查和优化。

在研究的基线部分,选择了Qwen-1.8B和CodeLlama-7B作为关键基准,以评估TinyAgent系列的性能,排除了CMAT框架的影响。

表2中的结果显示了本微调方法的有效性,特别是对于TinyAgent模型。Tinyagent-1.8B在KG任务中表现出显著的性能,与GPT-3.5等先进模型相当。Tinyagent-7B也展示了它的优势,特别是在DB任务中,它超越了其基础模型(CodeLlama-7B),并提供了与GPT-4竞争的分数。这些发现表明,TinyAgent模型有能力在某些方面匹配甚至超越具有更大参数的模型。另外CMAT框架的潜力被突出显示,它增强了小规模模型的能力,使TinyAgent模型能够与GPT-4等先进模型的性能紧密竞争。

在测试框架的错误分析中,模型在DB任务中面临的常见挑战,如在理解用户请求、执行操作和行动前问题分析方面的困难。许多模型只是对特定指令做出"OK"的回应,而没有执行实际的SQL操作,这表明在将用户请求转化为数据库操作方面存在差距。模型经常提供表面的确认,而没有提供精确的执行或深入的问题分析,未能满足用户的期望。相比之下,TinyAgent系列在理解和将用户请求转化为实际SQL操作方面表现出色,有效地理解和执行任务。它提供清晰的响应,并遵循用户指定的SQL格式,全面满足用户期望。另外TinyAgent在行动前的问题分析和反思表明了其先进的问题解决技能和对问题的深刻理解。

表3展示了对TinyAgent-7B模型的消融研究,描绘了特定于代理的指令和一般指令对任务性能的影响。复合模型TinyAgent-7B在WS和DB任务中表现出最高的效率,这表明它在处理复杂的电子商务交互和数据库管理方面的能力。仅代理变体的性能有所下降,这表明尽管任务特定指令至关重要,但它们对于KG等任务的广度并不完全足够。仅一般模型的性能在所有任务中都显著降低,在KG和ALF中完全无法执行,突出了特定于代理的指令的不可或缺性。这些数据强调了整合特定于代理和一般指令的必要性,以提高AI模型在多样化任务领域的多功能性和有效性。

图1展示了Llama-2-7b和TinyAgent-7b在数据库案例中的比较研究。在具有反射机制的数据库任务中,Llama-2-7b在反思后仍然会犯错误,而TinyAgent-7b在反思第一次失败的尝试后调整了其操作。没有反射机制时,TinyAgent-7b重复相同的操作并最终未能完成任务。这表明了TinyAgent-7b在反思和调整策略方面的优势。

论文链接:https://arxiv.org/pdf/2404.01663

项目链接:GitHub - heimy2000/CMAT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值