CMAT:提升小型语言模型的多智能体协作调优框架

人工智能咨询培训老师叶梓 转载标明出处

大模型(LLMs)已经成为自然语言处理(NLP)的基石。然而,这些模型的有效运行仍然在很大程度上依赖于人为输入来准确引导对话流程。为了解决这一问题,来自华东交通大学的梁雪晨、广东工业大学的陶美玲、多伦多大学的史天宇以及北京Genfun.ai的谢一婷共同提出了一种创新的框架——协作多智能体调优(CMAT)。

方法

CMAT框架采用了先进的监督式微调技术,例如低秩适应(LoRA)和提示调优(PTuning),利用预训练的数据集如AgentBench,并结合了交互式环境参与和记忆更新来进一步优化模型性能。在 CMAT 框架中(图2),用户给助手分配任务,助手根据短期和长期记忆生成 SQL 命令:短期记忆提供来自轨迹历史的即时上下文,而自反输出存储为长期记忆。检查者在环境中执行 SQL 命令前验证其正确性。

在多智能体系统中,参与者(Actor)通过大模型在行为生成中起着至关重要的作用。参与者响应环境状态的观察来生成文本和动作,同时使用反思来评估和调整其行为。在传统的强化学习(RL)框架中,参与者根据特定策略决定行动,并接收有关环境当前状态的信息。在CMAT框架中,参与者模型利用了链式思考(Chain of Thought)和ReAct等方法,增强了传统文本生成模型,使其能够深入到行为生成的不同方面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值