CMAT：提升小型语言模型的多智能体协作调优框架

人工智能大模型讲师培训咨询叶梓

已于 2024-11-03 21:44:47 修改

阅读量1.4k

点赞数 30

分类专栏：人工智能文章标签：语言模型人工智能自然语言处理深度学习微调性能优化智能体

于 2024-09-17 13:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44292902/article/details/142207330

版权

人工智能咨询培训老师叶梓转载标明出处

大模型（LLMs）已经成为自然语言处理（NLP）的基石。然而，这些模型的有效运行仍然在很大程度上依赖于人为输入来准确引导对话流程。为了解决这一问题，来自华东交通大学的梁雪晨、广东工业大学的陶美玲、多伦多大学的史天宇以及北京Genfun.ai的谢一婷共同提出了一种创新的框架——协作多智能体调优（CMAT）。

方法

CMAT框架采用了先进的监督式微调技术，例如低秩适应（LoRA）和提示调优（PTuning），利用预训练的数据集如AgentBench，并结合了交互式环境参与和记忆更新来进一步优化模型性能。在 CMAT 框架中（图2），用户给助手分配任务，助手根据短期和长期记忆生成 SQL 命令：短期记忆提供来自轨迹历史的即时上下文，而自反输出存储为长期记忆。检查者在环境中执行 SQL 命令前验证其正确性。

在多智能体系统中，参与者（Actor）通过大模型在行为生成中起着至关重要的作用。参与者响应环境状态的观察来生成文本和动作，同时使用反思来评估和调整其行为。在传统的强化学习（RL）框架中，参与者根据特定策略决定行动，并接收有关环境当前状态的信息。在CMAT框架中，参与者模型利用了链式思考（Chain of Thought）和ReAct等方法，增强了传统文本生成模型，使其能够深入到行为生成的不同方面。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。