人工智能咨询培训老师叶梓 转载标明出处
大模型(LLMs)已经成为自然语言处理(NLP)的基石。然而,这些模型的有效运行仍然在很大程度上依赖于人为输入来准确引导对话流程。为了解决这一问题,来自华东交通大学的梁雪晨、广东工业大学的陶美玲、多伦多大学的史天宇以及北京Genfun.ai的谢一婷共同提出了一种创新的框架——协作多智能体调优(CMAT)。
方法
CMAT框架采用了先进的监督式微调技术,例如低秩适应(LoRA)和提示调优(PTuning),利用预训练的数据集如AgentBench,并结合了交互式环境参与和记忆更新来进一步优化模型性能。在 CMAT 框架中(图2),用户给助手分配任务,助手根据短期和长期记忆生成 SQL 命令:短期记忆提供来自轨迹历史的即时上下文,而自反输出存储为长期记忆。检查者在环境中执行 SQL 命令前验证其正确性。
在多智能体系统中,参与者(Actor)通过大模型在行为生成中起着至关重要的作用。参与者响应环境状态的观察来生成文本和动作,同时使用反思来评估和调整其行为。在传统的强化学习(RL)框架中,参与者根据特定策略决定行动,并接收有关环境当前状态的信息。在CMAT框架中,参与者模型利用了链式思考(Chain of Thought)和ReAct等方法,增强了传统文本生成模型,使其能够深入到行为生成的不同方面。