智体设计模式：基于基础模型的智体架构模式集

硅谷秋水

已于 2024-07-29 00:24:05 修改

阅读量378

点赞数 9

分类专栏：大模型智能体文章标签：语言模型机器学习人工智能

于 2024-07-29 00:06:24 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140746423

版权

大模型同时被 2 个专栏收录

365 篇文章 1 订阅

订阅专栏

智能体

90 篇文章 0 订阅

订阅专栏

24年6月来自澳大利亚科学局 CSIRO Data61的论文“Agent Design Pattern Catalogue:A Collection Of Architectural Patterns For Foundation Model Based Agents ”。

基于基础模型的生成人工智能促进了智体的开发和实施，智体可以利用推理和语言处理能力发挥主动、自主的作用，以实现用户的目标。然而，设计智体要考虑目标寻求（包括生成工具性目标和规划），仍然缺乏系统的知识来指导从业者，例如基础模型固有的幻觉、推理过程的可解释性、复杂的责任制等。为了解决这个问题，该综述试图了解最先进的基于基础模型智体和更广泛的生态系统。本文提出一个由 18 种架构模式组成的模式集，并分析了背景、动力和权衡。

尽管当前研究者在AI智体领域投入了巨大努力，但从业者在构建和实施基于基础模型（Foundational Model，FM）智体方面面临着陡峭的学习曲线。本文提出一个用于设计基于FM的智体架构模式目录。在软件工程中，架构模式是软件设计中常见问题的一个可重用的解决方案。

如图所示是模式提取和收集过程。首先，对基于 FM 的智体进行系统的文献综述 (SLR) [5]。根据一系列预设标准选择相关论文，并进行正向和反向滚雪球过程以识别遗漏的材料。在完成论文池后，对选定的材料进行了质量评估，以确保工作质量。最后，纳入了 57 项研究进行数据提取和综合。根据研究结果，提出一种面向模式的基础模型智体参考架构。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-awFwpgb1-1722182768238)(https://i-blog.csdnimg.cn/direct/eea8c367f65f4eea9c6dcc3eea20a0ca.png)]

根据报告的发现，深入分析已识别的模式，以构建集成的基于 FM 的智体。通过 SLR，发现在开发和实施集成智体的系统中，面临一系列架构设计挑战。

表 1 概述收集到的18种架构模式：

被动目标创建者：通过对话界面分析用户的清晰提示
主动目标创建者：通过理解人类互动并通过相关工具捕捉背景来预测用户的目标
提示/响应优化器：根据所需的输入或输出内容和格式优化提示/响应
检索增强生成（RAG）：增强知识可更新性，同时保持基于内部基础模型的智体/系统实现的数据隐私
一次性模型查询：在单个实例中访问基础模型以生成规划所需的所有步骤，以实现成本效益和简单性
增量模型查询：在规划生成过程的每个步骤中，访问基础模型提供补充背景，提高推理确定性和可解释性
单路规划生成器：协调生成中间步骤以实现用户目标，提高推理确定性、连贯性和效率
多路规划生成器：允许在每个中间步创建多项选择以实现用户的目标
自我反思：对规划和推理过程产生反馈，并提供自身的改进指导
交叉反思：使用不同的智体或基础模型提供反馈并改进生成的规划和推理过程
人类反思：收集人类的反馈以改进计划和推理过程，有效地与人类偏好保持一致，提高可争议性和有效性
基于投票的合作：自由表达意见，并通过提交投票达成共识，以维护公平性、问责制和集体智慧
基于角色的合作：分配各种角色，并根据角色最终做出决策，以促进分工、容错、可扩展性和问责制
基于辩论的合作：提供和接收反馈，在辩论时调整思想和行为，直到达成共识
多模态护栏：控制基础模型的输入和输出以满足特定要求，例如用户要求、道德标准和法律
工具/智体注册：保持统一、便捷的来源以选择不同的智体和工具
智体适配器：学习新的接口并将不兼容接口转换为预期接口来连接智体和工具
智体评估器：提供接口以连接智体和外部工具，完成任务，确保功能的适用性、适应性并提高灵活性

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w3DOfIw1-1722182768238)(https://i-blog.csdnimg.cn/direct/decd65962d964c69b2294771e369914e.png)]

如图说明基于基础模型智体的生态系统，智体组件和不同实体之间的交互都用相关模式注释：

在上下文工程模块中，主要包含被动目标创建者（1）和主动目标创建者（2）
在模型调用模块中，主要包含提示/响应优化器（3）、一次性模型查询（5）和增量模型查询（6）。
在规划能力中，主要包括单路规划生成器（7）、多路规划生成器（8）以及自我反思（9）
在行动能力中，主要包含检索增强生成（4）以及工具/智体注册（16）。
在多智体协作方面，主要包含交叉反思（10）以及基于投票的、基于角色的或基于辩论的合作（12-14）。
在人机协同方面，主要包含人类反思（11）和智体评估器（17）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G9bVhKTt-1722182768239)(https://i-blog.csdnimg.cn/direct/9b229b167a6b4b36be1d1def4b9847ec.png)]

当用户与智体交互时，被动目标创建者和主动目标创建者可以帮助理解用户的意图和环境信息，并在上下文工程中形式化最终目标，而提示/响应优化器根据预定义的模板细化对其他智体/工具的提示或指令，以满足某些格式或内容要求。根据用户的输入，智体通过检索增强生成（RAG）从知识库中获取其他上下文信息。然后，它通过单路规划生成器和多路规划生成器构建规划，将最终目标分解为可操作的任务。在此过程中，可以进行一次性模型查询和增量模型查询。

应审查生成的规划以确保其准确性、可用性、完整性等。自我反思、交叉反思和人类反思可以帮助智体从不同的反思实体收集反馈，并相应地改进规划和推理步骤。之后，智体可以将任务分配给其他基于狭义人工智能或非人工智能的系统，调用外部工具，并通过工具/智体注册使用一组智体来实现目标。特别是，智体可以处理相同的任务，并通过基于投票、基于角色或基于辩论的合作最终确定结果。例如，智体可以充当不同的角色，如协调员和工作者。智体适配器不断学习不同工具的接口，并将它们转换为 FM 友好的环境。可以应用多模态护栏来管理和控制基础模型的输入/输出。

关于现有模式的讨论：

与现有模式的集成。集成不同的模式有助于构建和开发全面且值得信赖的智体。特别是，所提出的模式目录可以与负责任的 AI 模式 [70] 一起应用，以确保智体以负责任的方式行事。

遵守法规和标准。保持智体与国际和国内法规和标准的一致性应被视为开发商在不同国家和地区提供智体服务的基本因素。未来的工作可以提取和分析每项法规和标准中的需求，并将拟议的模式目录映射到需求上。

基于基础模型智体的评估。对智体和底层基础模型的评估对于确保它们按预期运行非常重要。大多数模式的优点和缺点都是软件质量属性，仍然需要量化以获得细粒度的指标和规则。例如，问责制可以进一步分为责任、可审计性和可补救性三个标准，每个标准都有自己的流程、资源和产品指标 [73]。适当的量化可以促进对智体的评估并验证应用模式的有效性。

硅谷秋水

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
智体设计模式：基于基础模型的智体架构模式集

24年6月来自澳大利亚科学局 CSIRO Data61的论文“Agent Design Pattern Catalogue:A Collection Of Architectural Patterns For Foundation Model Based Agents ”。
复制链接

扫一扫

专栏目录