Agent

原创已于 2025-08-10 15:19:57 修改 · 446 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#ai

于 2024-04-18 15:36:21 首次发布

AIGC 专栏收录该内容

1 篇文章

订阅专栏

Agent = LLM（大型语言模型）+ 记忆 + 规划技能 + 工具使用
四个方面:规划（planning),工具（Tools),执行(Action), 和记忆(Memory)
在这里插入图片描述
在 LLM 支持的自主Agent系统中，LLM 充当Agents的大脑，并辅以几个关键组成部分：

规划
- 子目标和分解：Agents将大型任务分解为更小的、可管理的子目标，从而能够有效处理复杂的任务。
- 反思和完善：Agents可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并针对未来的步骤进行完善，从而提高最终结果的质量。
记忆
- 短期记忆：我认为所有的上下文学习（参见提示工程）都是利用模型的短期记忆来学习。
- 长期记忆：这为Agents提供了长时间保留和回忆（无限）信息的能力，通常是通过利用外部向量存储和快速检索来实现。
工具使用
- Agents学习调用外部 API 来获取模型权重中缺失的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。

Agent决策流程：
在这里插入图片描述
感知（Perception）是指Agent从环境中收集信息并从中提取相关知识的能力。
规划（Planning）是指Agent为了某一目标而作出的决策过程。
行动（Action）是指基于环境和规划做出的动作。
其中，Policy是Agent做出Action的核心决策，而行动又通过观察（Observation）成为进一步Perception的前提和基础，形成自主地闭环学习过程。
生成Agents架构
生成Agents的设计将 LLM 与记忆、规划和反射机制相结合，使Agents能够根据过去的经验进行行为，并与其他Agents进行交互。（生成式代理的整体行为分为【记忆与检索】【反思】【规划与反应】三大部分构成）
在这里插入图片描述
代理感知它们的环境，并将所有感知保存在称为记忆流的全面记录中，记录了代理的经历。根据它们的感知，该架构检索相关的记忆，然后使用这些检索到的行为来确定一个动作。这些检索到的记忆还用于形成更长期的计划，并创建更高级别的反思，这两者都被输入到记忆流中以供将来使用。
在这里插入图片描述

未来方向
AI-Agents大致上会分为两大方向：Autonomous Agents和Generative Agents
Autonomous Agents以Auto-GPT为例，代表了通过自然语言的需求描述，能够自动化执行各项任务达成目标结果，在这个协作关系中，Autonomous Agents是服务于人，具有明确的工具属性；
Generative Agents以斯坦福发表的25个智能体的虚拟小镇为例，Generative Agents作为一个具有类人格特征、自主决策能力以及长期记忆等特征，更偏向“原生性”概念的AI-Agents，在这个协作关系中，Agents具有数字原生意义的社会关系，不仅仅是服务于人的工具；

总结
AI Agent =>优秀的prompt工程、强大的大语言模型、好用灵活的工具、多模态模型的调用能力、人机协作的交互等。
AI Agent问题：效果不稳定、复杂推理能力不够强、外部生态融合不高，主要以搜索和文件读取为准、多步推理成本过高、响应时间太久、上下文的限制(或者说如何准确的利用长期记忆)等。
解决方法：
1、优化prompt，减少不必要的token消耗
2、成本优化和监控，达到次数就停止
3、向量缓存技术，相似的问题不经过大模型处理，直接出结果
4、微调开源大模型来增强工具调用能力
5、向量数据库。