Agent = LLM(大型语言模型)+ 记忆 + 规划技能 + 工具使用
四个方面:规划(planning),工具(Tools),执行(Action), 和记忆(Memory)

在 LLM 支持的自主Agent系统中,LLM 充当Agents的大脑,并辅以几个关键组成部分:
- 规划
- 子目标和分解:Agents将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。
- 反思和完善:Agents可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。
- 记忆
- 短期记忆:我认为所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。
- 长期记忆:这为Agents提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索来实现。
- 工具使用
- Agents学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。
Agent决策流程:

感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力。
规划(Planning)是指Agent为了某一目标而作出的决策过程。
行动(Action)是指基于环境和规划做出的动作。
其中,Policy是Agent做出Action的核心决策,而行动又通过观察(Observation)成为进一步Perception的前提和基础,形成自主地闭环学习过程。
生成Agents架构
生成Agents的设计将 LLM 与记忆、规划和反射机制相结合,使Agents能够根据过去的经验进行行为,并与其他Agents进行交互。(生成式代理的整体行为分为【记忆与检索】【反思】【规划与反应】三大部分构成)

代理感知它们的环境,并将所有感知保存在称为记忆流的全面记录中,记录了代理的经历。根据它们的感知,该架构检索相关的记忆,然后使用这些检索到的行为来确定一个动作。这些检索到的记忆还用于形成更长期的计划,并创建更高级别的反思,这两者都被输入到记忆流中以供将来使用。

未来方向
AI-Agents大致上会分为两大方向:Autonomous Agents和Generative Agents
Autonomous Agents以Auto-GPT为例,代表了通过自然语言的需求描述,能够自动化执行各项任务达成目标结果,在这个协作关系中,Autonomous Agents是服务于人,具有明确的工具属性;
Generative Agents以斯坦福发表的25个智能体的虚拟小镇为例,Generative Agents作为一个具有类人格特征、自主决策能力以及长期记忆等特征,更偏向“原生性”概念的AI-Agents,在这个协作关系中,Agents具有数字原生意义的社会关系,不仅仅是服务于人的工具;
总结
AI Agent =>优秀的prompt工程、强大的大语言模型、好用灵活的工具、多模态模型的调用能力、人机协作的交互等。
AI Agent问题:效果不稳定、复杂推理能力不够强、外部生态融合不高,主要以搜索和文件读取为准、多步推理成本过高、响应时间太久、上下文的限制(或者说如何准确的利用长期记忆)等。
解决方法:
1、优化prompt,减少不必要的token消耗
2、成本优化和监控,达到次数就停止
3、向量缓存技术,相似的问题不经过大模型处理,直接出结果
4、微调开源大模型来增强工具调用能力
5、向量数据库。
1万+

被折叠的 条评论
为什么被折叠?



