AI Agent的概念、典型设计架构、演变方向及如何做好Agent

最新推荐文章于 2025-05-23 10:18:27 发布

大模型微调教程

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量1k

点赞数 28

文章标签：人工智能语言模型大模型 prompt 自然语言处理 agent AI

本文链接：https://blog.csdn.net/weixin_72959097/article/details/147925300

版权

Manus爆火之后“通用Agent”这个概念开始频繁出现在大众视野中，很多人也说2025年是Agent元年。从Anthropic发布MCP到Google发布A2A，从Dify、Coze到Manus各种Agent领域相关技术和产品在近一段时间内层出不穷。

结合目前工作中在做的项目，参考了很多相关文献，整理成一篇博文，简单讲讲Agent是什么，怎么设计，演变历程以及如何做好Agent产品。

一、什么是AI Agent？

不同的人有不同的解释，但是总体上大同小异：

LangChain的定义：LLM本身不会执行动作，它只能输出文本。Agent是一个使用LLM作为推理引擎去决策要采取什么行动并执行这些行为来完成复杂任务的系统。

Google的定义：AI Agent是使用 AI 来实现目标并代表用户完成任务的软件系统。其表现出了推理、规划和记忆能力，并且具有一定的自主性，能够自主学习、适应和做出决定。

Anthropic的定义：Agent是一种允许LLM动态地主导自身的流程和工具使用，从而掌控任务的执行方式的系统。

基于上述概念可以总结出以下三个关键要素：

1. 使用LLM

2. 自主决策

3. 自动执行

用一张表解释AI领域常见的三个产品形态Chatbot、Copilot、Agent之间的区别和关系：

	ChatBot	Copilot	Agent
使用LLM	✅	✅	✅
自主决策	❌	❌	✅
自动执行	❌	✅	✅
说明	复杂度低可以与用户对话无法执行任务	复杂度中等可以对话和执行任务依赖事先定义好的流程	复杂度高可以对话和执行任务不依赖固定流程，可以自行决策做什么动作

工作原理

引自台大李宏毅老师在“一堂課搞懂 AI Agent 的原理 (AI如何透過經驗調整行為、使用工具和做計劃)”课程中讲解的内容，AI Agent的工作原理可以拆解为：目标、观察、行动、环境变化几个步骤并不断循环这一过程。

举个例子：AlphaGo 就是个经典的 AI Agent。它的「目标」是赢棋，「观察」是当前棋盘黑白子的位置，「行动」是在某一个坐标上落子，然后造成棋盘上的「环境变化」，此时对手回应，它再观察、再行动。

二、Agent设计典型架构

论文“The Rise and Potential of Large Language Model Based Agents: A Survey”提出了一种基于 LLM 的通用框架，由三个关键部分组成：大脑、感知和执行。

大脑模块： 作为控制器承担记忆、思考和决策等功能。它可以展示推理和规划的过程，并很好地应对未见过的任务，展现出智能体的智能。
感知模块：扩展Agent的感知能力。接收和处理包括文本、听觉和视觉模态在内的多模态环境信息。
执行模块：旨在扩展Agent的动作空间。赋予Agent具身动作能力和工具操作技能，使其能够熟练适应环境变化、提供反馈，甚至影响和塑造环境。

这三个主要模块还可以进一步拆分扩展出细分子模块，比如记忆、决策、规划、推理等等

行业大佬吴恩达2024年在 Deeplearning.AI 连发多篇blog，分享他归纳的Agent四大典型设计范式「Agentic Design Patterns」：反思、工具调用、规划和多Agent协同。

反思 Reflection

当人们使用ChatGPT等大模型而未得到满意的答复时，往往会通过给出负面反馈和调整提示词以获得一个更优的结果。如果我们将这个过程自动化，让大模型自动对自己的结论进行反思如何？

比如在一个让大模型写代码的任务中，在大模型完成代码生成后，补充一段提示词：

“对先前生成的这段代码进行检查，包括语法是否正确，风格是否统一、规范，代码是否简洁高效？并给出如何优化的建设性意见。”

然后我们可以继续基于大模型给出的优化意见，要求大模型对代码进行改写。如果持续重复“生成”-“审视”-“改写”这一过程，可以得到持续优化的结果。

除了“自我反思”，还可以让模型使用工具来评估结果；或者通过多智能体架构，如让一个智能体生成结果，而另一个智能体评估这个结果并给出建设性优化意见，这种有来有回的方式可以有助于发现错误和提升生成结果。

工具调用 Tool Use

因为LLM的核心训练方法是预训练，如果询问LLM发生在模型发布后发生的事情，模型是不知道的。比如站在2025年5月问DeepSeek R1 美国现任总统是谁，它会基于它的训练数据（更新至2023年10月）来回答美国总统是拜登。

DeepSeek回答美国总统是谁

因为LLM能力的局限性，开发者们逐渐地发现需要给模型加上一些其他能力来扩展大模型的能力范围，比如网页搜索的能力。让在大模型在回答问题的过程中，根据对问题的理解来判断是否需要调用工具，并将相应的信息作为工具的入参输入给工具。

目前有些LLM产品已经可以直接使用简单的工具了，比如ChatGPT已经可以在回答中使用搜索网页的工具。

ChatGPT回答美国总统是谁

Agent可以应用Tool Use能力做很多原本LLM做不到的事情。比如搜索功能，除了搜索网页还可以检索本地知识库；或者在办公场景中，Agent通过与办公应用交互（如读写日历、邮件等），将获取到的信息作为上下文带入结果生成，从而给出针对某些场景下更精准的回复。

规划 Planning

当我们让LLM执行一个任务时，我们可以通过微调或few-shot prompting的方法让LLM将任务拆解成几个特定的步骤，并按照顺序去执行。

比如我们给LLM一个话题，要求LLM基于话题撰写分析报告的任务，可以将任务拆解为：

将这个topic拆解成几个相关子话题；
对每个子话题进行联网搜索；
对每个子话题搜索到的内容进行总结；
将子话题总结的信息串起来，汇总成报告。

LLM执行任务会高度依赖每个步骤的执行是否成功。因为步骤和顺序是定义好的，如果中间有失败的情况，最终任务也往往无法成功执行。

另外，很多复杂任务是无法提前拆解并设计好执行步骤的。此时如果是人来执行，会根据执行任务过程中当下的情况进行判断下一步应该做什么。Agent的规划能力就是为了解决这个问题的，它可以使大模型自主决定需要按照哪些步骤来完成任务并动态进行调整。

在上面执行撰写分析报告的任务的例子中，如果在联网搜索这一步遇到网络错误，不具备规划能力的LLM模型会终止任务或给出失败的结论；而具有规划能力的Agent可能会选择打开维基百科代替Google搜索，或者寻找其他信息源。

多智能体协同 Multi-Agent Collaboration

通过开发和训练多个Agent分别扮演指定的角色，让每个Agent只执行特定的任务。比如在做研究报告的任务中让第一个Agent仅执行搜集和汇总信息的工作，第二个Agent做内容分析的工作，第三个Agent撰写最终的报告。

还有一种常见的设计范式是让一个智能体执行任务的同时让另一个Agent担任“批评家”的角色，“批评家”通过给出建设性意见来优化和提升第一个Agent的输出。

其他模块

除了上述四个典型设计范式外，近半年以来较火的设计模块还有Computer Use和 Browser Use。

Computer Use

Computer use概念由Anthropic于2024年10月推出。Anthropic称其为**“像人一样操作电脑，看屏幕、移动光标、点击按钮和输入文本”**。通过demo可以可以看到展示效果，AI将任务拆分为多个步骤，每一步先描述它的思考过程，然后展示它对电脑执行了哪些操作。

Anthropic「computer use」demo页面

25年1月23日，OpenAI 发布了Computer-Using Agent（CUA），其结合了GPT-4o的视觉能力和强化学习实现的高级推理能力，CUA可以像人一样操作屏幕上的按钮、菜单栏和文本框。

OpenAI「Computer-using Agent」demo 页面

Browser Use

Browser Use框架是一个开源的AI驱动的浏览器自动化工具，通过集成LLM实现网页操作与数据交互。“browser use.com” 上罗列出了它们的部分特性：

视觉+HTML提取
复杂任务时对多浏览器tab页处理
元素追踪：提取点击元素的路径表达式
自我修正
支持多种大模型

Demo演示 - 自动将物品放到购物车并结账

目前很多Agent类产品都使用browser use框架或自己重构browser use方法，比如Manus在社媒上证实了他们使用了Browser Use的开源代码。

在Manus官方发布的demo演示中，可以从个别镜头中截取出Browser Use执行时的效果。

三、Agent 的智能化分级及演变历史

Hugging Face的co-founder兼CSO Thomas Wolf在“Building Code Agents with Hugging Face smolagents”课程中将Agent 的智能化程度进行等级划分：

一颗星：LLM输出只在程序的工作流中起简单决策的作用（Router）
两颗星：LLM可以调用外部工具（Tool call）
三颗星：LLM可以分步决策是否继续执行、迭代或终止行为（Multi-step Agent）；或一个Agent驱动另外的Agent执行任务（Multi-Agent）

随着AI技术的快速发展，Agent的能力在逐渐演进，新的Agent形态也在不断被解锁。在Multi-step agent之后，可以自己写并执行代码的Code agent被视为能力更强的agent。

因为agent执行任务时可以先看看是否有现成的工具可以使用，如果没有，code agent干脆自己现场造一个。

四、思考：如何能将Agent做得更好

1. 给Agent配置「最强大脑」

随着LLM的快速进化，各头部模型厂商新发布的LLM能力越来越强。比如从DeepSeek R1和GPT-o1开始模型具备长思维链能力，可以执行需要深度推理的任务；GPT-4 Turbo可以支持128k token上下文长度，而Gemini 2.5 Pro支持100万token上下文长度，可以接受更多的信息。LLM能力越强，Agent的智能化上限越高。在开发Agent时，尽量使用当下能力最强的LLM作为Agent的大脑。

2. 构建充分的Context环境

有时候虽然Agent具有很强的能力，但是因为没有足够的背景信息，不了解任务的前因后果，在执行任务时无法充分发挥其能力。更有可能因为方向理解错了，最终得到的结果完全不是我们想要的。

因此，如果我们通过产品的工程化能力，能够给Agent创造更好的上下文环境，让Agent在执行任务时可以带入必要的背景信息，一定可以给出更符合用户需求场景的结果。

比如最近开始逐渐流行的AI 浏览器就是一个例子，相比chatbot仅仅只有一个聊天框作为上下文交互界面，以浏览器作为构建context环境的载体可以通过理解用户浏览过哪些网页，看过什么文字，点过哪些按钮等等行为，都可以作为Agent执行任务的背景信息。背景信息越多，Agent越理解用户想要什么。

3. 用好工具

「工欲善其事，必先利其器」。Agent与ChatBot的本质不同是可以使用工具，贴合需求场景选择并使用适合的工具可以事半功倍。随着MCP的推出，基于MCP协议开发的各种AI工具层出不穷。开发者应该结合Agent的定位给项目关联配置好最新最强的工具。

比如对于通用Agent，用好computer use、browser use等工具可以低成本的高效执行很多通用类任务而无需对每个任务单独去开发一个工具。

对于垂类Agent，则应针对自身定位选择定制化的工具。比如规划旅行计划的Agent应该考虑接入地图、美食点评、机酒订票类工具。

4. 建立信任

尽管目前AI已在多个领域展现出强大的能力，但人们对其输出结果的信任度仍处于逐步建立的过程中。要加强人们对Agent的信任感，需要增加更多的透明度。比如DeepSeek R1 在回答问题时能够清晰、系统地展示其推理过程，这种“可解释性”的增强，使得用户可以“看到”AI是如何一步步推导出结论的。

在Agent执行任务时，也需要让用户看到推理和执行的过程，从而建立信任关系。

5. 理解和应用RL

强化学习（Reinforcement Learning, RL）与 AI Agent的理念之间有着紧密而深层的关系，可以说：

「RL 是实现 AI Agent 的核心方法之一，而 AI Agent 是 RL 应用的理想载体。」

RL的本质是通过试错来学习：Agent 在与环境交互的过程中，根据获得的奖励（Reward）不断调整策略，最终学会如何在复杂环境中做出最优决策。

因此在设计Agent时，需要定义评价和奖励机制，要让Agent在执行每个步骤时知道自己做的好不好，是否达成了目标，从而不断接近最优的结果。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！