前沿-如何生成AI智能体
简单来说,一个AI代理是一个系统,旨在感知其环境并采取行动以实现特定目标。它是标准大型语言模型(LLM)的演变,增强了规划、使用工具和与周围环境交互的能力。可以将代理型人工智能视为一个在工作中学习的智能助手。它遵循一个简单的五步循环来完成任务(见图1):
-
获取任务:你给它设定一个目标,比如“安排我的日程”。
-
扫描场景:它收集所有必要的信息——阅读电子邮件、查看日历和访问联系人——以了解正在发生的事情。
-
仔细考虑一下:它通过考虑实现目标的最佳方法来制定行动计划。
-
采取行动:它通过发送邀请、安排会议和更新日历来执行计划。
-
学习并提高:它观察成功的成果并作出相应调整。例如,如果重新安排会议,系统会从这次事件中学习,以增强其未来的性能。
图1:智能代理AI作为一个智能助手,通过经验不断学习。它通过一个简单的五步循环来完成任务。
特工正以惊人的速度变得越来越受欢迎。根据最近的研究,大多数大型IT公司正在积极使用这些代理,其中五分之一是在过去一年内刚刚开始使用的。金融市场也开始注意到这一点。到2024年底,人工智能代理初创公司已经筹集了超过20亿美元资金,市场估值达到52亿美元。预计到2034年,其价值预计将飙升至近2000亿美元。简而言之,所有迹象都表明AI代理将在我们未来的经济中扮演极其重要的角色。
在短短两年时间里,人工智能范式发生了显著转变,从简单的自动化发展到了复杂、自主的系统(见图2)。最初,工作流依赖于基本的提示和触发器来使用 LLMs 处理数据。这随着检索增强一代(RAG)的发展而演变,它通过基于事实信息的模型来增强可靠性。随后,我们看到了能够使用各种工具的个体AI代理的发展。今天,我们正步入“代理式人工智能”时代,在这一时代,由一系列专业代理组成的团队协同工作,以实现复杂的目标,这标志着人工智能协作能力的一次重大飞跃。
图2:从LLMs到RAG,再到Agentic RAG,最后到Agentic AI的过渡。
本书的意图是讨论专业代理如何协同工作和协作以实现复杂目标的设计模式,你将在每一章中看到一种协作和互动的范式。
在这样做之前,让我们检查跨越代理复杂度范围的示例(见图3)。
0级:核心推理引擎
虽然LLM本身不是代理,但它可以作为基本代理系统的推理核心。在“0级”配置中,LLM在没有工具、内存或环境交互的情况下运行,仅基于其预先训练的知识做出响应。其优势在于利用其广泛的培训数据来解释既定的概念。这种强大的内部推理的代价是完全缺乏时事意识。例如,如果这些信息超出了其预先训练的知识范围,它将无法确定2025年奥斯卡“最佳影片”的获奖者。
第1级:连接问题解决器
在这个层次上,LLM通过连接和利用外部工具成为一个功能代理。其解决问题的能力不再局限于其预先训练的知识。相反,它可以执行一系列操作,从互联网(通过搜索)或数据库(通过检索增强生成,或RAG)等来源收集和处理信息。有关详细信息,请参见第十四章。
例如,为了查找新的电视节目,经纪人认识到对当前信息的需求,使用搜索工具来查找,然后综合结果。重要的是,它还可以使用专业工具来提高准确性,例如调用金融API来获取AAPL的实时股票价格。这种跨多个步骤与外界互动的能力是一级特工的核心能力。
第二级:战略问题解决者
在这个层次上,代理人的能力显著扩展,包括战略规划、主动援助和自我提升,并以快速工程和上下文工程为核心赋能技能。
首先,代理超越单一工具的使用,通过战略性问题解决来解决复杂的、多部分的问题。当它执行一系列操作时,它会主动执行上下文工程:为每个步骤选择、打包和管理最相关的信息的战略过程。例如,要在两个地点之间找到一家咖啡店,它首先会使用一个地图工具。然后,它会设计出这个输出,整理出一个简短的、有重点的上下文——也许只是街道名列表——以便输入到本地搜索工具中,防止认知过载,并确保第二步的效率和准确性。要从人工智能中获得最大限度的准确性,必须给它一个简短、专注且有力的上下文。情境工程是通过战略性地从所有可用来源选择、打包和管理最关键的信息来实现这一目标的学科。它有效地管理模型有限的注意力,以防止过载,并确保在任何给定任务上实现高质量、高效的性能。详见附录A。
这个级别导致主动和持续的操作。与您的电子邮件链接的旅行助理通过从冗长的航班确认电子邮件中设计上下文来演示这一点;它只选择关键细节(航班号、日期、地点),以便后续工具调用到您的日历和天气API。
在像软件工程这样的专业领域中,代理通过应用此规程来管理整个工作流。当被分配到错误报告时,它会读取报告并访问代码库,然后战略性地将这些大型信息源设计为一个强大且集中的上下文环境,使其能够高效地编写、测试和提交正确的代码补丁。
最后,代理通过完善自己的上下文工程过程来实现自我改进。当它询问如何改进提示时,它正在学习如何更好地管理其初始输入。这使它能够自动改进为未来任务打包信息的方式,创建一个强大的自动化反馈循环,随着时间的推移,提高其准确性和效率。详细信息,请参见第17章。
图3:展示代理复杂度谱的各种实例。
第三级:协同多Agent系统的崛起
在第三层级,我们看到人工智能发展中的显著范式转变,从追求单一、全能的超级代理转向复杂、协作的多代理系统的崛起。本质上,这种方法认识到,复杂的挑战通常不是由单一的通才来解决,而是由一组专家协同工作来解决。这种模式直接反映了人类组织的结构,不同部门被分配特定的角色,并合作处理多方面的目标。这样一个制度的集体力量,就在于这种分工,以及通过协调努力所产生的协同效应。有关详细信息,请参见第七章。
要实现这一概念,请考虑推出新产品的复杂工作流程。不应由一名代理人负责处理每一个方面,而应由一名"项目经理"代理人担任中央协调人。这位经理将通过将任务委托给其他专门的代理人来协调整个过程:“市场研究”代理人负责收集消费者数据,“产品设计”代理人开发概念,以及“市场营销”代理人制作促销材料。他们成功的关键在于他们之间的无缝沟通和信息共享,确保所有个人努力一致,以实现集体目标。
虽然这种基于团队的自动化愿景已经在开发中,但必须承认当前的障碍。目前,这种多代理系统的有效性受到他们所使用的LLMs的推理限制的制约。此外,他们作为一个有凝聚力的单位真正相互学习和提高的能力仍处于早期阶段。克服这些技术瓶颈是关键的下一步,这样做将释放这一层次的深远希望:能够从始至终自动化整个业务工作流程。
代理人的未来:五大假设
AI代理的开发在各个领域,如软件自动化、科学研究以及客户服务等方面,正以前所未有的速度推进。虽然目前的系统令人印象深刻,但它们只是一个开始。下一波创新浪潮将可能集中在使代理更可靠、更具协作性,并更深入地融入我们的生活。下面是关于下一步的五个主要假设(见图4)。
假设一:总括派代理人的出现
第一个假设是,人工智能代理将从狭窄的专业领域逐渐进化为真正的通才,能够以高可靠性管理复杂、模糊和长期目标。例如,你可以给代理人一个简单的提示,比如,“计划下个季度在里斯本为我公司举办30人的异地度假。”然后,经纪人将管理整个项目数周,处理从预算审批、航班谈判到场地选择的一切事务,并根据员工反馈创建详细的行程,同时定期提供更新。达到这种程度的自主性将需要在人工智能推理、记忆以及近乎完美的可靠性方面实现根本性的突破。另一种并非相互排斥的方法是小语言模型(SLMs)的兴起。这种“乐高似”的概念涉及由小型的专业专家代理组成系统,而不是扩展单一的单一模型。这种方法承诺系统更便宜,调试更快,部署更容易。归根结底,发展大型的通用模型和组成较小的专门模型都是可行的前进道路,它们甚至可以互补。
假设二:深度个性化与主动目标发现
第二种假设认为代理人将成为高度个性化和积极主动的合作伙伴。我们正目睹新一类代理人的出现:积极主动的合作伙伴。通过学习你独特的模式和目标,这些系统开始从仅仅遵从命令转向预测你的需求。当AI系统不再仅仅是对聊天或指令做出响应时,它们便开始以代理的身份运行。他们代表用户发起和执行任务,在过程中积极协作。这超越了简单的任务执行,进入了主动发现目标的领域。
例如,如果你在探索可持续能源,代理人可能会识别你的潜在目标,并通过建议课程或总结研究来积极支持它。虽然这些系统仍在发展中,但其发展轨迹是明确的。他们会变得越来越积极主动,当他们非常相信某个行动会有帮助时,他们会学会代表你采取主动。最终,代理人会成为你不可或缺的盟友,帮助你发现并实现你尚未完全表达的抱负。
图4:关于代理商未来的五种假说
假设三:体现与物理世界的相互作用
这个假说预见到代理人会从纯粹的数字限制中解脱出来,在物理世界中运作。通过将能动AI与机器人技术相结合,我们将看到“具身代理”的兴起。与其只是预约一个手艺人,你或许可以请求你的家庭代理来修理漏水的龙头。该代理将使用视觉传感器感知问题,访问管道知识库制定计划,然后精确控制机器人机械手进行修理。这将是一个重大的步骤,缩小数字智能和物理行动之间的差距,并改变从制造和物流到老年人护理和家居维护的一切。
假设4:代理人驱动的经济
第四个假设是,高度自治的代理人将成为经济的积极参与者,创造新的市场和商业模式。我们可能会看到代理商作为独立的经济实体行事,任务是最大化某个特定结果,例如利润。一个企业家可以设立一个代理人来经营整个电子商务业务。代理商将通过分析社交媒体来识别热门产品,生成营销文案和视觉效果,通过与其他自动化系统互动来管理供应链物流,并根据实时需求动态调整定价。这种转变将创造一种新的、超高效的“代理经济”,其运行速度和规模是人类无法直接管理的。
假设5:目标驱动的变形多Agent系统
这个假设假设智能系统的出现不是从显式编程出发,而是从一个明确的目标出发。用户只需说明所希望的结果,系统就会自主地想出如何实现它。这标志着向能够在个人和集体层面上实现真正自我改进的变质多代理系统的根本转变。
该系统将是一个动态实体,而不是一个单一的代理。它将有能力分析自身的性能并修改其多代理员工队伍的拓扑结构,根据需要创建、复制或移除代理,以便为手头的任务形成最有效的团队。这种演变发生在多个层面:
● 架构修改:在最深层,个体代理可以重写自己的源代码,重新架构内部结构,以提高效率,就像最初的假设一样。
● 教学修改:在更高的层次上,系统持续进行自动提示工程和上下文工程。它完善了给每个代理的指示和信息,确保它们在最佳指导下运行,无需任何人为干预。
例如,一位企业家会简单地声明其意图:“成功推出销售手工咖啡的电子商务业务。”无需进一步编程,该系统将立即投入使用。它最初可能会产生一个“市场研究”代理和一个“品牌”代理。基于最初的发现,它可以决定去掉品牌代理,并产生三个新的专门代理:“标志设计”代理、“网店平台”代理和“供应链”代理。它会不断调整它们的内部提示以提高性能。如果网络商店代理成为瓶颈,系统可能会将其复制为三个并行的代理,在网站的不同部分工作,从而有效地实时重新架构自己的结构,以最佳地实现所宣布的目标。
结论
本质上,人工智能代理代表了与传统模型相比的重大飞跃,它作为一个自主系统,能够感知、规划并采取行动以实现特定目标。这项技术的演变正在从单一的、使用工具的代理程序发展到复杂的、协作的多代理系统,以处理多方面的目标。未来的假说预测会出现泛泛而谈、个性化甚至有形的代理人,他们将成为经济的积极参与者。这种持续的发展标志着一个重大的范式转变,即向自我改进、目标驱动的系统转变,这些系统将使整个工作流程自动化,并从根本上重新定义我们与技术的关系。
参考资料
-
Cloudera, Inc. (四月2025),96%的企业正在增加对AI代理的使用。 https://www.cloudera.com/about/news-and-blogs/press-releases/2025-04-16-96-percent-of-enterprises-are-expanding-use-of-ai-agents-according-to-latest-data-from-cloudera.html
-
自主生成型人工智能代理: https://www.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predictions/2025/autonomous-generative-ai-agents-still-under-development.html
-
Market.us. 全球代理式人工智能市场规模、趋势及预测(2025年至2034年). https://market.us/report/agentic-ai-market/
最近这几年,经济下行,IT行业面临经济周期波动与AI产业结构调整的双重压力,很多人都迫于无奈,要么被裁,要么被降薪,苦不堪言。
但我想说的是一个行业下行那必然会有上行行业,目前AI大模型的趋势就很不错,大家应该也经常听说大模型,也知道这是趋势,但苦于没有入门的契机,现在他来了,我在本平台找到了一个非常适合新手学习大模型的资源。
[大家想学习和了解大模型的,可以点击这里前往查看]