早期阶段的生成式人工智能,抑或“请求/响应式 AI”,未能达到炒作所营造的预期水平。智能代理人工智能(Agentic AI)作为人工智能的下一个层级,建立在生成式人工智能的基础之上,将为企业带来更具实效的商业价值。
Agentic AI 的概念可以追溯到上世纪 90 年代 IBM 深蓝象棋系统出现之时,但其再次受到关注得益于大语言模型的应用。尤其是 AI Agent 和 Autonomous Agent 的具体应用,让 Agentic AI 再次被热议,包含 AI Agent 的工作流更是让 Agentic AI 成为 AI 领域的热门话题。
目前,有关 Agentic AI 的研讨主要聚焦于消费应用领域,比如一个代理充当人类的数字助手。然而,在消费环境中,数字助手是一个开放且复杂的难题。相反,Agentic AI 在企业用例方面展现出更大的潜力,原因在于企业中的任务相对更规范,存在清晰的流程用以引导代理。
本文全面分享了对于 Agentic AI 新兴趋势的观点,包括如何定义,明确要将其变为现实所欠缺的要素以及列举该领域的部分参与者。
Gen AI
去年 1 月,风投机构 A16z 对新兴的 Gen AI 技术栈进行了描述,其基本上呈现出了请求 - 响应模型。即通过自然语言发起请求,再借助检索增强生成(RAG)管道来访问数据并返回答案。
这个过程虽然极为迅速,但答案往往差强人意,并且相同或相似的查询常常会给出不同的答案。所以,这种模式给企业客户带来的投资回报较为有限。当然,也存在一些出色的应用实例,诸如代码辅助、客户服务、内容创作等等。
而 Agentic AI 则是在 Gen AI 基础之上构建。假如把企业看成一座城市,在这个城市中,Agent 要想代替用户去执行工作,关键在于理清如何导航才能完成工作。
也就是说,Agent 就像一个“跑腿小哥”,需要一张地图和相应交通工具来完成客户(也就是 Agent 用户)的单子,Agent 需要知道从哪里拿货,送到哪里以及哪条路最近。
这正是企业的优势,因为大部分工作都具有有限且合理、明确界定的路线和任务,使得企业中 Agent 能够更为迅速地完成更具价值的工作。
Agentic AI 的定义
在《Practices for Governing Agentic AI Systems》白皮书中, OpenAI 认为 Agentic AI systems(智能体人工智能系统)的特征是能够采取行动,这些行动在很长一段时间内持续地有助于实现目标,而不必事先明确规定其行为。artificiality 将 Agentic AI Systems 定义为能够以不同复杂性感知、推理和行动的系统,以将人类思维扩展到我们当前经验之外。该定义更加强调了感知、推理和行动这三种能力。
结合来看,Agentic AI 是指被设计用来通过理解目标、导航复杂环境,并在最少的人工干预下执行任务的系统,能够通过自然语言输入独立和主动地完成端到端任务。
不难看出,与传统 AI 的区别是 Agentic AI 具有自主性、主动性和独立行动的能力。这一点与 AI Agent 相似,但与 AI Agent 的区别在于 AI Agent 更侧重于作为一个明确的主体存在,能够完成特定的任务,但相对来说自主性和适应性可能较为有限。而 Agentic AI 则在自主性和适应性上表现更为突出,能够在复杂环境中更灵活地应对变化,并作出更具主动性的决策,AI Agent 则需要更多的人工干预和重新编程来适应变化。
供应链中的 Agentic AI 示例
亚马逊每周会对 4 亿个库存单位的销售情况进行预测,并展望未来五年的发展态势。之所以需要进行如此长远的展望,是因为它拥有不同的代理,而这些代理会依据时间范围和所需协调的工作类型去执行不同的任务。
例如,一个负责长期规划的代理或许会计算出需要建设多少配送中心容量。另一个代理可能会对每个现有或尚未建成的配送中心的布局进行配置,还有一个代理可能会算出在下一个交付周期中每个供应商每个库存单位的订购数量。再有一个代理会计算出货物到达时如何进行交叉装卸,以确保库存能够分配到正确的位置。随后,在收到客户订单后,又会有一个代理必须计算出工人应当如何拣选、包装和发货该订单的物品。
这些代理需要为了一些总体的企业目标(比如盈利能力)来协调各自的计划,并且要受到满足亚马逊所设定的交付时间目标的限制。重要的是,一个代理有关配送中心配置(例如)的决策必须告知另一个代理如何拣选、包装和发货订单。
换句话说,每个代理所做的分析都必须为其他所有代理的分析提供信息。所以,这不单单是搞清楚一个代理的工作内容,而是要协调众多代理的工作和计划,并考虑它们之间的相互依赖关系。
代理依照人类设定的目标开展工作。生成的计划提交给人类进行审查,然后根据实际需要付诸实施或者进行修订和优化。正是人类的直觉与机器的效率相互结合,才使得这一过程变得如此强大。
Agentic AI 在各行业的扩展
当下的工具,主要是针对自然语言请求给出一个答案。想象一下,如果将亚马逊各种代理协作的案例转化为一种软件能力,让所有企业都能够借助它来创建代理系统。
就像前面提到的,如果在 A16z 的技术栈基础上做一些编排框的补充,模型将通过调用应用程序并利用这些应用程序中的多个工作流来执行更多的编排工作。
在图表中形似 L 形的空框里,展示了数字世界与物理世界的融合,就像是“语义层”,为数据赋予明确、一致且可理解的语义,使得不同的系统、应用程序和用户能够以统一的方式理解和处理数据,而不会因为数据的表示方式或来源的不同而产生歧义。
进一步来讲,在标有“API 和插件”的框周边的虚线部分,这些操作从调用工具转变为能够调用遗留操作应用程序或分析模型的操作,该操作本质上属于工作流构建块。
在操作方面,一项工作或者一个分析模型,或许是“告诉我业务中应该发生什么或已经发生了什么,进而得出接下来应该发生什么”。这些本质上是把工具提升为操作。在大型语言模型的表述里,这些变成了动词。
回到中间的编排器:如今,大多数通过大型语言模型完成的工作流编排来源于程序员在代码中所指定的内容。在未来,大型语言模型将成为大型动作模型(LLM→LAM),并生成操作计划或工作流。
要实现这一点,它需要对 RAG 管道通常查看的原始数据进行升级,从而创建业务的数字表征。这就是地图或者知识图谱,上面写着:“企业中的人员、地点和事物以及连接它们的活动是什么?”这让代理能够弄明白如何导航以达成其目标。
以亚马逊为例,代理需要了解预测中的内容,以知晓不同库存项目与哪些供应商相关,这些供应商能够生产什么,以及物流如何在何处交付其产出。
机器人流程自动化(RPA)的作用
在这一方面,可以把 RPA 视作一个管道系统,它能够辅助采用连接至屏幕或者应用程序编程接口(API)的软件机器人。而通过 Agentic AI ,大型语言模型(LLM)能够学会导航屏幕,或者在有可用的 API 时学会使用,又或者通过观察来进行学习。
关键之处在于,当下众多的 RPA 都是运用了硬编码脚本,基于已知的规则执行任务。因此,需要一个更为强大的自动化环境,当这些硬编码脚本转变为智能代理时,其对变化的适应能力会更强。而 Gen AI 能够助力让构建管道变得更为容易且不那么繁杂,在国内,有阿里巴巴、字节跳动、实在智能等 AI 企业在这一领域探索,并取得了一定效果。
比如,在 2024 世界人工智能大会(WAIC 2024)亮相的“文生数字员工”实在 Agent 受到了业界关注。实在 Agent 以实在智能自有 TARS 大模型为“脑”、ISSUT(智能屏幕语义理解技术)为“眼”,IPA (智能流程自动化)为“手脚”,可以理解人类提出的任务需求,自主理解PC环境、规划流程并执行完成任务,实现“你说 PC做,所说即所得”和“文生数字员工”的理想应用效果。
在国外,推动 Agentic AI 发展的代表性公司有:OpenAI,作为关键的大型语言模型参与者——在账户渗透率方面遥遥领先;UiPath Inc.、Celonis 和 ServiceNow Inc. 在自动化领域,以及像 Palantir、Snowflake Inc. 和 Databricks Inc. 等分析和数据平台公司。
达成 Agentic AI 欠缺哪些元素
总结来看,当今的大型语言模型正在从能够通过自然语言查询检索数据的模型转变为能够编排工作流的大型动作模型(LAMs)。要切实利用 Agentic AI,必须与遗留应用程序相连接,并且必须协调这些应用程序中的数据。
听起来简单,但能够近乎实时地理解并采取行动是业务的 Agentic AI 需要以持续的方式构建和训练代理的工具链。 以下是几个关键要素:
1. 强大的数据基础:包括高质量、大规模且多样化的数据,以便模型能够进行有效的学习和推理。
2. 先进的算法和模型架构:如深度学习中的神经网络架构,能够处理复杂的任务和关系。
3. 高效的计算资源:用于训练和运行复杂的模型,以确保快速的处理和响应。
4. 对业务流程和用户需求的深刻理解:以便准确地定义代理的任务和目标。
5. 良好的交互设计:使得用户能够自然、便捷地与代理进行沟通和交互。
6. 持续的学习和优化机制:以适应不断变化的环境和需求。
7. 安全和隐私保护措施:确保数据的安全性和用户隐私不受侵犯。
8. 跨领域的专业知识融合:如计算机科学、统计学、业务领域知识等,以构建全面有效的解决方案。
当然,具体的需求可能因应用场景和业务目标的不同而有所差异。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。