人工智能代理的崛起正在重塑我们构建和思考软件的方式。我们不再只是编写代码并指示计算机做什么,而是正在教它们如何思考。
人工智能代理是一种构建智能系统的新方法。它们利用大型语言模型(LLMs)将自动化和认知能力结合到工具中,这些工具不仅遵循命令,还能够推理、做决策、采取行动,甚至随着时间的推移进行学习。
多步骤工作流程——Hebbia.ai
我一直在尝试使用各种框架来理解代理的工作原理以及它们的可能性(强烈推荐LangChain的学院!)。在这篇文章中,我将分享与代理合作的主要学习成果和想法,以及它们为何代表着我们与技术互动方式的根本转变。
什么是代理?
与遵循固定指令集的传统程序不同,代理是一种新型软件,使用LLMs和智能来弄清楚需要做什么,如何去做,然后独立完成这一切。
如果这听起来有点抽象,这里是该领域的领导者们的解释:
LangChain:“一个使用LLM来决定应用程序控制流的系统。”(Harrison Chase从LangChain写了一篇关于“什么是代理性”的好文章)
NVIDIA:“一个能够使用LLM来推理问题,制定解决问题的计划,并借助一组工具执行该计划的系统。”
AWS:“一个可以与环境互动,收集数据并使用数据来执行自我决定的任务以达到预定目标的软件程序。”
Andrew Ng:见此处
无论是帮助用户规划旅行,自动化工作流程,还是回答问题,代理在使软件更加高效和有用方面都取得了巨大的进步。
我们是如何进入代理时代的?
LLMs已经从仅仅生成文本和推理扩展到了做更多事情。现在,它们可以与其他LLMs协同工作(例如,编排),执行现实世界的操作(例如,调用工具API),并且可以长时间保持上下文(例如,更大的上下文窗口)。
因此,LLMs正在从被动的响应者转变为智能系统,可以承担传统上为人类保留的角色,从客户服务和招聘到复杂的行业如法律和建筑。
AI催化了一个长久以来的承诺——Felicis
代理的解剖结构
要了解代理是如何工作的以及为什么它们如此强大,让我们来探讨它们的核心组件:
1、感知
代理需要从用户或环境中获取输入。输入可以是聊天文本,语音通话,图像或API调用,任何与代理互动的数据。这些数据对于代理理解其周围环境和上下文至关重要。
例如:一位航空旅行代理通过聊天界面处理用户请求。从“预订10月5日至10日往返纽约的航班”中,它提取关键细节如日期,目的地和偏好,以有效指导搜索…
2、大脑
作为AI代理的“大脑”——LLMs——负责推理、计划和适应。
推理涉及分析输入,分解复杂任务并生成潜在解决方案。
计划使代理能够按时间顺序安排操作,确保任务高效完成。
适应性使代理能够应对动态环境(例如对话)或不断变化的信息。
例如:…在捕获航班请求后,代理识别出寻找出发和返回航班的任务,并定义了基于用户偏好的步骤和操作,以帮助客户预订航班…
- 记忆
AI代理的记忆有两种形式:短期记忆是基于会话的,依赖于LLM的上下文窗口来跟踪最近的互动并确保连贯的响应。而长期记忆通常存储在外部数据库中,允许代理访问和交叉参考过去对话或用户偏好。
例如:…旅行代理在会话期间跟踪当前选择的日期和等级,同时使用长期记忆来回忆过去的偏好,如首选航空公司或常旅客详情…
- 知识
除了记忆,代理还可以参考特定于公司的知识库,例如常见问题,文件或标准操作程序。这些知识通常存储在文档和向量数据库中,并用于提高推理和决策能力。
例如:…客户向旅行代理咨询行李政策和升级选项时,代理会检索特定公司的政策以确保正确解决这些用户查询…
- 行动
工具是让代理真正强大的因素。LLMs可以决定何时以及如何使用工具,如API查询额外数据,更新系统或执行现实世界操作。这种能够在正确的时间动态选择正确工具的能力使得代理能够灵活高效地运行,并无缝集成到现有系统中以提供结果。
例如:…代理可以调用航空公司的API以实时获取航班选项、价格和座位可用性。一旦用户批准,它会调用API完成预订,并通过电子邮件发送详细的行程表。
设计代理
设计有效的AI代理就像招聘和培训新员工一样:我们需要认识到我们在创造工人。
通过定义代理的角色、职责、工具、互动和学习路径,我们确保它能够高效运行并符合组织目标。
构建AI代理团队——Relevance.ai
以下是设计代理的每个步骤如何与招聘相呼应:
定义代理的人格和目标
代理必须有人格和目标——它要解决的问题和存在的原因。这是它的“职位描述”。它是客户服务代理还是数据研究员?代理要解决什么问题?它的用户是谁?成功是什么样的?
提示:将人格与可衡量的结果联系起来,并定期重新审视,以确保其随着业务需求的变化而演变。
- 列出任务和计划
接下来,定义代理的任务和工作流程。代理需要做什么以及如何做:剧本或常规。定义逐步流程是迭代最多的部分,定义关键任务是什么?可能出现哪些边缘情况?它必须遵循哪些规则?
提示:在复杂性和一致性之间找到平衡:流程或任务越多,代理失败的可能性越大。
以下是Google代理中目标和指令如何定义的示例:
使用剧本构建代理——Google
3. 定义记忆
记忆使代理保持一致并学习。短期记忆跟踪最近的互动,而长期记忆将历史细节存储在外部数据库中:会话期间应保留哪些信息?哪些数据需要长期保存?
提示:从定义最有价值的数据开始,如频繁访问的客户详情,并逐步构建记忆系统,确保可扩展性,同时不过度负担代理。
启动长期记忆支持——LangGraph
4. 配备知识
类似于员工需要访问手册或公司文档,代理需要访问FAQ或产品目录以提供准确的响应。代理需要哪些知识来源?如何保持这些知识更新?哪种格式确保易于检索?
提示:使用向量数据库或RAG技术,并安排更新以确保知识保持相关性。
- 配备工具
工具对于代理来说就像软件和系统对于员工一样——它们使行动成为可能。代理通过调用API查询数据、更新记录或预订会议。需要哪些API?它们可用还是需要开发?哪些权限确保安全使用?
提示:定义特定目的的工具并实施基于角色的权限,就像给员工正确的软件和访问级别以高效和安全地完成工作一样。
请记住,LLMs决定何时以及如何调用这些API,因此在任务定义中迭代和包含这些工具很重要。以下是OpenAI如何定义LLMs调用工具的方式:
功能调用——OpenAI
设计代理团队
复杂的问题很少能由一个人单独解决,代理也一样。与其构建一个大型全能的代理,不如让一组专业代理协同工作,更有效地处理任务。
例如,一个代理可能收集数据,另一个可能分析数据,第三个可能生成解决方案,第四个可能完善这些解决方案。这些代理协作工作,根据需要相互传递任务,就像团队中的同事一样。
随着复杂性的增加,管理和扩展代理变得更加具有挑战性。常见问题包括代理拥有太多工具并做出糟糕的决策选择使用哪个工具,难以管理过于复杂的上下文,或者需要像规划者、研究人员或数学专家这样的专门角色来处理特定任务。
这种模块化、“多思维”方法减少了复杂性并确保了可靠性。代理还可以将自己无法处理的任务委托给其他人,通过保持单个代理专注于较小的范围来提高整体性能。
通过构建协作代理网络,您实际上是在构建一个能够像一组技能熟练的员工一起处理复杂项目的AI劳动力——就像团队一起应对具有挑战性的项目一样。
多代理系统——LangChain
超越POC:部署代理
迭代
构建有效的代理本质上是迭代的。第一个版本从来不是最终版本。现实世界条件揭示了在开发过程中不明显的边界情况、隐藏假设和新的可能性。
员工通过反馈、审查和在职经验成长——代理也不例外。通过收集反馈,如用户评分或错误日志,并融入更新,代理会随着时间的推移不断改进其行为和性能。
AI代理通过从僵化规则转向动态、推理驱动的系统来革新自动化。它们的自主性非常强大,但也带来了信任、安全和运营监督方面的挑战。
更多考虑事项:安全、运营等
AI代理正在改变自动化,但部署它们也带来了挑战。例如,扩展团队或初创公司时面临的相同挑战:
安全性必须是基础——就像员工一样,代理需要单点登录、基于角色的权限和凭据管理等保护措施,以确保它们仅访问必要的内容。护栏、日志、审计和凭据轮换对于维护合规性、保护敏感数据和建立信任至关重要。
运营同样重要。正如首席运营官跟踪和优化工作流程一样,代理需要工具来确保它们随着时间的推移保持有效、可靠和适应性。
我们正处于技术构建方式转变的早期阶段。AI代理不仅仅是用于自动化的工具——它们是数字合作者。如果您对深入了解代理感兴趣,我推荐Langchain学院——这是一个很好的资源,可以学习如何构建这些变革系统。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。