为什么需要AI Agent
人工智能(AI)领域正以前所未有的速度发展。如今的AI代理能够感知、决策并自主行动。随着大型语言模型(LLM)驱动的AI代理的兴起,我们正站在一个新时代的门槛上:AI代理可能形成自己的社会,与人类和谐共存。
牛顿曾说:“我之所以看得更远,是因为站在巨人的肩膀上。”如今,这些巨人就是AI代理,它们正助力我们承担繁重的工作。
本文将介绍一些在个人和企业环境中可用的顶级开源AI代理和多代理框架,并探讨以下内容:
-
AI代理如何创造创新和效率的机遇。
-
哪些多代理框架具备最强功能。
-
何时将代理应用于解决实际问题最为适宜。
-
自主代理将如何影响AI驱动的任务管理。
我们还将深入探讨代理架构的相关机会、挑战和趋势。
人工智能代理简介
像ChatGPT、DALL-E 3或Midjourney这样的工具使用基于提示的界面进行人机交互。这意味着你需要用自然语言(通常伴随着大量的提示调整)来编写一组指令,以获得有意义的响应。考虑到人工智能模型的能力,这种交互方式既慢又不直观。我们需要更高效、更直接的方式来与AI互动。
人工智能代理扮演着AI工头的角色,它们在一个自我指导的循环中工作,为AI设定任务,确定优先级,并重新调整任务,直到整体目标达成。
人工智能代理的整体框架由三个关键部分组成:大脑、感知和行动。[1]
-
大脑:大脑主要由大型语言模型构成,它不仅存储知识和记忆,还负责信息处理和决策功能,能够展示推理和规划过程,以妥善处理未知任务。
-
感知:感知模块的核心目标是扩展代理的感知空间,使其不仅限于文本领域,还包括文本、听觉和视觉模态。
-
行动:在构建代理时,行动模块接收大脑模块发送的动作序列,并执行与环境互动的动作。
人类感知环境后,会在大脑中整合、分析和推理感知到的信息,做出决策。随后,他们利用神经系统控制身体,进行适应性或创新性行为,如交谈、避开障碍或生火。当一个代理拥有类似大脑的结构,具备知识、记忆、推理、规划和多模态感知能力时,它也有可能对周围环境做出类似人类的各种反应。在构建过程中,行动模块接收大脑模块发送的动作序列,并执行与环境互动的动作。
由大语言模型驱动的人工智能代理具有以下优势:
-
语言交互:它们与生俱来的语言理解和生成能力确保了无缝的用户交互。
-
决策能力:大型语言模型具备推理和决策能力,擅长解决复杂问题。
-
灵活适应:代理的适应性确保它们可以适应不同的应用场景。
-
协作互动:代理可以与人类或其他代理协作,为多维度互动铺平道路。
人工智能代理的应用场景广泛多样。这些智能代理由大语言模型(LLM)驱动,可以应用于以下各种场景:
-
单体应用:代理可以作为个人助手,帮助用户摆脱日常琐事和重复劳动。它们能够独立分析、策略制定和解决问题,减轻个人工作负担,提高任务解决效率。
-
多体系统:代理可以以协作或竞争的方式相互交互。这使得它们可以通过团队合作或对抗性互动来推进任务。在这些系统中,代理可以协作完成复杂的任务,或通过竞争提升自身性能。
-
人机协作:代理可以与人类互动,提供更高效、更安全的服务。它们能理解人类的意图,并调整行为以提供更好的服务。人类的反馈也能帮助代理提升性能。
-
专业领域:代理可以针对特定领域如软件开发、科学研究或其他行业特定任务进行训练和专业化。它们利用大语料库的预训练和泛化新任务的能力,在这些领域提供专业知识和支持。
这只是人工智能代理的一些例子。它们的灵活性和能力使其适用于广泛的行业和应用。
此外,代理社会是一个概念,其中由语言模型创建的人工智能代理在模拟环境中相互交互。这些代理可以行动、做决策,并参与像人类一样的社会活动。
这有助于我们理解人工智能代理如何在类似社会的环境中协作和行为。这种模拟可以提供关于协作、政策制定和伦理考虑的洞察。总的来说,代理社会帮助我们探索人工智能代理的社会方面及其在真实和可控环境中的互动。
AI代理开发框架
有许多框架可以帮助创建AI代理。以下是其中一些最佳框架:
项目 | 关键特性 |
---|---|
1. LangChain | - 用于构建LLM支持的应用程序的Python和JavaScript库 |
- 用于感知上下文、推理、链接等的模块化组件 | |
- 参考架构和模板 | |
- 调试、测试、部署链的工具 | |
2. AutoGen | - 编排LLM和代理进行多代理对话 |
- 低代码可组合的对话代理 | |
- 人类参与的循环 | |
- 推理、缓存、错误处理工具包 | |
3. PromptAppGPT | - 低代码提示开发 |
- 集成GPT、DALL-E和插件 | |
- 在线编辑器、编译器、运行器 | |
- 自动生成的UI | |
- 内置代理示例 | |
4. AutoGPT | - 构建自定义AI代理的工具包 |
- 利用GPT-3、GPT-4作为代理 | |
- 流行的开源代理项目 | |
5. BabyAGI | - 简约的Python代理 |
- 使用GPT和向量数据库 | |
- 创建、优先排序、执行任务 | |
6. SuperAGI | - AutoGPT的替代品 |
- 多个模型,向量数据库 | |
- GUI和操作控制台 | |
- 性能遥测 | |
- 工具包和市场 | |
7. ShortGPT | - 自动化视频创建工作流程 |
- 脚本、提示、模板 | |
- 多语言配音和字幕 | |
- 资源和资产采购 | |
8. ChatDev | - 多代理“虚拟软件公司” |
- 专业角色的代理 | |
- 协作工作坊模型 | |
9. MetaGPT | - 模拟软件公司结构 |
- 指派PM、工程师等角色 | |
- 代理协作完成任务 | |
10. Camel | - 早期多代理框架 |
- 动态角色分配 | |
- 协作场景的阶段 | |
11. JARVIS | - 使用ChatGPT进行任务规划 |
- 从Hub选择模型 | |
- 编排专家模型 | |
12. OpenAGI | - 结合专家和LLM模型 |
- 用于模型改进的RLTF | |
- 专用于复杂任务 | |
13. XAgent | - 模块化调度程序、规划器、执行器 |
- 人类协作能力 | |
- 安全性和可扩展性 |
1. LangChain
LangChain是一个构建基于语言模型的应用程序的框架。它使应用程序能够:
理解上下文:将语言模型与上下文源(提示指令、少数示例、响应内容等)连接起来。
推理:依赖语言模型进行推理(根据提供的上下文确定如何响应,确定采取何种行动等)。
LangChain的核心组件包括:
LangChain库:Python和JavaScript库,包含无数组组件的接口和集成,基本的组件链和代理运行时,以及现成的链和代理实现。
LangChain模板:一套适用于各种任务的现成部署参考架构。
LangServe:用于部署LangChain链的REST API库。
LangSmith:一个开发者平台,用于调试、测试、评估和监控任何LLM框架构建的链条,与LangChain无缝集成。
2. AutoGen
AutoGen是一个框架,支持使用多个代理(代理)进行多轮对话来构建AI应用程序。这些代理可定制,支持对话,并无缝支持人类参与。AutoGen应用程序可以利用大型语言模型、人类输入和各种工具模态来操作。
AutoGen的一些关键亮点:
轻松构建基于多代理对话的下一代LLM应用程序。它通过编排、自动化和优化简化复杂的LLM工作流程,最大化LLM性能并克服其弱点。
支持复杂工作流程和多样的对话模式。通过可定制的对话代理,开发者可以使用AutoGen构建涉及对话自主性、代理数量和代理对话拓扑的各种对话模式。
提供具有不同复杂性的任务系统。这些系统覆盖了各个领域和复杂度的广泛应用,展示了AutoGen如何轻松支持不同的对话模式。
增强LLM推理。它提供了API统一和缓存等工具,以及高级用法模式,如错误处理、多配置推理、上下文编程等。
3. PromptAppGPT
PromptAppGPT是基于LLM的首个自然语言应用程序开发框架,支持自动编译、运行和UI生成,支持无代码配置实现进程调度,只需几十行代码即可实现类似AutoGPT的完全自主代理。
PromptAppGPT大大降低了代理开发的门槛:无需下载任何软件,只需访问网站https://promptappgpt.wangzhishi.net/开发即可。
PromptAppGPT包含低代码提示式开发、GPT文本生成、DALLE图像生成、在线提示编辑器+编译器+运行器、自动用户界面生成、插件扩展支持等功能:
低代码提示式快速应用开发
GPT3/4执行器用于文本生成
DALLE执行器用于图像生成
插件扩展执行器(插件)
在线提示编辑器、编译器和运行器
自动生成用户界面
支持英文和中文用户界面
PromptAppGPT还包含以下内置代理示例:
所有执行器:使用所有执行器的应用。
我的ChatGPT:聊天机器人应用。
想象图像创作者:使用GPT和DALL·E从任何语言生成富有想象力的图像的代理。
比萨订购机器人:自动收集比萨店订单的代理。
通用翻译器:将文本翻译成英语/中文/法语/西班牙语的代理。
英语改进者:进行英语翻译和校对的代理。
Web & 图像搜索者:使用Bing搜索网络和图像的代理。
我的AutoGPT:类似AutoGPT的代理,可以完全自主地使用GPT和执行器(插件)来实现任何目标。
4. AutoGPT
AutoGPT由游戏公司Significant Gravitas Ltd.的创始人Toran Bruce Richards开发,于2023年3月推出,是GitHub上最受欢迎的代理项目之一。
AutoGPT的理念很简单——它是一个完整的工具包,用于构建和运行各种项目的自定义AI代理。该工具利用OpenAI的GPT-4和GPT-3.5大型语言模型(LLM),支持个人和商业项目的代理构建。
5. BabyAGI
BabyAGI是一个极简的任务驱动的自主代理。Python脚本仅有140个字符的代码,官方GitHub仓库称它“使用OpenAI和向量数据库(如Chroma或Weaviate)创建、优先级排序和执行任务”。
自发布以来,BabyAGI已扩展到多个有趣项目。如twitter-agent或BabyAGI在Slack上的应用将代理的力量带到了现有平台。还有添加插件和扩展,或将其移植到其他语言(如Babyagi-perl)的项目。
6. SuperAGI
SuperAGI是一个更灵活、用户友好的替代方案,它是一个开源AI代理的整合器,包含构建、维护和运行自定义代理所需的一切。它还包括插件和云版本进行测试。
该框架包含多个AI模型、图形用户界面、向量数据库集成(用于存储/检索数据)以及性能洞察。还有一个市场,提供连接到流行应用和服务(如Google Analytics)的工具包。
7. ShortGPT
ShortGPT是一个强大的内容创作自动化框架,简化了视频创作、素材获取、语音合成和编辑的过程。
ShortGPT可以处理大多数视频相关任务,如编写视频脚本、生成旁白、选择背景音乐、撰写标题和描述,甚至编辑视频。该工具适用于短视频内容,也适用于与视频相关的长格式内容任务。
ShortGPT框架的关键特性:
自动编辑框架:使用LLM导向的视频编辑语言简化视频创作过程。
脚本和提示:提供各种LLM自动化编辑工作流程的现成脚本和提示。
语音和内容创作:支持多种语言,包括英语🇺🇸、西班牙🇪🇸、阿拉伯🇦🇪、法语🇫🇷、波兰🇵🇱、德国🇩🇪、意大利🇮🇹、葡萄牙🇵🇹、俄语🇷🇺、普通话🇨🇳、日语🇯🇵、印地语🇮🇳、韩语🇰🇷等超过30种语言(使用EdgeTTS)。
字幕生成:自动为视频生成字幕。
资源获取:从互联网获取图片和视频片段,连接Web和Pexels API。
记忆和持久性:使用TinyDB确保自动化编辑变量的长期持久性。
8. ChatDev
ChatDev是一个由多个代理扮演不同角色(如CEO、CPO、CTO、程序员、审查员、测试员和设计师)的虚拟软件公司,共同致力于“通过编程彻底改变数字世界”。ChatDev的代理通过参加专门的功能研讨会(如设计、编码、测试和文档编写)进行协作。
9. MetaGPT
MetaGPT是另一个开源AI代理框架,试图模仿传统软件公司的结构。类似于ChatDev,代理被分配产品经理、项目经理和工程师角色,协作完成用户定义的编码任务。
10. Camel
简而言之,Camel是使用独特角色扮演设计的早期多代理框架之一,使多个代理能够相互交流和协作。
11. JARVIS
JARVIS负责任务规划、模型选择、任务执行和内容生成。通过访问HuggingFace hub上的数十个专业模型,JARVIS利用ChatGPT的推理能力为给定任务选择最佳模型。这使其在从简单摘要到对象检测等各种任务中非常灵活。
12. OpenAGI
OpenAGI是一个开源AGI(人工智能)研究平台,结合了小型专家模型(针对情感分析或图像去模糊等任务定制的模型)和任务反馈强化学习(RLTF),以改进输出。它整合了ChatGPT、LLaMa2等大型语言模型和其他专家模型,根据任务上下文动态选择合适的工具。
OpenAGI是一个专为提供复杂多步骤任务而设计的开源AGI研究平台,提供任务特定的数据集、评估指标和各种可扩展模型。OpenAGI将复杂任务表达为自然语言查询,作为输入提供给LLM。LLM然后选择、调度和执行OpenAGI提供的模型来解决问题。此外,项目还提出了任务反馈强化学习(RLTF)机制,根据任务解决结果提供反馈,以改善AI的自我改进能力。因此,LLM负责协调各种专家模型来解决复杂任务,而RLTF提供反馈,形成AI自我改进的反馈循环。
13. XAgent
XAgent是一个实验性的开源大型语言模型(LLM)驱动的自主代理,可以自动解决各种任务。它设计为通用代理,适用于广泛的任务。XAgent仍处于早期阶段,开发者正在努力改进它。
XAgent的特点包括:
自主性:XAgent可以无需人类干预自动解决问题。
安全性:XAgent设计为安全运行,无论如何运行,所有操作都受docker容器约束。
可扩展性:XAgent设计为可扩展,易于添加新工具增强代理能力,甚至新功能!
用户界面:XAgent提供友好的GUI供用户与代理交互,命令行接口也支持与代理交互。
人机协作:XAgent可以与人类协作解决问题,不仅能遵循人类指导逐步解决复杂任务,还能在遇到挑战时寻求人类帮助。
AI代理的角色与挑战
“我可以如何利用代理?”这是一个合理的问题,尽管当前的技术还远未达到无所不能的程度。然而,即使在起步阶段,AI代理也能通过以下方式简化生活和工作:
-
🔍 简化研究和数据收集。
-
📝 以各种风格和语气生成内容。
-
🌐 爬取网络并提取关键见解。
-
🤔 概括文档和电子表格。
-
번역 在不同语言间进行翻译。
-
🤝 扮演创意任务的虚拟助手。
-
⚡️ 自动化管理任务,如日程安排和跟踪。
代理将从需要人类互动的提示式工具发展到自我驱动的系统。毕竟,AI工具应是自动的、可信赖的、可靠的,无需冗长的提示或逐步验证。
设想你要分析过去十年电动汽车(EV)行业市场趋势。你可以将这些任务委托给代理,同时做其他事情,而不是手动收集数据、阅读无数文章和解析财务报告。
即便有了ChatGPT这样的工具,人类仍需关注动态。代理能帮助找到关键信息、做笔记并整理资料。如果已有数据,代理能在几秒钟内提供丰富的核心洞察。
有时项目过于复杂,单个代理难以管理。通过多代理协作,每个代理负责项目的一部分。一个收集数据,另一个制定报告大纲,第三个整合信息并生成实际内容。
完全自主的代理仍是AI工具的前沿,实验性强,需要技术知识来设置、部署和维护。这对于DIY项目很有用,但如果你只想完成工作,这并不是即插即用的体验。理论上,可以将开源代理集成到现有工作流程中,但需要时间、专业知识和资源。
当然,还有幻觉问题。由于代理依赖大型语言模型生成信息,它们同样可能偏离事实,编造离奇的故事。代理运行时间越长,虚构和扭曲现实的可能性越大。这在生产力方面带来了一些挑战。解决方法包括:限制代理运行时间、缩小任务范围、有人审查输出等。
更好的结果可能来自部署具有专门专长和独特技能的多个代理——因此,多代理框架可能会获得更多关注。
AI代理的未来
随着GPT-4、Bard和LLaMa2等更快、更精确、更大规模的AI模型的迭代更新,未来几个月内,AI领域的突破可能会更加令人振奋。特别是AI代理的兴起,标志着数字世界中的重大转型。这些代理具备理解、创造和互动的能力,不仅是工具,更是跨领域的潜在合作者。站在这场革命的风口浪尖,我们必须负责任地利用它们的力量。
如今的工具和平台让我们能够为不同任务定制代理,但同时,我们也必须保持警惕,审视这些进步的伦理影响。人类与AI之间的桥梁从未如此紧密,随着我们前进,和谐共存不仅可能,而且近在眼前。
在可预见的未来,代理将重塑我们对工作、规划和协作的看法,它们将革新生产力,增强传统工作流程。那么,你准备好加入这场革命了吗?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。