从第一性原理看大模型Agent技术

最新推荐文章于 2024-08-22 07:51:42 发布

麻辣牛肉面

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量909

点赞数 26

文章标签：人工智能 AI编程 langchain 大数据产品经理

本文链接：https://blog.csdn.net/youmaob/article/details/139659128

版权

在大模型技术引领的革新时代浪潮中，面对纷繁复杂的相关资讯，您是否感到对这一前沿技术的核心理念尚不明晰？是否在评估其广阔前景与潜在影响力时有所困惑？本文旨在拨开迷雾，通过融合通用人工智能理论与面向目标的分析框架，深度剖析Agent演进的趋势，以期为您勾勒出清晰的认知图景。

引

一个乐观主义者的悲观估计

随着大规模模型技术的蓬勃发展，我们正迈步于一个全新智能纪元的拂晓时分。我们做出一项颇具胆识的预言：未来五至十年间，开发、设计与文字工作的99%或将被人工智能全面接掌。这并非天马行空的臆想，而是对可能出现的未来格局之审慎洞察与前瞻预见。

互联网时代见证了无数网站如雨后春笋般涌现，它们作为该时代原生应用的核心载体，承载并推动了Google、Facebook、Twitter等互联网巨头的崛起，伴随而来的是各类Web相关创新技术的繁荣。转至移动互联网时代，舞台中央的角色由网站交棒给应用程序（App），它们牢牢占据用户注意力焦点，主导了整个移动互联时代的生态。

如今，当智能时代的大幕缓缓拉开，一个新的问题浮出水面：何物将成为此时代的核心载体？我们的预判认为，或许它既非昔日的App，亦非传统的网站，而是颇具潜力的Agent。尽管确切的答案还需数年光阴的验证，但历史经验表明，任何新兴事物在其演进过程中终将孕育出一个稳定且贴切的术语来定义其核心载体。当下看来，Agent恰恰最有可能担此重任。

随着我们对这一猜想的深度剖析，预期听众将愈发感受到其对智能时代核心特质的精准把握。这一猜想强调了大模型技术如何将Agent的潜能提升至前所未有的层次，使得这一在学术界历经数十年研究的新兴概念，犹如新生物种般步入人类社会的焦点。在探讨推动Agent技术快速进化的底层架构与理念时，我们认为以人类智能原理为核心、强调目标导向的架构体系极有可能扮演关键角色，成为引领Agent技术革新进程的主要范式。

当前全球范围内对Agent的关注热度持续升温，尤以OpenAI内部近期对该领域的高度重视为显著标志。与此同时，DeepMind的联合创始人亦指出，未来AI技术的发展重心并非单纯聚焦于生成性AI，而是更倾向于具备交互特性的AI。此类交互式AI与我们所探讨的智能体概念紧密相关，即用户向智能体提出多元任务需求，而智能体能够灵活操控软件或与人类协同工作，共同达成任务目标。

这些见解旨在为听众在战略规划、产品研发及技术路线选择等层面构建一套有益的思维框架，助力他们在各自专业领域前瞻未来发展趋势，做好应对与创新准备。

导读

走马观花、抛砖引玉

整份PPT长达百页之多，内容丰富且复杂。我将为大家提供一份精炼的导览，旨在梳理其核心线索，提炼出思考的基本框架与出发点，旨在激发大家的深度探索与讨论。对于许多具体的细节问题，本次分享并未展开详尽论述。我的期待是，通过聆听此次讲解，各位能够对智能体技术形成崭新的理解，并能将这些洞见有效地融入各自的科研课题或职业生涯规划之中。

我们精心将全部内容划分为四个连贯的篇章：

1. 大模型至智能体的技术沿革：开篇将以宏观视角追溯从大模型技术的诞生直至当今智能体形态演进的历程，系统梳理其间的关键技术突破、应用场景拓展以及行业影响，勾勒出这一领域从萌芽到成熟的完整轨迹。

2. 通用智能原理探析：随后，我们将深入探讨构成智能体基础的通用智能原理，解析其核心概念、理论基石以及实际应用中的体现，旨在阐明支撑智能体运作背后的深层逻辑。

3. 面向目标架构解析：进一步，聚焦于面向目标架构这一在智能体技术发展中占据核心地位的概念，详解其设计理念、组成要素以及在实现智能体目标导向行为中的作用机制，揭示其对智能体效能提升与任务执行的关键意义。

4. 现存挑战与未来展望：最后，基于上述通用智能原理与面向目标架构的剖析，我们将审视当前智能体架构所面临的瓶颈与局限，同时展望其未来可能的发展路径、技术创新趋势以及潜在的社会经济影响，为听众提供一幅关于智能体技术前景的前瞻性画卷。

1. LLM Agents综述

如果你一直关注 AI 领域，你应该能看到一个清晰的技术脉络，一开始大家玩 Prompt 工程，接着是Prompt Chain或Flow，再到Agent，多Agent，很清晰的一个脉络架构，我们也会沿着这个脉络给大家分享相关的经典工作。

Agent 概念的阐述精准地捕捉到了其核心特征与多样性。确实，Agent 是一个广泛应用于多个学科领域的术语，尤其在计算机科学、人工智能、复杂系统和社会科学中具有重要地位。下面是对您所描述的 Agent 特性的进一步细化与扩展：

感知环境：Agent 首先需要具备对周围环境的感知能力。这包括通过各种传感器（物理Agent）或数据接口（虚拟Agent）收集信息，如温度、声音、视觉信号、网络数据等。对于人类Agent而言，感知环境涵盖了五官的感觉输入以及更高级的认知处理，如理解语言、识别情感、解读社会动态等。
自主决策：自主性是Agent的核心属性之一，意味着Agent能够在没有外部直接控制的情况下独立作出决策。这涉及到内部决策机制，如基于规则、逻辑推理、概率模型、机器学习算法等，用于处理感知数据、评估状态、选择行动策略。人类Agent的决策过程则更为复杂，涉及意识、情绪、价值观、道德判断等因素的交织。
行动能力：Agent 不仅能感知和决策，还必须有能力将其决策转化为实际行动。对于物理Agent（如机器人），这可能包括移动、操纵物体、与其他实体交互等物理动作。虚拟Agent（如软件程序）则通过执行代码指令来改变其所在系统的状态，如发送消息、更新数据库记录、控制硬件设备等。人类Agent则利用身体机能和技能来执行各种物理、社交、创造性活动。
设定明确的目标和任务：Agent 的行为通常是有目的性的，它被赋予或自我设定了一组目标或任务，这些目标指导其决策过程并驱动其行动。目标可以是预设的（如编程时设定的任务）、动态调整的（如基于环境变化或学习结果）或自动生成的（如通过自我设定目标的复杂AI系统）。对于人类Agent，目标可以是短期的具体任务，也可以是长期的人生规划或价值观追求。
适应环境与学习能力：优秀的 Agent 应具备适应不断变化的环境的能力，这要求它们能从经验中学习，更新知识结构，改进决策策略，甚至调整目标设定。学习能力涵盖多种机制，如强化学习（通过试错优化行为）、监督学习（从标注数据中学习规律）、无监督学习（从未标记数据中发现结构）等。人类Agent的学习则涉及认知发展、教育、工作经验积累、反思等多元途径。

综上所述，Agent 是一个能感知环境、自主决策、采取行动以达成设定目标的实体，其复杂度可以从简单的恒温器到复杂的国家体系或生物群体不等。关键特点包括感知、决策、行动、目标设定以及适应环境与学习能力，这些特性共同塑造了Agent的智能行为和适应性。随着科技的进步，尤其是人工智能技术的发展，越来越多的人工Agent正在被设计和部署到各种现实场景中，模仿并增强人类及其他自然Agent的功能，推动着社会与技术生态系统的革新。

关于Agent概念的起源与发展，以及它与AGI（Artificial General Intelligence）之间的紧密联系，是准确的。虽然Agent这一术语的确切起源可能难以精确追溯，但它在人工智能领域的确经历了长期的研究和发展，并在马文·明斯基的著作《心智社会》（The Society of Mind）中得到了重要的阐述和推广。以下是相关历史背景与理论发展的概述：

Agent概念的学术发展

早期研究：
Agent概念在计算机科学和人工智能的早期阶段就已经出现，作为对能够自主行动和决策的计算实体的一种抽象描述。它反映了研究人员试图模拟生物智能、构建自主系统的努力。尽管没有一个明确的“发明者”，Agent理念逐渐在分布式计算、多智能体系统、自动规划、机器学习等领域中形成共识。
马文·明斯基与《心智社会》：
明斯基在其1986年出版的《心智社会》一书中，提出了一个高度模块化且分布式的思维模型。他将人类心智视为由大量简单“Agent”组成的复杂社会网络，每个Agent负责处理特定的认知或感知任务，并通过相互作用产生整体智能行为。这种观点强调了Agent的多样性和协作性，深化了对Agent概念的理解，并对后来的多Agent系统（Multi-Agent Systems, MAS）研究产生了深远影响。

Agent理论的局限与天花板

尽管Agent理论在理论上取得了丰富的进展，但在实践中，特别是在实现具有人类智能水平的Agent方面，确实遇到了显著的技术挑战和天花板效应：

计算能力：在大模型时代之前，计算机硬件的计算能力相对有限，这限制了Agent进行复杂计算、处理大量数据以及实时响应环境变化的能力。
数据可用性：有效的学习和决策往往依赖于大量的训练数据。早期，数据获取成本高、规模小，阻碍了Agent学习复杂模式和泛化能力的发展。
算法成熟度：诸如深度学习、强化学习等现代AI关键技术在当时尚处于起步阶段或未被广泛采用，Agent的决策机制和学习算法相对简单，难以模拟人类智能的灵活性和通用性。
理论瓶颈：AGI本身的理论框架尚未完全确立，如何有效地整合不同认知功能、模拟情感、创造力、常识推理等人类智能要素，成为Agent设计的重大难题。

AGI与Agent技术进步的关系

正如您指出的，Agent技术的进步与AGI的发展密切相关。AGI旨在创建能够理解和执行人类所能完成的任何智力任务的智能系统，这是Agent技术追求的终极目标。当AGI取得突破时，它会为Agent带来以下几个方面的提升：

更强的学习能力：AGI相关的算法（如深度学习、迁移学习、元学习等）能够使Agent更高效地从有限数据中学习，并在不同任务间迁移知识，增强其适应性和泛化能力。
更全面的认知功能：AGI研究促进了对人类智能各个组成部分（如感知、记忆、推理、情感、创造力等）的深入理解与建模，有助于构建具有更完整认知架构的Agent。
更高效的计算资源利用：大模型时代的硬件加速（如GPU、TPU）和云计算基础设施，为Agent提供了强大的计算支持，使得大规模并行计算、实时处理复杂任务成为可能。
更高级的交互与协作：
AGI研究也关注Agent间的高级交互与协调，如协商、谈判、联盟形成等，这对于构建能够有效合作的多Agent系统至关重要。

综上所述，Agent概念虽有深厚的学术积淀，但其技术进步在很大程度上受限于AGI研究的进展。随着大模型时代的到来，计算能力、数据资源、算法创新等方面的突破为Agent技术带来了实质性提升，使其更接近实现人类智能水平的目标。

在学术领域，最经典的案例可能是与机器人相关的研究，都涉及到了Agent 技术。在大模型时代之前，比较知名的垂直领域 Agent 的例子比如 Alphago，它有感知环境、做决策、采取行动的闭环，当时的主要研究方向还有使用强化学习打游戏的DeepMind的Agent57，后来更加通用的Gato，还有OpenAI玩“躲猫猫”的多智能体。
我们认为Agent技术是未来实现社会全面自动化的关键技术。在大模型出现之前，自动化更多的是一些偏结构化固定模式环境中通过实现固定算法流程来完成自动化任务，而大模型智能体的通用性带来了灵活性，使其可能应对人类在脑力劳动中面临的各种复杂长尾任务，进一步实现体力和脑力任务的全面自动化。
大模型和Agent技术开启了全面自动化的新时代。大模型是第一个可以自主学习并拥有广泛知识的模型，所以在大模型时代，Agent技术开始迅速发展。今天，我们可能只是在起点，我们看到的Agent还偏向于玩具，但是预计在未来几年，这个领域将产生极大的改变，它的发展速度可能会超越我们的想象，因为我们现在看到改进每天都在发生，天花板远未来到，甚至天花板可能不会再来了。
1.1 Prompt工程

在大模型刚出来的时候，大家都喜欢做的事就是Prompt工程，把大模型当成一种编程语言来看待。人们通过描述角色技能、任务关键词、任务目标及任务背景，告知大模型需要输出的格式，并调用大模型进行输出。这种方法就是经典的把大模型当做工具来调用，我们可以称为工具模式。

为此，大家也发展了各种各样的Prompt工程的玩法，如角色扮演、零样本提示和少样本提示。比如一个澳大利亚少年编写了一个15000个字符的提示词，成功地让他变身为人类的导师，教授各种知识。这种方式就像能直接构建软件一样，是我们将Prompt工程发挥到极致的一个经典案例。

https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor

1.2 Prompt外挂

仅凭Prompt工程根本无法满足人们日益增长的大模型需要，鉴于大模型本身的诸多缺陷，如不能及时更新知识，上下文有限等等，人们开始给大模型加入插件，如引入向量数据库，把数据索引进向量数据库，再召回数据，再提交给大模型做Prompt工程，这样就可以使用最新的知识和比大模型里的知识更准确的知识。

这些还不够，人们又开启了外挂模式，尝试让 GPT 调用函数和使用工具，一系列关于工具使用的实践开始出现，ChatGPT也推出了插件体系。当人们发现大模型的推理能力很差时，开始试图让模型自身清楚地描述问题，把问题转化为 PDDL （Planning Domain Definition Language）格式的描述语言，通过调用通用规划器来解决规划问题，再把解决方案转化为可执行的动作，以更好地逻辑推理和规划等任务。

更加经典的外挂形式当然是让大模型调用外部工具了，OpenAI也搞出了ChatGPT Plugins的开放体系，这些今天回头看都是非常顺理成章的形式，ChatGPT的爆发激发了全世界大量的Idea，这些创新很快就被OpenAI吸纳进产品迭代中。

此外，大模型虽然具备一定的推理能力和思考能力，在很多推理任务上依然力不从心，能不能让模型自己不做规划推理，让他把问题描述清楚，转化成一个 PDDL 的一个关于规划描述的语言，然后使用通用的规划器去做规划，再转化成动作执行，这就把大模型作为一个中转器，把规划器当做了一个外挂。

我们可能会思考，大模型或许真的就是我们以前想象的那样，会达到人类智慧水平的普适性机器么？显然从各项评测来看还有很多任务做不到，更何况这些任务评测本身的覆盖度也不够完备。

有一个经典概念被誉为"通用任务解决器"，在达特茅斯会议之后得名“GPS”，即General Problem Solver。这是由赫伯特·西蒙（Herbert Simon）和艾伦·纽维尔（Allen Newell）在早期提出的概念，他们尝试寻找可用于解决数学问题的通用解决方案。这套理念其实很简洁，可以看作是早期的面向目标架构。它的主要内容是将目标状态列出，然后在解空间中搜索可以将初始状态转化为目标状态的操作组合，这样的组合便是问题的答案。

1.3 分解与组合

然而，目前我们发现，在通用人工智能（AGI）的漫长旅途中，大模型虽显强大，仍存在着显著的技术天花板。许多人开始探索如何挖掘大模型在大任务执行能力上的可能性，其中一个基本策略就是能够分解和组合。例如，经典的 MapReduce 模式可以将一个大型文本进行摘要，因为它的上下文有限，一种解决办法是扩大 context 的范围。另一个解决方案是，在有限的 context 中，我们先将文本拆分成小片段，对每个片段进行摘要，然后再将其组合，从而得出结果。

大家也发现大模型直接给出答案似乎并不靠谱，那么是否可以让它像人类一样，一步一步思考呢？毕竟，人类在解决问题时，也是逐渐构建解决方案，而并非立即给出答案。因此，开始出现了一系列的尝试解法，比如思维链、多思维链、思维树和思维图等。

我们一一讲解，首先是思维链（Chain of Thought，CoT），它要求模型展示其思考过程，而非仅给出答案。这可以通过两种方式实现，一种是具体说明，即要求模型详细地、一步步地思考；另一种是示例说明，即通过给定问题和答案的同时，提供思考过程。这样，当询问模型时，模型会模仿此过程，逐渐思考并给出答案。再往后，我们发现一个CoT有时可能出现错误，然后开始尝试让它发散，尝试多种思路来解决问题，然后投票选择最佳答案，这就是CoT-SC了。

在这过程中，我们发现，这种发散的方法也有局限性，例如24点问题，它不能很好地解决，那么我们就会尝试把这个问题进行垂直分解，分成三步来做，每一步分解成多个子问题，类似于动态规划的做法，就好像把一个大任务拆解成了三个小的子任务，然后再一步一步地去实现它。

这就是思维树（ToT， Tree of Thought）的一个主要思路，它会根据当前的问题分解出多个可能，然后每一个树节点就是父节点的一个子问题，逐层扩散，遍布整个解空间，一些节点就直接会发现不合适而终止掉，达到了有效剪枝的作用。然而 ToT 的方式也存在问题，对于一些需要分解后再整合的问题，比如排序问题，排序你可能需要分解和排序，然后再merge，就不行了。

为了解决这个问题，一种名为思维图（Graph of Tree，GoT）的方法被提出。这种思维图既可以分解，也可以合并。

9月26日，清华姚期智团队又提出了更新的方法——累计推理，在24点问题上成功率已经达到98%的SOTA。他们方式很接近主流 Agent 的实现方式，具备一定的通用性。它首先会提出一个初步的想法，然后再对这个想法进行验证，看这个提案是否合适。如果提案合适，就将它添加到图的下一个节点，每一步都基于已经建立的图节点进行下一个思考节点的创建，这样发散、合并或删除直到达到最终目标状态，完备性和灵活性大大增强。

1.4 反馈

上述的讨论主要是任务分解和组合，他们尽管强大，却不能与外界进行互动，这就不得不讲到反馈机制了。反馈是整个控制论的基石，也是动物体从诞生之初就具备的基本能力。

最经典的方法实际就是 ReACT，这个方法非常经典，基本把智能体最核心的能力圈出来了，当然它也有它的缺陷，我们将在后面讨论为什么还会有 Agent 更多的复杂技术以克服它的不足。ReACT让大模型先进行思考，思考完再进行行动，然后根据行动的结果再进行观察，再进行思考，这样一步一步循环下去。这种行为模式基本上就是人类这样的智能体主要模式。
比如，询问一个关于科罗拉多造山带的相关问题，它就会去通过搜索工具进行搜索，如果搜索结果没有提到东部地区，它会继续搜索东部地区的数据，然后继续一步一步地思考，根据结果反复思考，直到完成这一项任务。
ChatGPT的代码解释器主要采用的就是这种模式。首先，代码解释器能够与用户进行简单的互动，如用户的问侧和解释器的回应。当用户的问题需要外部调用时，例如询问天气情况，解释器会生成相应的代码，利用代码调用外部工具获取结果。基于这些结果，代码解释器会将信息反馈给用户，如“今天天气很好”。下图是，我们调研的ChatGPT Code Interpreter 的主要实现方式。

然而，我们始终觉得这样仍然不够，我们希望大模型在完成每一个任务后，能够积累经验，故而产生了借鉴强化学习思路的"反射"机制。反射机制能够让机器记住每一次任务的完成情况，无论效果好坏，以供未来参考，提升模型的性能。

Agent的框架都会让模型输出JSON进行函数调用，OpenAI也就推出了Funtion Calling，将外部调用内化到模型中，变成了一种原生能力。

考虑到前面说的ReACT和Reflection这些不彻底性，更大的变革轰然袭来，这就是Agent，今天4月AutoGPT横空出世，短短数周Star数就超过PyTorch达到90k，赚足了眼球。

1.5 Agent

今天，全世界都在关注这个领域，Agent 模式的研究和应用都在迅猛发展，作为一个"共识"可预见的未来该技术的进步将势不可挡。AutoGPT模型刚在10月15日宣布获得1200万美金的资金支持，也小道消息称OpenAI将在11月份发布面向 Agent 的原生模型和规范。百度在发布"文心一言4.0"时也表示，他们考虑在升级系统时重点考虑了系统2的能力，这也是Agent 模式的关键设计。

下图是AutoGPT 发布的进行中的架构图，旨在实现对任务的有效管理。生成的任务将会被加入优先级队列中，随后系统会不断从优先队列中选择优先级最高的任务进行执行，整个过程中，任何反馈都会通过记忆进行迭代优化代码。

这个主要框架虽然相对简单，但其设计理念具有重要意义。首先，创建一个初始的计划，然后进入主循环。系统会让模型判断在当前计划下该进行何种行动，接着会执行行动。执行完毕后，结果会写入下一次循环中。如此，每次决策都会基于之前的结果、记忆和计划，从而制定出新的行动方案。

在该框架中，模型的决策过程涉及到动作选择，这也是主要的功能之一。此外，整个过程中我们主要关注的一些工具包括“Start Another Agent”以及“Task Complete”。这两个工具体现了Agent可以被调用，从而将大任务拆解为若干小任务进行处理，继而形成层次化的树状结构，这种结构与人类分工和协作的工作方式极为相似。

值得一提的是，微软的贾维斯 (Jarvis)一个深度学习任务调度系统，也采用了类似思想。他们主要关注如何调用模型来执行各种深度学习任务，涉及到了先做计划，再选择模型，然后执行任务，获取反馈，然后进入下一轮循环等环节。

有的研究者会尝试使用大模型写小说，借鉴LSTM这个经典深度网络的思想发明RecurrentGPT，还引入了长时记忆和短时记忆机制，使模型拥有了更佳的记忆和学习功能。

其他方向，我们看到把大模型视作一个虚拟世界中的智能体，如MineCraft游戏中所设定的角色。这个角色可以沿着指定的路线，完成一些在环境中探索的任务，如建房子、挖矿、打怪等。这个角色首先需要被告知怎样去执行任务，例如自动训练课程计划的使用。然后逐步的完成任务，形成自己的执行代码库、技能库等，这样就算是在以后遇到相似的任务，它都能快速调用已有的技能和经验来完成任务。某种意义上，这就是一种强化学习的方式。

这个方向的变化真的是一日千里，就在昨天，清华联合面壁发布了XAgent，提出了双循环机制在效果上碾压了AutoGPT。这种机制中，外循环负责宏观规划，而内循环则负责细节的执行。

双循环模式

在完成各类任务的时候，它的能力也大大胜过 GPT 4。这里需要解释一下，研究者为什么把 GPT 4 和 Agent 进行对比，看起来GPT 4只是 Agent 的一个组件，自行车的轮子怎么能和自行车对比呢？这是因为从任务完成的视角看，GPT-4也是一种Agent，Agent的概念是大模型的超集，这也是为什么我们说智能时代的核心载体是 Agent 而不是大模型的原因，这个事物的发展形态终将会走到一个最稳定的形态，这个形态目前看只有 Agent 最配这个颜值担当。当能不大众所接受的对等 Agent 含义的词汇可能还在发明中，至少目前看伙伴、助手这些命名的水平都不够高，让我们拭目以待。
1.6 Multi-Agent

进一步，人们很自然地想到了多智能体（Multi-agent）模式， "斯坦福小镇"开了一个好头。在这个虚拟的小镇里，每个角色都是一个单独的智能体，每天依据制定的计划按照设定的角色去活动和做事情，当他们相遇并交谈时，他们的交谈内容会被存储在记忆数据库中，并在第二天的活动计划中被回忆和引用，这一过程中就能涌现出许多颇有趣味性的社会学现象，我们成为群体智能的涌现。

再看今年7月份，一个被命名为MetaGPT的项目引起了广泛关注，这个项目中定义了产品经理、架构师、项目管理员、工程师和质量保证等角色，各角色之间通过相互协作，基本可以胜任完成500行左右代码的小工程了。
很简单的一个实现就能够完成500行，后续改进后，是否有可能完成5000行或者是5万行代码的项目呢？譬如前两天微软刚发布的 Code Plan 项目已经开始尝试实施大型工程的改造计划。
Meta GPT 最有价值的思想是借鉴人类社会中的协作方式，尤其是SOP，之于Agent 设计则平平无奇，也包括观察、思考、状态管理、任务行动以及结果反馈等等必备组件。
同样的思路，清华开发了一个名为ChatDev的系统，进一步引入了CEO等角色，这里就不再展开描述。

值得一提的是，Agent 的应用方向其实非常广泛。比如 RPA 公司实在智能把 Agent 用于他们的产品调用常见桌面软件，如淘宝网、钉钉，来自动完成桌面任务。

而任何一个 Agent 的实现，似乎共性都挺多，都需要有长短时记忆能力、工具使用能力、通信能力，甚至包括 SOP 的能力，自然而言就有人要做这样的框架了，如 agents。

1.7 简单的难题

尽管 GPT-4 等模型非常强大、Agent的发展似乎牛气冲天，它们仍然无法满足很多任务的需要，甚至一些在我们看来很简单的任务都完成不了，比如我们构造的这个任务：

给小学生展示一下两数相加的每一步计算过程，如1135 + 78  
答：计算详细过程如下  
5+8=13， 进位1  
3+7+1=11， 进位1  
一个数已经加完，剩余数11 + 1 = 12  
结果为：1211  
下面请列出以下两数的详细计算过程：  
81728738271872871871672 + 28781729836746721

给小学生展示一下两数相加的每一步计算过程，如1135 + 78
我们必须明白，尽管AI在一定程度上模仿了人脑的工作方式，但实际上，机器人和人脑在处理信息时采用的策略有很大的不同。因此，即使在未来，我们也需要继续改进 AI 框架，以解决这种差距。比如一个百万位数的加法任务，GPT-4囿于token数的限制是不可能完成这个任务的，但人类缺可以，这恰是人类和AI需要弥补的Gap。我们进行了一些简单的试验，还没有发现大模型和Agent能搞定这个任务。其中，ChatGPT4的Code Interpreter是表现最好的，因为它调用了外部计算器，但中间的过程描述还是发生了错误。如果你能做出来这个小作业，欢迎联系我。

至此，我们已经讲述了大模型到 Agent 的发展历程。接下来的时间，我们将从人类智能的视角，结合面向目标架构的理念，分析 Agent 技术的本质、存在的缺陷以及未来可能的发展方向。

2. 通用智能基本原理

首先我们来看看这个众人熟知的认知飞轮，感知、认知、决策、行动，今天的人工智能代理更像是基于这个认知飞龙构建的。但是从本质上，人类智能远比这复杂。

在漫长的进化历史中，生物神经网络从简单的条件反射逐渐进化到今天的主动预测，我们已经可以在大脑中构建世界模型，进行强大的推理和分析。看似繁杂的过程，实际上都发生在核心的架构上，并且逐步完善。无论是工作记忆，还是人类处理语言的能力的诞生，这些都是智能的必不可少的元素，尤其是符号能力，对人类智能的发展有着不可替代的作用。

因此，让我们先提出一个更为宏观的问题，智能究竟是什么？我强烈推荐这本名为《预测算法》的书，它在20年发表，那一年，GPT 3也刚刚问世，我在阅读之后，就有这样一个感觉：生成模型是战略正确的。在之前关于AGI的分享中，也提到过这个观点，智能是通过预测来解决应对世界的不确定性的，分享视频参见这里https://www.bilibili.com/video/BV16h4y1w79A/
让我们深入理解一下模拟的概念，当一个低等动物接触到外界的刺激，它会收缩来逃避潜在的风险。这其实是一种模拟，只不过这个模拟反射神经元对有些过于反应敏锐，它假设所有的刺激都是潜在的危险。然而，对于人类来说，我们的模拟则更为精细。我们对世界进行建模，把世界以实体、关系、属性描绘出来。然而，这也是我们认知的极限，我们只能理解一个对象化的世界，非对象化的世界我们无法理解。比如，当我们探索量子的时候，我们还常常用对事物进行对象化的方式去理解，但是发现我们的理解力有时候是有限的，因为量子世界的真相超出了人类认知能力的范围，我们智能使用低维空间的投影去推断它，就像我们无法在三维世界去想象十一维世界的样子。

在过去的四十年里，科学家对认知架构有很多深入的研究，并尝试据此研发出通用人工智能，但天地不仁以万物为刍狗，当前来看只有GPT系列模型距离实现通用人工智能最近，当然这些认知理论依然具有巨大的参考和指导意义。

深入地聊认知架构和智能原理之前，我们必须要聊的是绕不开的《思考快与慢》，这是一本畅销书，其后面的学术道理也十分受用。大脑中的系统1和系统2是我们所有人都熟知的，尽管在实际实现中，系统2可能由系统1涌现，但至少在表现上，我们的大脑看起来有两个系统，系统1和系统2，分别负责不同的功能。知识和情感的快速反应被称为系统1，而逻辑性强、思考速度慢的反应被称为系统2。
接下来我们看看这些认知架构中，有一个叫做GWT(Global Workspace Theory，全局工作空间理论)，如下图所示：

全局工作空间理论（GWT）是认知科学家伯纳德·巴尔斯（Bernard Baars）和斯坦·富兰克林（Stan Franklin）在20世纪80年代后期提出的一种意识思维框架。它被开发出来，以定性地解释一系列有意识和无意识过程之间的匹配。GWT在建模意识和高级认知方面具有影响力，认为它们是从广泛、并行的神经过程中信息的竞争和集成流动中产生的。
系统1涵盖了神经网络的外围连接，涉及长期记忆、价值系统、感知运动控制相关的神经网络，系统2则是一个高度集中的“舞台”，人类的有意识思考，如做数学题时，脑中想象数字相加的过程，都在这个舞台上进行。这个舞台叫全局工作空间，记忆在这个舞台上被拉进来加工，然后被扔出去。LIDA (Learning Intelligent Distribution Agent) 受到多种计算范例的启发，并且实现了GWT。认知模块包括知觉关联记忆，情景记忆，意识，程序性记忆和行动选择。由 LIDA 架构控制的认知机器人和软件代理将能够进行多种学习机制。

其实在大模型Agent技术出现之前，人们就已经意识到，试图集成各种深度学习模型以实现人工普遍智能（AGI）并不够，还需要更高层次的认知模型。Lecun在思考AGI时对大模型的出现也提出过意见，它认为世界模型才是关键，但前两天新的研究却认为大模型中有世界模型。但毫无疑问的一点是，世界模型对于我们对世界的认知是非常关键的，无论大模型中是否包含世界的认知，Agent都必须对世界有准确的理解才能做出正确的决策。当模型不能正确运行时，决策就会出错；只有当世界模型构建的正确，才能选择正确的模型，进而做出正确的决策。

总结一下，系统2包含意识、思考、符号主义、逻辑推理图灵、机制结构化和模型。而系统1包含快速思考、神经网络连接主义、长期记忆、深度学习、亚符号、潜意识和非结构化数据。在构建 Agent 时，可以参考这两种系统的思维框架。在理解智能架构的概念时，我们需要从记忆空间、符号系统、世界模型构建与加工三个方向去考虑。记忆空间是基础，符号系统是思考和推理的核心，而世界模型的构建和加工则是其中最重要的环节。在现在的大模型中，如 GPT，虽然很多人认为它没有符号系统，但我们认为，其内部的注意力机制可能已经在激活流转过程中模拟了世界模型的加工过程，只是这个过程并不显式，而且无法控制，只能通过Prompt工程引导它进行，但它会经常跑偏。

我们通过学习掌握了对世界的知识，并针对感知数据尝试在符号系统中构建世界模型，进行预测和行动。如弹钢琴这样的行动，我们需要通过反复训练，逐渐将运动序列内化，变成肌肉记忆和反射。这些在系统2中反复出现的行为，会逐渐沉淀到系统1中。这个过程可以理解为一个“快捷通道”的形成过程，称为Shortcut。

人的视觉识别过程是一个层次性的关系，从最初级的视觉皮层一直到更高级的皮层，从简单的视觉边缘特征到线条的方向性，再到线条之间的组合，如角等更高维特征的形成，直到形成物体的感知。这些物体的概念再对应符号系统和自然语言的绑定，当图像信息经过解码过程进入符号系统后，我们的关联记忆会帮助我们召回数字等语义概念。
以人类做加法为例，假设我们要解决“219 + 13”的问题，这个过程可能会遇到一个看似相同的图形，比如图中有"13"和"B"的歧义。这就打破了现在很多人的想法，通常我们喜欢做前向过程，先使用一个视觉模型处理输入，然后再将其输出传递给大模型进行处理。实际上，人在理解这个场景时是一个双向过程，首先有一些直觉的特征传入到系统2，系统2会推断这是一个做加法任务，并将看似“B”的图形解释为13，这个过程称为Projection。例如，我们经常从一些像素点中识别出人脸，这就是由上至下的功效发挥作用，这是对未来人工智能代理（Agent）的一种启发。

另一项至关重要的能力是关联记忆。当我们在执行某一任务，如进行加法运算时，大脑并非以单一、刻板的方式运作。相反，我们的神经网络系统会同步激活，其中一部分开始唤起与加法概念、数字认知及加法规则等相关的各种信息，这些信息在关联记忆网络中被唤醒，为后续操作做好准备。接下来进入结构推理阶段，我们开始对这些符号进行结构化解读，例如面对一个三位数时，我们能够理解其每一位数字与整体及各部分之间的逻辑联系。

当我们已经理解到219 + 13是加法时，我们也会执行Structure Inference得到结构的认知A+B=C的两位数加法结构，并将219和A对应上，13和B对应上，这个过程就是Variable Binding了，我们将具体的实例与它的角色对应上了。

接下来，我们要依据加法运算规则来实现我们的目标——完成加法任务。依据既定目标及当前状态，我们需要规划出实现目标所需的详细步骤，即执行加法规则。在这个循环过程中，我们将引入两个关键概念：“捷径”（Shortcut）与“例外”（Exception）。

何谓“捷径”？初学写字时，我们书写数字的速度往往较慢，但随着反复练习，速度会显著提升。这一过程背后蕴含着“重编码”现象：我们将熟悉的动作或流程以神经元形式重新表征，将原本复杂的操作转化为一个子任务，通过类似传递参数的方式，由一个子神经网络来完成任务。以驾驶为例，初学者需全神贯注于每个细微动作，高度依赖“系统2”的理性控制。然而，经过一段时间的实践，驾驶动作变得驾轻就熟，这是因为“系统2”的控制能力已内化为“系统1”的自动反应，形成了驾驶的“捷径”。

另一个不可忽视的维度是人类对异常情况的强大适应能力。当我们行走时突然被绊倒，首要任务便是迅速应对跌倒这一突发状况，随后恢复原定路线继续前行。这意味着在执行诸如加法运算这类任务时，并非因遭遇细小干扰或各类异常才启动执行过程，而是始终在目标的指引下坚定前行。人，作为一个高度复杂的面向目标的运作系统，其智能架构的核心之一即为面向目标机制，尽管这并非人类智慧的唯一基石。有时，我们行动并无明确目标或目标并不显性，如漫步城市街头，但仍存在诸如生存等底层目标，这揭示了人类的面向目标架构远比表面看来更为复杂多元。

3. 面向目标架构
再看情绪系统，它同样在解决与目标相关的问题。我们会因目标难以达成而感到沮丧，因目标可能出现风险而焦虑，因他人妨碍我们实现目标而愤怒。种种情绪反应无不与目标达成机制紧密相连，清晰地表明面向目标机制在人类智能运行中占据着至关重要的地位。

让我们通过一个简化的模型来阐述这一机制。首先，对现实世界的理解是关键，故而在思维中构建一个关于世界的模型至关重要。当该模型被系统化地构建起来后，即形成了我们所认知的当前世界状态。与此同时，我们心中设定了一个理想的目标世界状态。人类行为的本质，便是持续不断地缩小这两个状态间的差距，而这整个过程即为“目标驱动过程”。

在这一过程中，面对问题，个体可能直接调用已知且适用的解决方案，执行预设的动作序列以消除差异；亦可能需要进行深度思考与推理分析，以创新性的方式解决问题。一旦找到一系列可能的执行步骤，这些步骤会被细化为包含多个子目标的子序列。每个子目标的实现，有的可以直接达成，有的则需进一步思索方能完成。

以GPS系统为例，其核心逻辑正是围绕某个特定目标运作：系统遍历所有可能的路径，力求找到一条能使所有目标均得以实现的最佳路线。一旦目标全部达成，任务即宣告完成。对此感兴趣的读者，不妨研读相关代码，会发现其本质上是一种“暴力搜索”策略，旨在穷尽所有可能性，从而找出通往目标状态的确切操作序列。

然而，类似于GPS这样的理想解决方案在现实生活中可能难以发挥效用，原因在于现实世界的解决方案空间往往过于庞大。AlphaGo的经历便生动地说明了这一点：尽管从理论角度看似可行，但在实际操作中却面临难以逾越的障碍。尽管如此，这种思维方式仍然颇具启示性。Newell和Simon在其1972年出版的著作《Human Problem Solving》中，深入探讨了人类如何应对问题，揭示出我们常常用到“手段-目的分析”这一策略。

以送孩子上幼儿园为例：我当前所处状态与期望状态间的主要差异在于距离。缩短距离需要借助汽车，但遗憾的是汽车出了故障。修复汽车需要更换新电池，而新电池可在汽车修理店购买。尽管我希望修理店为我安装新电池，但他们并不知道我有此需求，问题出在沟通环节。为改善沟通，我需要借助电话等通讯工具……如此循环往复，直至问题得到解决。

在计算机科学领域，与目标导向机制相关的技术方法层出不穷。以过程描述语言（PDL）为例，这是一种应用于机器人问题的经典工具。通过PDL，我们可以详细描述现实世界中的对象及其当前状态、目标状态以及可供选择的操作。随后，利用规划器在这些操作基础上生成一套合理的动作序列，以期达到问题的解决。

在当前计算机工程实践中，面向过程架构占据了主导地位。无论是接口、函数、用户界面，乃至应用程序的各个组件，均表现为可被调用的子流程形态。通过这些子流程的执行，我们期望达成预期的输出结果，然而程序本身并不对最终结果承担责任。这种架构关注的核心在于过程和流程的管理，而不涉及明确的目标导向观念在系统层面的体现。

当然，也存在一些以目标导向为核心理念的的软件工程，例如声明式编程，它只需要你描述你想要什么，而无需关心执行的过程，像HTML和SQL便是其经典例子。在这样的架构下，程序能够自行寻找达成目标的方法。

然而问题在于，这种面向目标的架构只能应用于垂直领域，而无法普遍应用到所有领域，只有在特定的领域内才能发挥作用，这就限制了它的应用范围。

总体而言，虽然面向目标架构在计算机科学中占据一席之地，并在特定领域内产生了显著效果，但其应用范围仍受到限制，主要体现在使用领域特定语言（DSL）的场景中。不可否认，这一架构在软件工程的范式变迁中扮演了重要角色。然而，随着人类生产活动方式的演变，软件工程正逐步向智能体工程（Agent Engineering）过渡：过去以人类为核心、AI作为辅助的模式，或将转变为以AI为中心、人类成为辅助的新格局。这一变革将深刻影响产品的形态与平台架构。

在这一转型过程中，原本由人类主导的功能开发工作，将越来越多地交由智能体来驱动。传统的用户界面设计，因其严格的垂直任务层级结构，要求人类逐层进行精细构建；而未来，智能体有望自主生成并持续优化此类界面。此外，新架构将不再局限于解决有限的任务集，而是具备应对无限领域任务的能力。以今日头条为例，作为一个信息分发平台，我们不禁设想，是否会诞生全新的平台模式，如知识与世界模型的分发平台？以往我们只能有效处理大量的长尾数据，而未来或许能高效解决同样海量的长尾任务。换言之，我们将从过去的“廉价规模化与昂贵个性化共存”走向“廉价规模化实现个性化”。

4. 前瞻性分析

根据上面的分析，我们能看到 Agent 技术在未来的发展还有很大的提升空间。我认为，这些提升主要可以从几个方向开始，包括引入中央执行机构、学习能力、输入感知、输出执行、世界模型和记忆等几个方面。这些构成因素是完备非正交的，都对提升 AI 技术至关重要。

4.1 Central Executive

首先，中央执行机构，这是一个核心的概念，但常常被人们忽视。现在的 Agent 只是一个规划器，它负责做规划。但实际上，这个流程中还存在很多未明确的问题，比如，是否存在一个内部加工过程，以及这个过程是否透明可控等。一种可能的解决办法是，将内部加工过程外部化，用系统2包裹起来，使每一步细粒度的思考都可以展现出来。

其次，关于世界模型的构建，当前大模型仅能接受语言输入，显然这远远不足以充分理解世界。多模态输入对于深化模型对世界的认知至关重要，这是我们未来亟待攻克的关键议题。同样，对时间感知以及自身运动控制的理解也应被纳入大模型的输入范畴。我们看到，无论是自动驾驶车辆、大模型驱动的Agent，还是其他各类智能体模型，均已普遍采用了目标导向的架构。然而，当前的挑战在于如何在细节层面对其进行优化，比如识别出该架构在哪些任务上表现欠佳，探究这些不足是由于模型底层子任务处理能力的局限，还是框架设计本身有待改进，如增设更多层次的思考机制，或是融入更丰富的内部推理过程。

另一个不容忽视的重要问题在于模型的宏观注意力管理。鉴于大模型在处理上下文信息时存在的局限性，如何使其能够自主地对外部世界进行探索，主动将注意力集中于解决特定目标性问题，从而实现积极的注意力调控机制，是我们需要深入研究的。这不仅涉及如何引导模型进行有效的搜索与尝试，特别是在面对无明显解决方案的情况时，还应关注模型何时能够通过尝试取得进展，以及如何寻找到更优质的解空间，进行高级别的推理与规划。

4.2 Memory

值得注意的是，数学和逻辑学习也会涉及到上述问题，比如人类在很多情况下不擅长规划，那么我们是否可以利用网络和记忆机制来实现规划的功能？这其中就涉及到记忆的内化，也就是把大模型从外部世界获取的经验转化为内部参数，或者说把这些经验转化为内存。

当前，我们主要依赖的记忆机制是将所有信息保留在历史记录中，待需时进行检索。然而，这些信息通常未经系统梳理，而在我们对记忆整理的探索中，已揭示出人类具备这样的能力。人脑在摄入大量关联知识后，并非简单地将其堆砌于有限的神经元存储空间内，而是通过海马体进行有效组织。在梦境状态下，大脑会对这些知识进行重组，从而使记忆网络呈现出有序状态。

那么，我们如何在人工智能中实现类似的记忆整理能力呢？目前，尚无模型具备主动遗忘的功能，即剔除无用或错误信息。在大模型训练过程中，大量无意义甚至错误的信息产生，我们虽已采取多种策略来规避这些信息的影响，却未曾尝试彻底删除它们。倘若能将此类信息替换为有价值的素材，无疑将极大提升模型效能。

值得注意的是，人工智能领域对长短时记忆（LSTM）与工作记忆及其相互关系的探讨并不深入，常常将二者简化为向量数据库来处理。我认为，深入理解并构建二者之间更为完整、相互独立的关系模型至关重要，以此解决上述问题。

4.3 Sensory

当人工智能Agent融入人类生活后，它与我们的体验和经历能否成为Agent自身的存储内容？如果可以，那么在未来，我们与Agent之间的互动将会变得更加实用，更加贴近现实生活，更加有温度。

在探讨输入方式时，我坚定地认识到多模态输入的不可或缺性。与此同时，对时间感知能力的重视同样不可或缺，尤其是在运动控制任务中，时间因素至关重要。在纳入多模态输入后，我们还需着手解决一个源自顶层架构的挑战，即如何有效实现Projection启发式机制。当前，OCR技术在某些特定任务情境下显现出明显局限性，亟待改进。

4.4 Motor

关于交流方式，我主张不应过度依赖于现有的语言体系，尽管目前的沟通几乎全然建立在语言基础之上。然而，语言作为一种沟通媒介，其信息传输效率实为有限。我设想，我们是否有可能引入一种全新的交流模式——一种近似于心灵感应般的沟通途径，令Agent能够在潜意识层面实现信息交换。

关于运动控制，目前的方法在众多机器人应用中表现得相对规整与程式化。然而，我坚信在未来，大型模型的神经网络应能无缝衔接至运动控制的神经网络，从而实现层级化操控，使得机器人动作更为连贯、流畅，甚至超越人类的灵巧度。

另一方面，运动控制不应仅停留在传统的“规划者”层面，而应实现全面的数据驱动。一旦接收到指令，神经网络应具备即时执行的能力，无需繁琐的中间环节。

此外，对于非符号化的控制机制，在大模型与底层神经网络直接对接时，我们应尽量避免依赖语言描述，因为这种方式所传递的信息密度远不及直接神经交互高效。

与此同时，对相关外部工具的升级优化亦不可或缺，以确保其更好地服务于新型Agent的需求。例如，那些愿意为便于Agent调用而进行适应性改造的工具服务商，将在新兴的价值生态中占有一席之地。以旅游服务供应商为例，一旦融入下一代Agent平台，其服务在用户旅行任务处理中将可能被优先调用，并借助Web3等技术进行价值流转与分配。

4.5 Learning

任何一款产品，或称Agent，均离不开学习这一关键过程。学习阶段对模型的成长至关重要，其中尤以培养其对自身可靠性的判断力为重。模型需清晰认知自身的知识边界，不仅明白自己所擅长与掌握的领域，更要意识到自身的未知与短板，这对模型的长远发展将产生深远影响。

谈及大型模型的优化，我认为首要之务在于模型应明确自身的职能范围。面对问题，大型模型不应轻率作答，过度展现其能力，而应严谨思考，确保其提供的解决方案精准契合任务目标。

同时，我们务必重视模型的可信度问题。尽管大模型可能从互联网海量信息乃至杂乱数据中习得诸多知识，但这并不能确保其在应对具体问题时，所提供的解答必定是最权威、最优质的。我们应当致力于训练模型，使其在接收到质量参差的信息输入时，仍能输出更具价值、更优的解决方案。

另一方面，模型的多样性同样值得我们考量。在确保任务执行效果的常规操作中，我们往往会调控模型的温度参数，以维持其输出的稳定一致性。然而，在坚守准确性底线的同时，我们不可忽视模型思维的灵动性。应鼓励智能体在解决问题时拥有更为广阔的求解范围，以期探寻到最为理想的解决方案。

4.6 World Models

在探讨世界模型时，不容忽视的是，模型的训练数据中往往混杂着大量冗余与错误信息。因此，至关重要的是赋予模型筛选、甄别并整合此类信息的能力，旨在构建一个逻辑一致、内部融洽的实体关系网络。这一方面的重要性虽鲜有深入讨论，但我认为，那些曾在构建知识图谱工作中遭遇困扰、略感沮丧的同仁们，或许应将目光聚焦于此，视其为未来工作的关键突破口。

在现有基础上，我们亟需赋予模型推理能力。理想的智能体不应过度依赖内在推理机制，而应能巧妙运用外部推理工具，以辅助决策。这里的“外部推理”可理解为一种辅助手段，供智能体按需调用。

进一步，我们必须强化模型的内省机制。面对调用成本较高的接口时，智能体不应仅凭直觉冲动行事，而应具备“心理模拟”（Mental Simulation）能力，即在行动前预见其可能产生的后果，并通过内部校验与修正，确保行动的稳健性和可靠性。这与“反思”有所区别，后者是在行动执行后依据结果进行的回溯性思考。

尤为重要的是，我们应将关注焦点转向智能体在家务生活及现实社会情境中的实体化应用，如将其转化为具备动力学机制和时间感知能力的机器人。遗憾的是，当前的大模型架构本质上仍局限于循环调用的简单逻辑，难以胜任这类涉及物理运动控制与时间敏感任务的需求。

以上便是我对智能体未来发展若干方向的初步思考。

最终，让我们以一位伟大人物的深刻洞察作为结语：Agent技术如同航海者在海岸线眺望，那海平面上初露桅尖的航船，昭示着新世界的临近；它仿佛攀登者驻足山巅，目力所及之处，东方天际喷薄欲出的朝阳正蓄势待发，预示着黎明的降临；它亦如同孕育于母体之中的生命，胎动有力，昭告着新生命的即将呱呱坠地，充满无限生机与希望。

参考文献

Wikipedia Agent. https://en.wikipedia.org/wiki/Intelligent_agent
Intelligent Agents 综述. https://vsis-www.informatik.uni-hamburg.de/getDoc.php/publications/373/INTELLIGENT_AGENTS_v7_final.pdf
Prompt经典收集。https://github.com/f/awesome-chatgpt-prompts
LLM+P: Empowering Large Language Models with Optimal Planning Proficiency
https://github.com/Cranial-XIX/llm-pddl
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Graph of Thoughts: Solving Elaborate Problems with Large Language Models
Cumulative Reasoning with Large Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
Reflexion: Language Agents with Verbal Reinforcement Learning
https://openai.com/blog/function-calling-and-other-api-updates
人大综述https://arxiv.org/pdf/2308.11432.pdf
复旦综述 https://arxiv.org/pdf/2309.07864.pdf
https://github.com/Significant-Gravitas/AutoGPT
https://github.com/microsoft/JARVIS
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
GPT-Researcher https://github.com/assafelovic/gpt-researcher
RecurrentGPT https://arxiv.org/abs/2305.13304
Voyager https://arxiv.org/abs/2305.16291
https://github.com/OpenBMB/XAgent
斯坦福小镇代码 https://github.com/joonspk-research/generative_agents
斯坦福小镇论文 Generative Agents: Interactive Simulacra of Human Behavior
MetaGPT代码 https://github.com/geekan/MetaGPT
MetaGPT论文 https://arxiv.org/pdf/2308.00352.pdf
https://github.com/OpenBMB/ChatDev
https://github.com/OpenBMB/AgentVerse
https://arxiv.org/pdf/2307.07924.pdf
Agents: An Open-source Framework for Autonomous Language Agents
https://lilianweng.github.io/posts/2023-06-23-agent/
Phase transitions of brain evolution that produced human language and beyond
A Review of 40 Years in Cognitive Architecture Research Core Cognitive Abilities and Practical Applications
LIDA: A Computational Model of Global Workspace Theory and Developmental Learning
https://hal.science/hal-03311492/document
https://ai.meta.com/blog/yann-lecun-advances-in-ai-research/
Projection: A Mechanism for Human-like Reasoning in Artificial Intelligence
https://en.wikipedia.org/wiki/Planning_Domain_Definition_Language

如何学习大模型 AGI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-

👉AGI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉AGI大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉AGI大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

麻辣牛肉面

关注

26
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
从第一性原理看大模型Agent技术

在大模型技术引领的革新时代浪潮中，面对纷繁复杂的相关资讯，您是否感到对这一前沿技术的核心理念尚不明晰？是否在评估其广阔前景与潜在影响力时有所困惑？本文旨在拨开迷雾，通过融合通用人工智能理论与面向目标的分析框架，深度剖析Agent演进的趋势，以期为您勾勒出清晰的认知图景。
复制链接

扫一扫