关于思维和智能体模型的思考（4）

姚家湾

已于 2024-07-19 07:18:44 修改

阅读量748

点赞数 16

文章标签：人工智能大模型 Agent

于 2024-07-18 14:37:58 首次发布

本文链接：https://blog.csdn.net/yaojiawan/article/details/140487905

版权

大脑是心智的社会

马文明斯基在《心智社会》中提出，思维是小段思维组成的。头脑中存在着一个由不同思维组成的小社会。他将这种思维模型称为“心智社会”。并且将小段思维成为心智，或者智能体。也可以这样认为，我们的头脑是一种由无数个小零件组成的，这些零件一直遵循物理法则，进行完美的协同工作。

但是，即使你知道了脑中每个单独智能体的所有细节。但是仍然需要有高水平的思维程序去对这些信息进行概括总结。

无论如何，这只是马文明斯基为人类的大脑思维构建的一个框架模型，我们并不清楚大脑是如何工作的。他提供了一种研究人工智能的思想体系，对我们研究人工智能技术一些启发。

大语言模型带来的困惑

2023年，openAI的chatGPT 横空出世。给我们带来了另一种AI 范式，基于“Scale Law” 第一性原理，大规模的语言模型体现了许多大脑智慧的特征。尽管称为大预言模型，但是经过训练的巨大神经网络就像人脑一样成为了一个黑匣子。它呈现出来的特征仿佛只能使用生物学家或者心理学家的方式去研究。这使经典AI 理论产生了困惑。我们难以从大语言模型中看出马文明斯基的思维模型的影子。

《如何创造可信的AI》一文作者盖瑞马库斯就指出，基于深度学习的AI 是一种狭义的AI，无法通向安全，聪明和可信的AI，业界在狭义AI短期取得的成果上的痴迷，以及大数据带来的垂手可得的“低垂的果实”，都将人们的注意力从长期的，更富挑战性的AI问题上转移开来。

盖瑞马库斯进一步提出。基于深度学习的系统解决不了问题。要从人类心智的内在结构中寻找线索。

大语言模型是智能体的智慧之源

笔者看来，马文明斯基的心智模型依然是我们研究人工智能的方法论。

人类的思维是由许多智能体组成的，它们组成了心智的社会。每一个智能体都具有一定的思维能力，它们的智慧来自于大脑的神经网络中。人类的思想通过语言表达。因此，人脑的神经网络是能够通过人类表达的各种语言信息来训练的。综合起来讲， 大语言模型是智能体中的智慧之源（Agent Powerd by LLM）。

超级大模型vs 专业大模型

chatGPT的成功给人的启示似乎是模型越大越好。对于构建通用人工智能（AGI）而言，也许是对的。但是对于一个具体的Agent 而言，它需要的一部分专业的智慧就可以了。想必人脑的神经网络也是分区域的。构建一个超级的大模型为所有的Agent 提供智慧，不如让一系列专业的语言模型为不同的Agent 提供智慧，如果讲Agent 比喻为大脑中无数的小人人的话，有的小人可能是特别擅长总体调度，有的擅长分类，有的擅长推理，有的是化学家，有的是物理学家。构建专业的大语言模型相当于构建模块化的神经网络。这种方法应该更加有效。

从这个意义上讲，人类的智慧将是无数的智能体和无数的神经网络片段（模块）组成的

将Agent和神经网络的大语言模型分解的优势：

简化了提示工程的复杂性

选择不同的专业小模型，降低了模型的算力，提高了响应的及时性和准确性。

思维链由不同的Agent 逐步完成，每个Agent 都可以做验证工作。我们的实验表明比将思维链一股脑交给LLM 准确地要好。
降低了对LLM 的依赖性。

将目标拆解之后，每个Agent 都实现小的目标，大多数LLM 都能做出正确的结果。并且不再依赖具体LLM 的API。在我们的实验中，使用了零一万物大模型，它目前几乎没有多少API，但是Agent 通过简单的chat 就能够实现思考和判断。对于LLM而言，小问题不再话下。如果未来有更多专业小模型出现的话，可能效果更好。

进一步的思考

让我们沿着这条思路进一步地思考。

Agent 分解成多大合适？

出于对大模型的信任，人们将完整的目标交给了大模型去完成，完整的AI应用就是Agent，比如购物Agent，教育Agent，写诗Agent 等等。

在某些场合，LLM的确能够完美地解决问题。但是提示词工程（Prompt）会变得异常复杂。开发AI应用时一直有一种纠结，就是你所做的努力是否被大语言模型超越了？

我们的实验表明，将任务分解之后，由Agent 逐步地提示，大模型求解的效果比较好。但是Agent 的颗粒度过细，也许是白费力气。

思维链是由大模型产生，还是由智能体确定

对于复杂的目标而言，需要将一个大的目标分解成若干小的目标去完成，这就是所谓思维链（COT），这种思维链如何产生？网络上比较多讨论的是由LLM 完成，人为地做一些提示。其实，思维链的生成可以有三种：

人工提示，由LLM 完成

要让LLM 实现比较理想的思维链规划，需要专门训练大模型，或者微调。

通过固定的智能体网络人为确定思维链
由智能体探寻思维链

Agent 能够自动生成么？

前面提到，人类的心智是成千上万的智能体构成的。那么，这些Agent 能够自动地生成的么？还是由人工设计，以智能体库的方式分享呢？是否能够通过Agent 的描述和提示自动生成Agent？

Agent 能够自我学习和进化？

Agent 能够具备记忆能力，它包括短期记忆和长期记忆。在记忆的能力下，能否自我学习？

Agent 能否纠错？

Agent 能对LLM 的回答做一些检查，在我们的实验中，Agent 对内部的LLM的回答是限定范围中的。Agent 能够对LLM 的结果做一些验证。比如：请问用户的提问是关于购物，还是运动？显然这个结果只有三种：

购物
运动
都不是

如果LLM 回答我只知道他去过上海，显然LLM 答非所问了。在具体实验中，我们往往要求LLM 输出json 结构化数据。这也是一种验证的方法。

如何提高Agent 的泛化能力

构建通用的Agent 是一个大的挑战，也就是Agent具备泛化能力。

如何有效地实现Agent 之间有效的信息共享

关于思维和智能体模型的思考（3）中，我们初步讨论了智能体环境信息的问题。

结束语

从某种角度看，大语言模型的出现并非神经网络中数学研究取得了重大的进展，这个领域的大部分问题在20世纪50年代就基本解决了。LLM主要得益于为游戏软件而开发的GPU 硬件和互联网产生的大数据。从某种意义上讲，深度学习更像一门艺术，而不是科学。许多AI的研究成果依然有效，我们不能因为深度学习取得的短期成果，而将AI的许多其它方向的研究搁置起来。深度学习很可能是一系列工具的其中之一。而不是独立的解决方案。

太多AI 都是短期解决方案的堆砌，不过是一堆可以让系统立即工作的代码，而缺乏其它行业司空见惯的关键工程保障。比如系统的压力测试这样的质量保证。就目前而言，在其它工程领域局部地应用AI 的某些成果，而不是急于过于相信媒体的各种神话。

智能体和专业小模型的核心思想来自于工程领域模块化方法。

与心理学研究，脑科学以及工程领域的许多技术相结合是AI未来的一个研究方向。马文明斯基的思想仍然是我们探索的一盏明灯。