人工智能初识AI Agent——以大模型为核心的智能体

最新推荐文章于 2024-05-29 20:04:00 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2024-05-29 20:04:00 发布

阅读量434

点赞数 1

文章标签：人工智能大语言模型讲师人工智能培训 gpt

原文链接：https://mp.weixin.qq.com/s/LgBlWDlcExkYhy72FgqM8Q

版权

引言

在2018年的开发者大会上，谷歌宣布的一款 AI 助手——Google Duplex，一个通过电话完成实际任务的人工智能系统。它能够进行复杂的对话，并且完全自主地完成大部分任务，无需人工参与。当然它也具备自我监控功能，当识别到无法自主完成任务时（例如，安排异常复杂的约会），它会向可以完成任务的人类操作员发出信号。

当时这个信息还是挺火的，而负责美业连锁门店业务系统需求的我，收到了老板的提问：“你们不是在做顾客自助预约的功能么，能不能像谷歌这样做到顾客说一句话，就自动执行预约呢？”这样的功能肯定用户体验很好！

那时我只笑笑不说话——这种AI技术，我们自研的可能性可以说为0；而那时候也还没有现在这些大模型和智能体框架。不是我不想，而是不能。

而随着以GPT大模型为代表的人工智能（AI）2.0时代的技术发展，从深度学习、机器学习、自然语言处理到计算机视觉，AI技术不断突破限制，为众多行业带来了革命性的变革，从提供客户服务的聊天机器人到为医疗保健和制造业创建的复杂机器人。特别是以GPT、Claude、Gemini等大模型的发布，使得这样的智能助手对于小企业、普通人而言也有了触手可及的可能性。

这，就是本文所要探讨的AI Agent（人工智能代理，也称为AI智能体）。

AI智能体概述

尽管ChatGPT、Midjourney、Runway、Pika等原生AI应用非常火爆，微软、谷歌、百度、淘宝等大厂在结合LLM的能力更新迭代自己的产品，很多套壳应用也层出不穷，但LLM的潜力可远远不止于用来生成好的文案、图片和视频，或者用来优化学习、体验、搜索等，它可以被定义为一个强大的通用问题求解器——也就是本文所要探讨的AI智能体。

什么是AI Agent

AI Agent 并不是一个新兴的概念，早在多年前就已在人工智能领域有了研究。在《人工智能：现代方法（第4版）》一书中，作者表示：

任何通过传感器（sensor）感知环境（environment）并通过执行器（actuator）作用于该环境的事物都可以被视为智能体（agent）。

从这个概念上而言，围棋机器人AlphaGo、苹果手机助手Siri、天猫精灵智能音箱等，都可以理解是AI Agent。

不过，我想要探讨的是一种更先进的、面向未来的人工智能代理——AI Agent旨在理解、分析和响应人类输入，像人类一样执行任务、做出决策并与环境互动。它们可以是遵循预定义规则的简单系统，也可以是根据经验学习和适应的复杂、自主的实体；可以是基于软件的实体，也可以是物理实体。它们被用于各种领域，包括机器人、游戏、虚拟助理、自动驾驶汽车等。这些智能体可以是反应性的（直接对刺激做出反应）、深思熟虑的（计划和决策），甚至具有学习能力（根据数据和经验调整它们的行为）。

相比起来，智能汽车的自动驾驶（L5级别）、（未来更完美形态的）特斯拉人型机器人Optimus这样的智能应用，会更符合我所说的AI Agent的终极形态。

AI Agent的出现标志着我们向通用人工智能（AGI）迈出了一步。在AGI中，机器将在不同领域模仿人类般的灵活性和无与伦比的熟练度（但是效率上可能远高于人类）。

AI Agent和LLM、RPA的区别

大语言模型和 AI Agent 的区别在于 AI Agent 可以独立思考并做出行动，和 RPA 的区别在于它能够处理未知环境信息：

与植根于固定参数和训练数据的标准自动化过程相比，AI Agent在不确定的环境中蓬勃发展，在未知的领域中自主导航，并处理大量新数据。它们是智能自动化的新面孔。但AI Agent又不仅仅是智能的——它擅长使用电脑，无论是直接浏览互联网、管理应用程序，还是进行金融交易和控制设备，其功能广泛而通用。

但是LLM/LMM的突破和发展，为AI Agent的实现铺平了道路，这也是为什么ChatGPT发布后关于AI Agent的讨论愈发火热。以大模型为驱动的人工智能代理具有以下优势：

GPTs本身也可以是智能体，因为它支持“Action”。例如直接浏览网页（使用webpilot插件）：

跨软件发送消息：

自动整理信息（例如根据在线客服对话提取出商机线索入库）：

AI Agent 可以类比为自动驾驶的 L4 阶段，距离真正实现仍有差距（或者说，目前的表现还不理想）：

AI Agent的类型

从工作模式来看，AI智能体可以分为单Agent、多Agent、混合Agent（人机交互Agent）三种类型：

单Agent：这种代理侧重于执行单一任务或一系列相关任务，且不需要与其他智能体进行交互。单个代理可以根据任务执行不同的操作，如需求分析、项目读取、代码生成等。例如手机上的Siri或Google Assistant，你可以要求它设置闹钟、查询天气、播放音乐等，每个请求都是由单个AI代理独立处理的，它根据你的命令执行特定的任务。

图：单代理应用场景的三个层次：任务导向、创新导向、生命周期导向。

多Agent：这种模式侧重于智能体之间的互动（合作或对抗）和信息共享，多个智能体协同工作，相互交流信息，共同完成更复杂的任务或目标。多agent应用场景在软件行业开发、智能生产、企业管理等高度协同的工作中非常有帮助。

图：多代理应用场景的两种交互形式：合作型互动、对抗型互动。

在这里，给大家分享一个我在去年12月份所体验的一个基于LLM的多智能体框架——MetaGPT来帮助理解，详见下方的视频。在它的基础版本中，MetaGPT内部包括产品经理 / 架构师 / 项目经理 / 工程师等多个Agents，用户只需要输入一句话的需求，它就会自己思考并最终输出用户故事、竞品分析、需求文档、数据结构、APIs 、代码文件等（尽管还不完美，但已经让我震撼）。

混合Agent：这种模式中，人工智能系统和人类共同参与决策过程，交互合作完成任务，强调的是人机协作的重要性和互补性。智慧医疗、智慧城市等专业领域可以使用混合智能体来完成复杂的专业工作。以智慧医疗为例，医生和AI系统共同进行病情诊断，AI系统可以快速分析病人的医疗记录、影像资料等，提供初步的诊断建议；而医生则可以基于AI的分析结果和自己的专业知识和经验，做出最终的诊断决定。

从决策制定和行为方式的角度看，AI智能体可以分为以下类型：

在大多数环境中，仅靠目标并不足以产生高质量的行为。例如，许多动作序列都能使出租车到达目的地（从而实现目标），但有些动作序列比其他动作序列更快、更安全、更可靠或更便宜。同样是在“路线规划”中，可能会有“地铁优先”“步行最少”“换成少”“时间短”等不同的选项，这些就是用户期望的效用。

还有一些其他的分类，尽管没有出现在《人工智能：现代方法》一书中，但也值得一提：

基本构成和技术原理

AI Agent的基本构成

复旦大学NLP团队在《A Survey on Large Language Model basedAutonomous Agents》一文中总结性地指出，如果基于大语言模型构建AI Agent，其总体框架由大脑、感知和行动三个关键部分组成：

对细节感兴趣可进一步查阅原论文：https://arxiv.org/pdf/2309.07864.pdf

需要强调的是，根据选择的不同具身方法，智能体能够以软件操作、机器人、自动驾驶汽车等多种形式表现。而并不是只有软件程序层面的Action（例如根据需要决定调用指定的插件/API）。

比如知名AI专家李飞飞团队推出的具身智能框架——VoxPoser，就是将大模型接入机器人，把复杂指令转化成具体行动规划（无需额外数据和训练），让其在模拟和现实世界的各种机器人操作任务中取得了很不错的表现：

而自动驾驶，则是迄今为止我心目中最为高级的具身智能形式了：

AI Agent的工作原理

应用场景与案例

AI Agent的应用

我们可以看到有不同领域的智能体纷纷推出，其中很多都火出圈了。下面这张图片展示了更多：

人工智能大模型讲师培训咨询叶梓

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
人工智能初识AI Agent——以大模型为核心的智能体

尽管ChatGPT、Midjourney、Runway、Pika等原生AI应用非常火爆，微软、谷歌、百度、淘宝等大厂在结合LLM的能力更新迭代自己的产品，很多套壳应用也层出不穷，但LLM的潜力可远远不止于用来生成好的文案、图片和视频，或者用来优化学习、体验、搜索等，它可以被定义为一个强大的通用问题求解器——也就是本文所要探讨的AI智能体。相比起来，智能汽车的自动驾驶（L5级别）、（未来更完美形态的）特斯拉人型机器人Optimus这样的智能应用，会更符合我所说的AI Agent的终极形态。
复制链接

扫一扫