一、 AI Agent,2024上半年最火的崽!
AI Agent(人工智能代理)这玩意儿,上半年简直火到没朋友!笔者最近也紧跟潮流,恶补了一番相关知识,还用智能体开发平台捣鼓出几个有意思的Agent。今天就来跟大家唠唠,我对AI Agent的“浅见”。
二、 AI Agent到底是个啥?
AI Agent,全称人工智能体,说白了,就是个能感知周围环境、自己琢磨、做决定、还能干活儿的智能玩意儿。简单粗暴点理解,它就是一个基于大语言模型(LLM),能独立思考、会用工具、还能一步步完成你给的任务的计算机程序。
这时候你可能会问了,AI Agent和LLM、RAG这些概念,到底啥关系?别急,咱们一个个来捋。
1、 LLM:我是AI Agent的“最强大脑”
LLM(大语言模型)这家伙,可是个学霸!它基于海量文本数据训练,能写文章、能读懂你说话的意思,还能处理各种文字工作,比如写个摘要、回答问题、搞个翻译啥的。简单说,LLM就是负责语言逻辑推理的,像什么Chat GPT、文心一言、通义千问,都是LLM的代表。
不过,LLM也有“知识盲区”,因为它学的东西都是提前训练好的,时效性不够强。而且,它学的知识一般都是公开的、标准化的,难免有局限性。
为了解决LLM知识有限的问题,就需要把外部知识“喂”给它,让它学懂了再“吐”出来,这时候就要用到RAG技术了。
2、 RAG:我是LLM的“知识外挂”
RAG(检索增强生成)技术,就像是给LLM开了个“知识外挂”。它结合了外部信息检索和LLM的生成能力,能处理更复杂的信息查询和生成任务。在AI时代,RAG 通过加入外部数据(比如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,让它查到的信息更准、生成的内容更好。举个栗子:文心一言的插件服务,就能把实时或者私有的知识“喂”给LLM。
总结一下,RAG是一种技术,作用于LLM,目的是让LLM输出的结果更准确。
3、 AI Agent、LLM、RAG,我们仨的关系!
如果把AI Agent比作一个“人精”,那LLM就是它的“大脑”。
AI Agent 会利用 LLM 的推理能力,把一个大问题拆成一堆小问题,然后安排好这些小问题之间的先后顺序,先解决哪个,再解决哪个。接着,它会按顺序,调用 LLM 、 RAG 或者其他工具,来逐个解决这些小问题,直到把最初的大问题搞定。
三、 AI Agent的“身体构造”大揭秘!
前面说了,LLM是AI Agent的“大脑”,但光有“大脑”可干不了复杂的事儿。作为一个“智能体”,还得有“神经感官系统”和“四肢”的配合,这就引出了AI Agent的基础架构。
▲由LLM驱动的智能体系统
如上图,Agent主要由4个关键部分组成,分别是:规划(Planning)、记忆(Memory)、工具集(Tools)、行动(Action)
1、 规划(Planning):我是Agent的“行动指南”
“规划”就像是Agent的“思维模式”。如果用人来类比,当我们接到一个任务时,我们的思维模式可能是这样的:
- 先想想怎么完成这个任务。
- 然后把任务拆成几个小任务,一步步来。
- 再看看手头有什么工具能帮我们更快更好地完成任务。
- 在执行任务的时候,我们会边做边反思,不断调整策略。
- 执行过程中,我们会考虑任务啥时候算完成。
所以,我们可以通过 LLM 提示工程(Prompt),给Agent赋予这样的思维模式。比如:在写Prompt的时候用上ReAct、CoT这些推理模式,引导LLM把复杂的任务拆解成多个步骤,一步步思考和解决,这样输出的结果就更靠谱了。
2、 记忆(Memory):我是Agent的“知识库”
记忆是啥?当我们思考这个问题的时候,其实我们的大脑已经在用记忆了。记忆就是大脑存储、保留和回忆信息的能力。
模仿人类的记忆机制,Agent也分了两种记忆:
-
短期记忆
:就像我们平时聊天,单次对话的上下文会被暂时记住,方便我们进行多轮对话,任务结束后这些记忆就会被清空。
-
长期记忆
:那些需要长时间记住的信息,比如用户的个人信息、业务信息,通常会用向量数据库来存储和快速检索。
3、 工具集(Tools):我是Agent的“百宝箱”
Agent能感知环境、做决策、执行任务,都离不开“神经感官系统”的帮忙,“工具集”就扮演了这个角色。Agent通过工具从周围环境获取信息(感知),经过LLM处理后再用工具完成任务(执行)。
所以,我们需要给Agent配备各种工具,还要教它怎么用这些工具。比如:
- 通过调用软件系统不同应用模块的API,获取指定的业务信息,以及执行业务操作的权限。
- 通过调用外部的插件工具,来获取LLM原本不具备的能力,比如:文心的Chat files插件能解析文档;扣子的ByteArtist插件能文生图等等。
这里就用到了前面提到的RAG技术。
▲扣子平台的插件商城
4、 行动(Action):我是Agent的“执行力”
Agent根据规划和记忆来执行具体行动,这可能包括与外部世界互动,或者通过调用工具来完成一个动作,说白了,就是一个输入(Input)任务的最终输出(Output)。
比如:实体AI机器人完成一个“鼓掌”的动作;又或者在软件系统里,AI助手帮你创建一个待办任务。
▲Cyberdog2完成“鼓掌”任务
四、 AI Agent实战案例:订餐小助手
为了让大家更好地理解AI Agent,这里举个生活中的小例子:假设你需要跟朋友在附近吃饭,想让AI Agent帮你订餐厅。
Agent会先把你提出的任务拆解成几个步骤:
第一步:定位(我在哪儿?)
-
推理1
:光凭现有信息没法回答这个问题,得知道你现在在哪儿,以及附近有哪些餐厅。
-
行动1
:用地图工具(Tools)获取你当前的位置信息。
-
结果1
:得到附近的餐厅列表。
第二步:选餐厅(哪家最好吃?)
-
推理2
:要确定订哪家餐厅,得知道你喜欢吃啥,以及其他细节(比如:吃饭时间、几个人一起吃)。
-
行动2
:从记忆(Memory)里翻出你的饮食偏好、吃饭人数、时间等信息。
-
结果2
:确定最适合你的餐厅。
第三步:订座(搞定!)
-
推理3
:根据结果2,看看现在手头的工具能不能完成订座。
-
行动3
:用相关的插件工具,进行餐厅预订(Action)。
-
结果3
:任务完成!
五、 Agent在To B产品中的应用:让工作更“丝滑”
了解了AI Agent的基本原理后,我们可以把这套框架思想应用到To B产品的AI化设计中。比如:用AI Agent来搭建报表、创建任务、生成工作报告等等。这里就拿**【生成工作报告】**为例,分享一下我的思路:
在CRM系统里,写工作报告(周报、月报)是个周期性的高频工作。这个工作可以分成几个阶段:
1、 手动阶段:吭哧吭哧自己干
刚开始,员工写工作报告得做好几步:
- 第一步:通过各种方式整理汇报周期内,联系了哪些客户;商机都推进到什么阶段;哪些客户成交了,成交了多少钱等等。
- 第二步:把这些零零散散的信息,重新整理成汇报格式(比如:内容+当前进度+预期等)。
- 第三步:选择汇报人,提交报告。
这个过程,员工大部分时间都花在了收集和整理信息上,累觉不爱。
▲手动阶段写工作周报
2、 Copilot阶段:LLM来帮忙
有了LLM,员工写工作报告的时候,可以省去整理信息、撰写报告的步骤。
这时候,只需要把报告要求告诉LLM,让LLM根据零散的数据信息进行加工整理,最后自动写好工作报告。如果提问中没有汇报人等信息,LLM会通过多轮对话的方式来问你。
3、 Agent阶段:智能体,全靠你了!
到了Agent阶段,我们可以基于智能体的基础框架,打造一个**【工作报告智能体】**:
-
规划(Planning)
:写Prompt的时候,让LLM把“生成工作报告”这个任务拆解成获取基础数据—整理输出报告—选择汇报人—执行提交这四步。
-
工具(Tools)
:因为LLM没法获取私有信息,所以通过RAG技术,接入数据中心API来获取客户联系、流转、成交等详细数据;以及接入工作报告应用API来获取“填写”和“提交”的权限。
-
记忆(Memory)
:把员工以前的汇报内容拿来分析,提炼出汇报的文案风格、内容格式、汇报周期、汇报人等信息,作为长时记忆存起来,写报告的时候就能直接用。
-
行动(Action)
:基于工作报告应用开放的执行权限,等LLM写好工作报告后,自动执行提交操作,搞定!
▲工作报告智能体框架
这样一来,员工只需要给Agent下达写工作报告的任务(可以设置定时任务或者手动触发),Agent就会自动完成数据采集、报告撰写、选择汇报人、报告提交这些操作。
▲工作报告智能体demo
六、 总结:AI Agent,To B产品的未来!
如果把“To B软件的AI化”比作汽车自动驾驶技术的发展,那么2023年LLM的推出,相当于To B软件应用的自动化程度从L1升级到了L2;而AI Agent的到来,让自动化程度更上一层楼,从L2升级到了L4。
▲人类与AI协同的三种模式
随着AI Agent自主性的不断增强,它会逐渐替代越来越多的重复性工作。但从To B软件的角度来看,AI最终要解决的核心问题还是**「降本增效」**。
所以,作为产品经理,在提升自己AI能力的同时,也要不断提高自己对产品所在行业的业务理解能力。毕竟,如果找不到核心应用场景,再先进的工具也只是摆设。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!