一、理解 AI 智能体
AI 智能体是能够感知其环境并采取行动以实现特定目标的实体或系统。这些智能体可以从简单的算法到能够进行复杂决策的复杂系统。
以下是关于 AI 智能体的一些关键点:
(1)感知(Perception):AI 智能体使用传感器或输入机制来感知其环境。这可能涉及从各种来源收集数据,如摄像头、麦克风或其他传感器。
(2)推理(Reasoning):AI 智能体接收信息,并使用算法和模型来处理和解释数据。这一步涉及理解模式、进行预测或生成响应。
(3)决策制定(Decision-making):像人类一样,AI 智能体根据其感知和推理来决定行动或输出。这些决策旨在实现其编程或学习过程中定义的特定目标或目的。此外,AI 智能体将更多地作为助手而不是取代人类。
(4)执行(Action):AI 智能体根据其决策执行行动。这可能涉及现实世界中的身体动作(如移动机器人臂)或数字环境中的虚拟动作(如在应用程序中提出建议)。
二、AI 智能体与 RAG 应用的区别
RAG(检索增强生成)应用和 AI 智能体指的是人工智能领域内的两个不同概念。
RAG 通过结合信息检索方法来提高大型语言模型(LLM)的性能或输出。检索系统根据输入查询从大型语料库中搜索相关文档或信息。然后,生成模型(例如基于 Transformer 的语言模型)使用这些检索到的信息生成更准确和上下文相关的响应。这有助于通过整合检索到的信息来提高生成内容的准确性。此外,这种技术消除了对新数据进行微调或训练 LLM 的需求。
另一方面,AI 智能体是设计用来执行特定任务或一系列任务的自治软件实体。它们基于预定义的规则、机器学习模型或两者结合来运行。它们通常与用户或其他系统交互,以收集输入、提供响应或执行动作。一些 AI 智能体的性能随着时间的推移而提高,因为它们可以根据新数据和经验学习和适应。AI 可以同时处理多个任务,提供可扩展性。
总之,RAG应用是专门设计用于通过结合检索机制来增强生成模型的能力;智能体是更广泛的实体,旨在自主执行各种任务。
三、LangGraph 简介
LangGraph 是一个强大的库,用于使用大型语言模型(LLM)构建有状态、多参与者应用程序。它有助于创建涉及单个或多个智能体的复杂工作流程,提供循环、可控性和持久性等关键优势。
优势:
- 循环和分支:与使用简单有向无环图(DAG)的其他框架不同,LangGraph 支持循环和条件语句,这对于创建复杂的智能体行为至关重要。
- 细粒度控制:作为一个低级框架,LangGraph 提供了对应用程序流程和状态的详细控制,使其成为开发可靠智能体的理想选择。
- 持久性:它包括内置的持久性,允许你在每个步骤后保存状态,暂停和恢复执行,并支持高级功能,如错误恢复和人工干预的工作流程。
特点:
-
循环和分支:在你的应用程序中实现循环和条件语句。
-
持久性:在每个步骤后自动保存状态,支持错误恢复。
-
人工干预:中断执行以供人工批准或编辑。
-
流式支持:每个节点生成输出时即时流式传输。
-
与LangChain集成:与LangChain和LangSmith无缝集成,也可以独立使用。
四、Ollama 简介
Ollama 是一个开源项目,它使在本地机器上运行大型语言模型(LLM)变得简单且用户友好。它提供了一个用户友好的平台,简化了 LLM 技术的复杂性,使其易于访问和定制,适用于希望利用 AI 力量而无需广泛的技术专业知识的用户。它易于安装。此外,我们有一系列模型和一套全面的功能和功能,旨在增强用户体验。
关键特点:
- 本地部署:直接在本地机器上运行复杂的 LLM,确保数据隐私并减少对外部服务器的依赖。
- 用户友好的界面:设计直观易用,适用于不同技术水平的用户。
- 可定制性:微调 AI 模型以满足您的特定需求,无论是研究、开发还是个人项目。
- 开源:作为开源项目,Ollama 鼓励社区贡献和持续改进,促进创新和协作。
- 轻松安装:Ollama 以其用户友好的安装过程脱颖而出,为 Windows、macOS 和 Linux 用户提供直观、无忧的设置方法。
五、使用 LangGraph 和 Ollama 创建 AI 智能体的步骤
在这个案例中,我们将使用qwen2:7b 模型创建一个简单的智能体示例。这个智能体可以使用 Tavily 搜索 API 搜索网络并生成响应。
我们将从安装 Langgraph 开始,这是一个设计用于使用 LLM 构建有状态、多参与者应用程序的库,非常适合创建智能体和多智能体工作流程。LangGraph 受到 Pregel、Apache Beam 和 NetworkX 的启发,由 LangChain Inc. 开发,可以独立于 LangChain 使用。
我们将使用qwen2:7b 作为我们的 LLM 模型,该模型将与 Ollama 和 Tavily 的搜索 API 集成。Tavily 的 API 针对 LLM 进行了优化,提供了事实性、高效、持久的搜索体验。
开始安装langgraph包:
pip install -U langgraph
如有需要,安装其他包:
pip install langchain-openai langchainhub
完成安装后,我们将进入下一个关键步骤:提供 Travily API 密钥。
注册 Travily 并生成 API 密钥。
export TAVILY_API_KEY="apikeygoeshere"
现在,我们将运行以下代码来获取模型。请尝试使用 Llama 或任何其他版本的
qwen2:7b。ollama pull qwen2:7b
导入构建智能体所需的所有必要库。
from langchain import hubfrom langchain_community.tools.tavily_search import TavilySearchResultsfrom langchain.prompts import PromptTemplatefrom langgraph.prebuilt import create_react_agentfrom langchain_openai import ChatOpenAIfrom langchain_core.output_parsers import JsonOutputParserfrom langchain_community.chat_models import ChatOllama
我们将首先定义我们想要使用的工具,并将工具与 llm 绑定。在这个简单的例子中,我们将使用通过 Tavily 提供的内置搜索工具。
示例代码如下所示:
import os
# 设置环境变量"TAVILY_API_KEY",将其值设为一个API密钥字符串# 这个密钥用于认证和授权应用程序访问Tavily API的服务# 通过将API密钥存储在环境变量中,可以提高代码的安全性和可维护性,避免硬编码敏感信息os.environ["TAVILY_API_KEY"] = "tvly-xxxxxxxxxx"
# 初始化ChatOpenAI实例,设置以下参数:# model参数指定使用的语言模型为"qwen2:7b"# temperature参数设置为0.0,这意味着生成的响应将更加确定和基于模型的知识,减少随机性# api_key参数设置为"ollama"# base_url参数指定了与模型交互的API基础URL,此处指向本地主机上的一个特定端口和路径llm = ChatOpenAI(model="qwen2:7b", temperature=0.0, api_key="ollama", base_url="http://localhost:11434/v1")
# 创建工具列表,其中包含一个TavilySearchResults实例,用于执行搜索操作# max_results参数设置为3,这意味着每次搜索将返回最多3个结果tools = [TavilySearchResults(max_results=3)]
下面的代码片段检索一个提示模板并以可读格式打印。然后可以根据需要使用或修改此模板。
# 从LangChain的Hub中拉取一个预定义的prompt模板prompt = hub.pull("wfh/react-agent-executor")# 使用pretty_print()方法以更易读的格式打印模板内容prompt.pretty_print()
使用前面创建的语言模型(llm)、一组工具(tools)和一个提示模板(prompt)创建一个智能体(agent)。
# 创建agent对象agent = create_react_agent(llm, tools, messages_modifier=prompt)
from IPython.display import Image, display# agent.get_graph()方法返回代理的内部状态图,描述了代理的组件和它们之间的关系# draw_mermaid_png()方法将状态图转换为PNG格式的图像,便于可视化展示display(Image(agent.get_graph().draw_mermaid_png()))
这段代码的作用是在Jupyter Notebook中显示智能体的结构和工作流程图,帮助理解和调试智能体的行为。
agent 节点会使用消息列表调用语言模型。如果生成的 AIMessage 包含 tool_calls,则图将调用 tools 节点。tools 节点执行工具(每个 tool_call 执行一个工具),并将响应作为 ToolMessage 对象添加到消息列表中。然后 agent 节点再次调用语言模型。这个过程会一直重复,直到响应中不再有 tool_calls。然后 agent 返回包含键 “messages” 的字典,其中包含了完整的消息列表。
# 调用agent的invoke方法response = agent.invoke({"messages": [("user", "解释人工智能")]})
# 遍历响应字典中'messages'键对应的列表,该列表包含了代理生成的响应消息for message in response['messages']: print(message.content)
生成如下响应:
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。