智能体（Agent）：理解其核心思想与组件

最新推荐文章于 2024-09-13 19:41:31 发布

北海yy

最新推荐文章于 2024-09-13 19:41:31 发布

阅读量655

点赞数 21

文章标签： langchain 人工智能语言模型 python 自然语言处理

本文链接：https://blog.csdn.net/weixin_44217158/article/details/142098456

版权

文章目录

概要

在人工智能领域，智能体（Agent）是一种能够自主做出决策并执行一系列动作的软件实体。特别是当结合了语言模型之后，智能体不仅能够根据预定义的规则行动，还能通过推理来选择最佳的操作路径。本文将深入探讨智能体的核心思想，以及构成智能体的关键组件。
智能体的核心思想
智能体的核心思想是利用语言模型作为推理引擎，来决定执行的操作序列以及执行的顺序。与传统的链式操作不同，智能体的操作不是硬编码在程序中的，而是动态生成的。这意味着智能体可以根据当前的情境和之前的经验来做出决策。

整体架构流程

提示：这里可以添加技术整体架构

例如：
在语言模型中，编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的。

关键组件

要全面理解智能体的工作原理，我们需要了解以下几个关键组件：

AgentAction 代理操作
代理操作表示智能体应执行的动作。它包含两个属性：tool（应调用的工具名称）和tool_input（该工具的输入）。

AgentFinish 代理完成
当智能体准备好向用户返回结果时，它会发出一个AgentFinish信号。该信号包含一个键值映射return_values，其中包含了最终的输出。通常情况下，这个映射会包含一个output键，该键对应的值是一个字符串，代表智能体的响应。

Intermediate Steps 中间步骤
中间步骤表示智能体在此前运行期间执行的操作以及相应的输出。这些步骤对于未来的迭代至关重要，因为它们告诉智能体已经完成了哪些工作。中间步骤通常表示为一个List[Tuple[AgentAction, Any]]的列表。

Agent 代理
代理是决定下一步要采取什么措施的逻辑单元。这一逻辑通常由语言模型、提示（Prompt）和输出解析器共同支持。不同的智能体有不同的推理提示风格、不同的输入编码方式以及不同的输出解析方式。

Agent Inputs 代理输入
代理的输入是一个键值映射。其中一个必需的键是intermediate_steps，它包含了之前的操作及其输出。通常情况下，PromptTemplate负责将这些键值对转换为最适合传递给语言模型的形式。

Agent Outputs 代理输出
代理输出是要执行的下一个操作或要发送给用户的最终响应（AgentAction或AgentFinish）。具体来说，它可以被定义为Union[AgentAction, List[AgentAction], AgentFinish]类型。输出解析器负责将原始的语言模型输出转换为这三种类型之一。

AgentExecutor 代理执行器
代理执行器是智能体的运行时环境。它负责调用智能体，执行智能体选择的操作，并将操作的输出传递回智能体，然后重复这一过程。在伪代码中，这一过程大致如下：

next_action = agent.get_action(...)
while next_action != AgentFinish:
    observation = run(next_action)
    next_action = agent.get_action(..., next_action, observation)
return next_action