单个智能体建模与优化现状

人类长期以来追求类似于或超越人类水平的人工智能 (AI),而 基于AI的代理(Agent)被认为是一个有前途的研究方向。传统计算机领域的Agent有多种,如自动化脚本、网络爬虫、推荐系统、软件机器人能够独立自主的完成某些特定任务的软件实体 [1]。如今AI领域以及大语言模型LLM的飞速发展,使得人们对代理的需求量和以及任务复杂度要求变得越来越高,从而对代理有了更加新和具体的定义——智能体(Agent)。其中基于生成式AI的大型语言模型(LLM)因其多样化的能力被视为潜在的通用人工智能的基础 [2]。

基于LLM的智能体通常由以下几个模块组成 [2]:Brain(大脑)+Perception(感知)+Action (行动)。其中的核心,即大脑,又由自然语言交互(Natural Language Interaction)、知识(Knowledge)、记忆(Memory)、推理与规划(Reasoning & Planning)、可转移性和泛化所构成(Transferability and Generalization)。

  1. Brain(大脑)

为了确保有效通信,进行自然语言交互(Natural Language Interaction)的能力至关重要。大脑模块接收到感知模块处理的信息后,首先检索知识(Knowledge) 和调用记忆(Memory)。这些结果有助于智能体制定计划、推理和做出明智的推理与规划(Reasoning & Planning)。此外,大脑模块可能会以摘要、向量或其他数据结构的形式记住智能体过去的观察、想法和行动。同时,它还可以更新常识和领域知识等知识a以备将来使用。基于 LLM 的智能体还可以凭借其可转移性和泛化(Transferability and Generalization)能力适应不熟悉的场景。在后续部分中,我们将逐一并有所侧重地探讨这些模块:

    1. 自然语言交互(Natural Language Interaction)处理与用户的文本对话,理解用户意图,并生成适当的响应。得益于现今LLM的高速迭代和发展以及自身特性,使得智能体能够很轻松的理解人类的表达和要求的同时还能将自处理的信息很好的表达给人类 [3] [4]。此外,以自然语言进行交流的基于LLM的智能体可以赢得更多的信任,并更有效地与人类协作。与此同时,高质量自然语言生成 [5]、多轮对话能力 [6]使得目前以GPT,LAMA等为主的大模型在语言交互层面有了卓越的表现和可用性。不过对与人类模糊以及隐含的语言表达,目前的智能体自然语言交互还未能对其进行充分的语义理解和分析 [7],此外研究发现以ChatGPT为主的模型更擅长理解非拉丁文字语言,而不是生成它们 [8]。
    2. 知识(Knowledge)。存储和访问领域特定或通用的知识库,这些信息为智能体提供预料来训练和学习,从而被用于回答问题、提供信息 [9]。基于语言模型拥有众多参数的特性,语言模型几乎能够学习所有知识并编码进其参数中,同时还能提供准确的查询 [10] [11],这些知识主要被划分为:语言知识。它包括形态学、句法、语义学。智能体可以通过在包含多种语言的数据集上进行训练来获得多语言知识,无需额外的翻译模型 [12];常识。即人们日常生活中的生活常识 [13]。此类信息通常不会在准备的训练知识上下文中明确提及。因此,缺乏相应常识知识的模型可能无法理解或误解其原意 [14];专业知识。如编程、数学、医学等专业领域的知识 [15]。

然而,就技术层面而言,仍然有两个主要且严重的问题尚未得到很好的解决:

  1. 知识权威性问题。模型在训练期间获得的知
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bunny Chen

来啊来让我发家致富,一毛钱可!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值