24年2月香港中文大学深圳分校、深圳大数据研究所和中山大学等在arXiv分享一篇关于大模型驱动下的多模态智体综述论文“Large Multimodal Agents: A Survey”。
大语言模型(LLM)为基于文本的AI智体提供卓越的动力,赋予其类似人类的决策和推理能力。与此同时,有一种新的研究趋势,专注于将这些LLM驱动的AI智体扩展到多模态领域。这种扩展使其能够解释和响应各种多模态用户查询,从而处理更复杂、更细微的任务。
该综述对LLM驱动的多模态智体进行了系统的总结,称为大型多模态智体(简称LMA)。首先介绍开发LMA所涉及的基本组成部分,将当前的研究分为四种不同的类型,然后回顾整合多个LMA的协作框架。该领域的关键挑战之一是评估方法,其阻碍了不同LMA之间的有效比较。最后,强调LMA的广泛应用,并提出未来可能的研究方向。
最新的资源列表位于 https://github.com/jun0wanan/awesome-large-multimodal-agents。
注:相比之前的几个基于LLM的智体综述,这篇的内容稍显单薄,主要聚焦于多模态,对于大语言模型智体的其他功能讨论较少。
智体是一个能够感知其环境并基于这些感知做出决策以实现特定目标的系统[56]。早期智体[35,50]虽然精通狭窄的领域,但往往缺乏适应性和泛化能力,这突出了与人类智能的显著差异。大语言模型(LLM)的最新进展已经开始弥合这一差距,LLM增强了其在命令解释、知识同化[36,78]以及模仿人类推理和学习[21,66]方面的能力。这些智体用LLM作为主要决策工具,并通过关键的类人功能(如记忆)得到进一步增强。这种增强使其能够处理各种自然语言处理任务,并使用语言与环境交互[40,38]。
然而,现实世界的场景通常涉及跨越文本的信息,包括多种模态,并非常强调视觉方面。因此,LLM驱动的智能智体的下一个进化步骤是获得处理和生成多模态信息,特别是视觉数据的能力。这种能力对于这些智能体进化成更强大的AI实体至关重要,反映出人类水平的智能。具备这种能力的智体称为大型多模态智体(LMA)。
通常,LMA比纯语言智体面临更复杂的挑战。以网络搜索为例,LMA首先需要输入用户需求,以便通过搜索栏查找相关信息。随后,它通过鼠标点击和滚动导航到网页,以浏览实时网页内容。最后,LMA需要处理多模态数据(例如,文本、视频和图像)并执行多步骤推理,包括从网络文章、视频报告和社交媒体更新中提取关键信息,并整合这些信息以响应用户的查询。LLM驱动的智体综述[60,42,49]很少有调查关注多模态方面。
下图是2022年11月至2024年2月期间发表的关于LLM驱动的多模态智体方面顶级人工智能会议的代表性研究论文,按模型名称进行分类,较早的发表日期与较早列出的名称相对应。
LMA的核心包括四个部分:感知、规划(推理)、行动和记忆。
感知是一个复杂的认知过程,使人类能够收集和解释环境信息。在LMA中,感知组件主要集中于处理来自不同环境的多模态信息。如表所示,不同任务中的LMA涉及各种模态。它们需要从这些不同的模态中提取最有利于完成任务的关键信息,从而促进任务的更有效规划和执行。
早期关于处理多模态信息的研究[57,43,70,9]通常依赖于简单的相关性模型或工具将图像或音频转换为文本描述。然而,这种转换方法往往会产生大量不相关和冗余的信息,特别是对于复杂的模态(例如视频)。除了输入长度约束外,LLM在有效地提取相关信息用于规划方面经常面临挑战。为了解决这个问题,最近的研究[71,47]引入了子任务工具(sub-task tools)的概念,该工具旨在处理复杂的数据类型。在类似于现实世界的环境中(即开放世界游戏),[51]提出了一种处理非文本模态信息的新方法。这种方法首先从环境中提取关键的视觉词汇,然后使用GPT模型将这些词汇进一步细化为一系列描述性句子。当LLM感知环境中的视觉模式时,使用它们来检索最相关的描述性句子,这有效地增强了对周围环境的理解。
规划器在LMA中起着核心作用,类似于人脑的功能。他们负责对当前任务进行深入推理,并制定相应的规划。与纯语言智体相比,LMA在更复杂的环境中运行,这使得制定合理的规划更具挑战性。下面从四个角度(模型、格式、检查和反思以及规划方法)展开:
模型:如上表所示,现有研究采用不同的模型作为规划器。其中,最受欢迎的是GPT-3.5或GPT-4[43,41,9,30,57,51]。然而,这些模型还没有公开,因此一些研究已经开始转向使用开源模型,如LLaMA[67]和LLaVA[23],后者可以直接处理多种模态的信息,增强其制定更优化规划的能力。
格式:表示规划者如何制定规划。如上表所示,有两种格式化方式。第一个是自然语言。例如,在[41]中,获得的规划内容是“我做的第一件事是使用OpenCV中开源的姿势控制模型来分析图像中男孩的姿势……”,其中制定的规划是使用“OpenCV的开源姿势控制模型”。第二个是程序形式的,如[43]中所述的“image_patch=ImagePatch(image)”,它调用ImagePatch函数来执行规划。也有混合形式,如[9]。
检查和反思:LMA在复杂的多模态环境中持续制定有意义的任务完成规划是一项挑战。该组件旨在增强稳健性和适应性。一些研究方法[51,52]将成功的经验存储在长期记忆中,包括多模态状态,指导规划。在规划过程中,首先检索相关经验,帮助规划器进行深思熟虑,减少不确定性。此外,[12]利用人类在不同状态下执行相同任务时制定的规划。当遇到类似的状态时,规划器可以参考这些“标准答案”进行思考,从而得出更合理的规划。此外,[71]采用了更复杂的规划方法,如蒙特卡洛法,扩大规划搜索的范围,从而找到最佳规划策略。
规划方法:现有规划策略可分为两类:动态规划和静态规划,如上表所示。前者[57,43,70,30,41]是指根据初始输入将目标分解为一系列子规划,类似于思维链(CoT)[80],即使在过程中出现错误,也不会重新制定规划;后者[9,25,51,71]意味着每个规划都是基于当前的环境信息或反馈制定的。如果在规划中检测到错误,它将恢复到原始状态进行重新规划[12]。
多模态智体系统中的动作组件负责执行规划器制定的规划和决策。它将这些规划转化为具体的行动,例如工具的使用、物理运动或与接口的交互,从而确保智体能够实现其目标并准确高效地与环境交互。
下面集中在两个方面:类型和方法。
表中的动作分为三类:工具使用(T)、具体动作(E)和虚拟动作(V),其中工具包括视觉基础模型(VFM)、API、Python等(如下表所示);具体动作由物理实体执行,如机器人[32,7]或虚拟角色[51,52,45,68];虚拟动作[8,76,44,54]包括网络任务(例如,点击链接、滚动和键盘使用)。就方法而言,如上表所示,主要有两种类型。第一种类型涉及使用提示向智体提供有关可执行操作的信息,例如当前可用的工具及其功能;第二类涉及收集行动数据,并利用这些信息自行指导开源大模型的微调过程,如LLaVA[23]。这些数据通常由高级模型生成,如GPT-4。与纯语言智体相比,与行动相关的信息和数据的复杂性需要更复杂的方法来优化学习策略。
早期研究表明,记忆机制在通用智体的运作中起着至关重要的作用。与人类相似,智体中的记忆可以分为长记忆和短记忆。在简单的环境中,短记忆足以让智体处理手头的任务。然而,在更复杂和现实的环境中,长记忆变得至关重要。在上面表1中,可以看到只有少数LMA包含长记忆。与纯语言智体不同,这些多模态智体需要能够跨各种模态存储信息的长记忆。在一些研究[71,47,69,7]中,所有模态都被转换为文本格式进行存储。然而,在[51]中,提出了一种多模态长记忆系统,专门用于存档以前的成功经验。具体来说,这些记忆被存储为K-V对,其中K是多模态状态,V是成功规划。在遇到新的多模态状态时,基于其编码的相似性来检索最相似的示例。
LMA被分成4类,如图所示:
第一类:作为规划器的闭源LLM,无长记忆。早期研究[11,43,57,41,9,25]使用提示来利用闭源大语言模型(例如GPT-3.5)作为推理和规划的规划器,如图(a)所示。根据具体的环境或任务要求,这些规划的执行可以通过下游工具包进行,也可以使用鼠标或机械臂等物理设备与环境直接交互。这种类型的LMA通常在更简单的设置中操作,承担传统任务,如图像编辑、视觉基础和视觉问答(VQA)。
第二类:作为规划器的微调LLM,无长记忆。如图2(b)所示,这类LMA涉及收集多模态指令跟随数据,或采用自我指令来微调开源大语言模型(如LLaMA)[67]或多模态模型(如LLC)[23,46]。这种增强不仅使模型能够充当中央“大脑”“用于推理和规划,也用于执行这些规划。第二类LMA所面临的环境和任务与第一类类似,通常涉及传统的视觉或多模态任务。与具备相对简单的动力学、封闭环境和基本任务为特征的典型场景相比,《我的世界》等开放世界游戏中的LMA需要执行精确的规划在动态环境中,处理高度复杂的任务,并进行终身学习以适应新的挑战。因此,在第一类型和第二类型LMA的基础上,第三类型和第四类型LMA集成了一个记忆组件,向人工智能领域的多面手发展,显示出巨大的前景。
第三类:具有间接长记忆的规划器。对于第三类型LMA[71,47],如图2(c)所示,LLM起到中央规划器的作用,并配备了长记忆。这些规划器调用相关工具来访问和检索长记忆,利用这些记忆来增强推理和规划。例如,[71]中开发的多模态智体框架是为视频处理等动态任务量身定制的。该框架由一个规划器、一个工具包和一个对空间和时间属性进行登记的任务相关记忆库组成。规划器使用专门的子任务工具来查询记忆库中与视频内容相关的时空属性,从而能够推断与任务相关的时间和空间数据。存储在工具包中的每个工具都是为特定类型的时空推理而设计的,并在框架中充当执行器。
第四类:具有局部长记忆的规划器。与第三类型不同,第四类型LMA[51,37,7,76]的特点是LLM直接与长记忆交互,绕过了访问长记忆的工具需求,如图2(d)所示。例如,[51]中提出的多模态智体证明了在《我的世界》的开放世界背景下完成200多项不同任务的熟练程度。在他们的多模态智体设计中,交互式规划器将多模态基础模型与LLM相结合,首先将环境多模态输入转换为文本。规划器进一步采用自检机制来预测和评估执行中的每一步,主动发现潜在缺陷,并结合环境反馈和自我解释,在没有额外信息的情况下迅速纠正和完善规划。此外,该多模态智体框架包括一种多模态记忆。成功的任务规划及其初始多模态状态被记忆下来,规划器从该数据库中检索新任务的类似状态,利用积累的经验更快、更高效地完成任务。
LMA的多智体协作框架如图所示:在两种多智体框架中,面对来自环境的任务或指令,完成依赖于多个智体的合作。每个智体都负责一项特定的职责,这可能涉及处理环境信息或处理决策和规划,从而分配由单个智体承担的完成任务的压力。框架(b)的独特之处在于其长记忆能力,而框架(a)没有。
如图(a)(b)所示,这些框架采用多个LMA协同工作。这两个框架之间的关键区别在于是否存在记忆组件,但它们的基本原则是一致的:多个LMA具有不同的角色和责任,使它们能够协调行动,共同实现共同目标。这种结构减轻了单智体的负担,从而提高了任务性能[12,37,17,29]。
例如,在表1中,在[37]的多模态智体框架中,引入感知智体来感知由大型多模态模型组成的多模态环境。被指定为巡逻员的智体负责与感知智体进行多次互动,对感知的环境数据进行实时检查和反馈,以确保当前规划和行动的准确性。当检测到执行失败或需要重新评估时,巡逻员会向规划器提供相关信息,促使其对子目标下的行动序列进行重组或更新。MemoDroid框架[17]包括几个关键智体,它们协同工作自动完成移动任务。Exploration Agent负责对目标应用程序界面进行离线分析,根据UI元素生成潜在子任务列表,然后将其存储在应用程序内存中。在联机执行阶段,Selection Agent根据用户命令和当前屏幕状态,确定要从探索集执行的特定子任务。Deduction Agent通过提示LLM进一步识别并完成所选子任务所需的基本动作序列。同时,调用智体在遇到与先前学习的任务类似的任务时,可以直接从记忆中调用和执行相应的子任务和动作序列。
LMA的多种应用如图所示:
语音编辑和生成
视觉理解
视觉生成和编辑
复杂视觉推理任务
游戏开发者
具身AI和机器人
自动驾驶
用户接口(UI)-助理
今后研究的方向:
关于框架:LMA 的未来框架可能会从两个不同的角度发展。 从单智体的角度来看,开发可以朝着创建更统一的系统的方向发展。 这需要规划者直接与多模态环境交互[71],利用一套全面的工具[30],并直接操纵记忆[51]; 从多智体的角度来看,促进多个多模态智体之间的有效协调以执行集体任务成为一个关键的研究轨迹。 这包括协作机制、通信协议和战略任务分配等基本方面。
关于评估:该领域非常需要系统、标准的评估框架。 理想的评估框架应涵盖一系列评估任务[58, 16],从简单到复杂,每项任务都对人类具有重要的相关性和实用性。 它应该包含清晰、明智的评估指标,经过精心设计,以全面但不重复的方式评估 LMA 的各种能力。 此外,用于评估的数据集应精心策划,以反映与现实世界场景更相似的情况。
应用方面:LMA 在现实世界中的潜在应用是巨大的,可以为以前传统模型面临的问题(例如网页浏览)提供解决方案。 此外,LMA 与人机交互领域的交叉[54, 44]代表了未来应用的重要方向之一。 它们处理和理解来自各种模式的信息的能力使它们能够执行更复杂和细致的任务,从而增强它们在现实场景中的实用性并改善人与机器之间的交互。