目录
第 7 章
感知
感知是人类和智能体获取信息、解读周围环境并最终做出明智决策的基础门户。对人类而言,感知是无缝且直观的,能毫不费力地将感官输入转化为有意义的解读。然而,在人工智能领域,感知系统经过精心设计,旨在模拟——并在某些方面超越——人类的感官处理能力,这深刻影响了智能体在复杂环境中的交互、学习和适应能力。
在本章中,我们首先探讨人类与人工智能智能体在感知的性质和效率上的关键差异。接下来,我们根据感知输入的不同形式和表示对智能体感知进行分类。然后,我们讨论智能体感知系统当前面临的挑战,并重点介绍在建模和系统架构层面有前景的改进方向。最后,我们阐述如何根据不同的智能体场景有效定制感知模块,为优化其使用提供实践指导,并提出未来研究的关键领域。
7.1 人类感知与人工智能感知
感知是智能的基础,是人类和人工智能智能体与世界互动的接口。尽管人类通常根据五种经典感官——视觉、听觉、味觉、嗅觉和触觉——来思考感知,但现代神经科学识别出一个更丰富的感官景象。保守地说,人类被描述为拥有大约 10 种感官;更全面的观点列出了大约 21 种,而一些研究人员则提出多达 33 种不同的感官模态 [546, 547]。除了熟悉的感官之外,人类还拥有复杂的内部感知,例如前庭觉(平衡感)、本体感觉(身体位置意识)、温度觉(温度)和痛觉(疼痛),从而能够与环境进行细致入微的互动。
人类的感官被精细地调整以适应特定的物理信号:例如,人类视觉检测波长在约 380 − 780 n m 380{-}780\mathrm{nm} 380−780nm 之间的电磁波,而听觉则感知频率从约 20 H z \mathrm{Hz} Hz 到 20 k H z 20\mathrm{kHz} 20kHz 的声音 [548]。这些感官模态使人类能够毫不费力地参与复杂的任务,如语言交流、物体识别、社交互动和空间导航。此外,人类自然地感知随时间发生的连续变化,无缝地整合运动感知和时间意识,这些能力对于协调运动和决策至关重要 [549]。自然界的动物展现出更加多样化的感知能力。例如,鸟类和某些海洋生物利用磁感应来导航地球磁场,而鲨鱼和电鳗则利用电感受来感知其他生物发出的电信号——这些是人类不具备的能力 [550]。
与生物感知相比,人工智能智能体依赖于工程传感器,这些传感器旨在将环境刺激转化为算法可以解释的数字信号。人工智能智能体常见的传感器模态包括视觉传感器(摄像头)、听觉传感器(麦克风)、触觉传感器和惯性测量单元。人工智能智能体通常擅长处理视觉、听觉和文本数据,这得益于深度学习和信号处理的进步。然而,某些人类感官能力——特别是味觉和嗅觉——对于机器来说仍然难以准确模拟。例如,研究人员 [551] 开发的先进仿生嗅觉芯片目前能区分大约 24 种不同的气味,这一能力远不如能辨别超过 4000 种不同气味的人类嗅觉系统敏感 [552]。
图 7.1:感知系统的说明性分类法。
另一个关键区别在于感知处理效率。人类感知受到生物约束的限制,例如神经传导速度,通常在毫秒级别。相反,人工智能系统可以在微秒甚至纳秒级别处理感官输入,主要受计算硬件性能而非生物限制的约束。尽管如此,人类感知能够自然地将来自多个感官模态的信息——称为多模态感知——毫不费力地整合成连贯的体验。对于人工智能智能体来说,实现这种多模态整合需要精心设计的融合算法,明确地结合来自不同传感器的输入以构建统一的环境表示 [553]。
人类和人工智能智能体处理时间和空间信息的方式也存在进一步差异。人类感知本质上是连续和流畅的,平滑地体验时间的流逝和空间运动,无需显式的时间离散化。相比之下,人工智能智能体通常依赖于传感器数据的离散采样,使用时间戳或顺序处理来模拟连续性。人类的空间意识毫不费力地融合了视觉、听觉和前庭信息,以实现直观的空间定位。对于人工智能智能体来说,空间感知通常涉及算法过程,例如同时定位与建图(SLAM)或从视觉数据序列进行 3D 场景重建 [554]。
从外部环境传递到人类感官器官的物理或化学刺激将被感觉系统(如眼睛、耳朵、皮肤等)接收并转化为神经信号,最终由大脑处理产生对环境的感知。同样,为了让智能体能够与环境连接,获取这些感知内容也至关重要。目前,主要使用各种传感器将电信号转换为可处理的数字信号。在本节中,我们根据输入涉及的模态数量以及是否执行统一的融合建模操作,区分单模态模型、跨模态模型和多模态模型。单模态模型专门处理和分析来自单一模态或输入类型(如文本、图像或音频)的数据,而跨模态模型通过专门的映射机制在不同模态之间建立关系并实现转换,多模态模型则整体地同时整合和处理多个模态,以利用互补信息进行全面理解和决策。
图 7.2:人类与智能体常见感知类型的比较。
7.2 感知表示的类型
7.2.1 单模态模型
当人类处于一个环境中时,可以聆听优美的音乐,观看日出日落,或在舞台上体验精彩的视听盛宴。这些感知内容可以是单一的图像或音频,也可以是多种感知内容的融合。关于智能体的感知输入类型,我们将从单模态和多模态输入开始,介绍它们的实现方式和差异。
文本 作为一种重要的交流手段,文本承载着丰富的信息、思想、情感和文化。人类通过视觉、听觉和触觉间接获取文本内容,这是人类与环境互动最重要的方式之一。但对于智能体来说,文本可以直接作为连接环境的桥梁,将文本作为直接输入并输出响应内容。除了字面意义,文本还包含丰富的语义信息和情感色彩。早期,词袋模型 [555] 被用来统计文本内容,并广泛应用于文本分类场景,但无法获取语义表达。BERT [485] 使用双向 Transformer 架构进行语言建模,并通过大规模无监督预训练捕捉文本的深层语义信息。[486, 487] 进一步优化了 BERT 的训练效率。以 GPT3.5 [556] 为代表的自回归模型开启了大语言模型的序幕,并进一步统一了文本理解和文本生成任务,而 LoRA [109] 等技术则大大降低了大语言模型的应用成本,提高了智能体对复杂现实世界场景任务的感知能力。
图像 图像是人类与环境互动的另一种重要方式,它固有地编码了空间信息,包括物体的形态特征、空间定位、维度关系和运动属性等关键属性。计算机视觉架构的演进在处理这些空间属性方面取得了显著进展。开创性的 ResNet 架构 [488] 为深度视觉特征提取奠定了基础原则,而随后的 YOLO 系列 [557, 558] 则展示了以卓越效率同时确定物体定位和分类的能力。随着 DETR [489] 的引入,范式发生了转变,它通过全局上下文推理实现并行预测,彻底改变了物体检测,有效消除了与非极大值抑制和锚点生成相关的传统计算开销。最近,DINO 1.5 [490] 通过架构创新、增强的骨干网络和扩展的训练范式,将这些能力扩展到开放集场景,显著提高了开放集检测性能,并提升了人工智能智能体在无约束环境中的感知泛化能力。
视频 视频是连续图像帧的一种表达方式,它包含时间维度,并通过连续的图像帧显示随时间变化的动态信息。智能体以视频为输入,通过连续帧获取更丰富的感知内容。ViViT [491] 从视频中提取时空标记,有效分解了输入的空间和时间维度。VideoMAE [492] 通过自监督预训练学习通用的视频特征表示,并在域外数据上具有强大的泛化能力。它为智能体在新的场景中获取感知能力奠定了坚实的基础。
音频 除了文本和视觉,人类与环境互动的另一种重要方式是通过音频。音频不仅包含直接的文本内容,还包含说话者的语调和情感 [559]。Wav2Vec2 [495] 通过量化联合学习的潜在表示来定义对比任务,用 1/100 的标记数据量实现了语音识别的有效性。FastSpeech 2 [493] 直接引入语音变化信息(音高、能量、时长等),并使用真实目标训练模型,以实现更逼真的文本到语音转换。Seamless [494] 通过流式处理和使用高效的单调多头注意力机制生成低延迟的目标翻译,同时保持人类语音风格,实现从多种源语言到目标语言的同步语音到语音/文本翻译。基于这些手段,智能体可以实现听和说的能力。
其他 目前,关于智能体的研究大多集中在上述常见的感官输入类型上。然而,正如人类拥有超过 20 种感知类型一样,智能体也通过其他传感器在实现相应感知能力方面取得了进展。香港科技大学开发的仿生嗅觉芯片 [551] 在纳米多孔基底上集成了纳米管传感器阵列,每个芯片上有多达 10,000 个可独立寻址的气体传感器,这与人类和其他动物嗅觉系统的配置相似,能够准确区分混合气体和 24 种不同的气味。在味觉方面,同济大学 [560] 结合荧光和磷光信号开发了一种具有多模式光响应的智能味觉传感器,可以有效识别鲜味、酸味和苦味。为了实现类似人类的感知和抓取能力,纽约大学 [561] 推出了一种低成本的磁性触觉传感器 AnySkin,可以快速组装和更换。即使在疼痛感知方面,中国科学院也利用液态金属颗粒薄膜在“受伤”(机械刮擦)时独特的电学特性来模仿“伤口”的感知和定位。其他一些工作,包括 HuggingGPT [152]、LLaVA-Plus [500] 和 ViperGPT [498],在框架内整合了这些单模态感知能力,根据任务需求选择和应用它们,以实现完成更复杂任务的目标。
7.2.2 跨模态模型
文本-图像 整合文本和图像的跨模态模型近年来取得了显著进展,改善了两种模态之间的对齐、检索和生成。这些模型可以根据其主要目标进行分类,包括跨模态对齐与检索、文本到图像生成以及图像到文本生成。
跨模态研究的主要焦点之一是文本和图像的对齐与检索。OpenAI 于 2021 年推出的 CLIP [51] 采用对比学习来对齐文本和视觉表示,实现了零样本跨模态检索和分类。类似地,同年由 Google 开发的 ALIGN [501] 利用大规模嘈杂的网络数据来优化文本-图像嵌入对齐。2022 年,CyCLIP [562] 引入了循环一致性损失,以进一步增强跨模态对齐的鲁棒性,提高了检索任务的可靠性。
另一个取得重大进展的主要领域涉及文本到图像生成,其模型旨在根据文本描述合成高质量图像。OpenAI 的 DALL·E 系列 [563, 564, 502](从 2021 年到 2023 年)在此领域做出了重大贡献,DALL·E 3 提供了对生成图像的细粒度语义控制。Stability AI 于 2022 年推出的 Stable Diffusion [565] 采用基于扩散的生成方法,支持开放域文本到图像合成和跨模态编辑。
第三个重要的研究方向是图像到文本生成,其模型旨在根据图像输入生成高质量的文本描述。典型的代表性工作是 Salesforce 在 2022 年至 2023 年间推出的 BLIP [566] 和 BLIP-2 [567] 模型,它们利用轻量级桥接模块来增强视觉-语言模型的集成,支持图像字幕生成和问答等任务。
文本-视频 这里的关键研究涉及视频文本对齐、生成和检索。VideoCLIP [504] 采用视频编码器——通常基于时间卷积或 Transformer 结构——从视频帧中提取序列特征。这些特征随后与语言编码器生成的文本表示对齐,促进了鲁棒的视频-文本关联。在文本到视频生成领域,Meta 的 Make-A-Video 模型 [506] 使用基于扩散的技术扩展了时空维度,允许从文本描述中合成高质量视频。此外,Google 的 Phenaki [505] 解决了生成长时序连贯视频序列的挑战,通过跨模态学习展示了视频合成的显著进步。DeepMind 的 Frozen in Time [568] 采用对比学习进行视频-文本匹配,从而实现了高效的跨模态检索。这种方法增强了根据文本查询搜索和检索相关视频片段的能力,进一步改善了视觉和语言理解的整合。
文本-音频 连接文本和音频的跨模态模型在模态表示、生成和转换等相关任务中取得了显著改进,并增强了单一模态下的感知能力。
2021 年推出的 AudioCLIP [509] 将 CLIP 框架扩展到音频领域,实现了跨音频、文本和图像的三模态检索。通过将音频作为附加模态,AudioCLIP 利用多任务学习将图像、文本和音频表示统一到一个共享的嵌入空间中。这一进步增强了跨模态检索和交互的能力。类似地,VATT [508] 采用统一的基于 Transformer 的架构,通过独立的编码分支处理视频、音频和文本。这些分支随后融合到一个共享的多模态空间中,促进了跨模态检索和多任务学习等任务。这种设计允许在不同的多模态场景中具有更大的适应性。
对于文本到音频生成,Meta 在 2023 年推出了 AudioGen [569],它能够直接从文本描述中合成音频,例如环境声音和音乐片段。该模型体现了人工智能在基于语言输入生成高保真音频方面日益增长的能力,扩展了在媒体、娱乐和无障碍性方面的应用。
此外,在语音到文本和文本到语音转换领域,微软开发了 SpeechT5 [570]。该模型统一了语音和文本生成,在单一框架内支持语音合成和识别。通过利用共享架构实现这两种功能,SpeechT5 促进了语音和文本处理的无缝集成,从而增强了在自动转录、语音助手和无障碍工具中的应用。
其他 在其他一些场景和领域,跨模态建模也发挥着重要作用。
CLIP-Forge [510] 提出了一种从文本描述生成 3D 形状的新方法。通过利用对比语言-图像预训练(CLIP)的能力,该方法能够根据自然语言输入合成高质量的 3D 对象,弥合了文本和 3D 几何之间的差距。Point-E [511] 通过从文本描述生成 3D 点云扩展了这一概念。与传统的 3D 重建技术不同,Point-E 专注于点云表示,促进了高效且可扩展的 3D 内容创建,同时保持了对文本提示的高保真度。
在医学成像领域,MoCoCLIP [571] 引入了一种增强零样本学习能力的方法。通过将 CLIP 与动量对比(MoCo)相结合,该方法提高了深度学习模型在医学成像应用中的泛化能力,解决了与有限标注数据和领域适应相关的挑战。
7.2.3 多模态模型
上述跨模态模型主要通过对比学习等方法实现模态间的对齐和映射,以达到模态间的信息互补和转换。而多模态模型的工作则更侧重于如何融合多种数据(如视觉、文本、音频等)的特征,以提升整体模型的性能。
视觉语言模型 视觉语言模型(Vision Language Model, VLM)广义上定义为可以从图像(或视频)和文本中学习的多模态模型。人类生活在一个充满多模态信息的世界中。视觉信息(如图像和视频)和语言信息(如文本)通常需要结合起来才能充分表达意义。对于智能体也是如此。LLaVA [513] 首次尝试使用 gpt-4 生成多模态语言图像指令数据集。通过端到端训练,获得了一个大型多模态模型,并展示了出色的多模态聊天能力。LLaVA-NeXT [513] 使用动态高分辨率和混合数据,即使在纯英文模态数据中也显示出惊人的零样本能力,并且计算/训练数据成本比其他方法小 100-1000 倍。Emu2 [516] 改变了传统使用图像分词器将图像转换为离散标记的方式,直接使用图像编码器将图像转换为连续嵌入并提供给 Transformer,增强了多模态上下文学习能力。MiniGPT-v2 [512] 在训练期间为各种任务使用唯一标识符。这些标识符帮助模型更有效地辨别任务指令,提高了其对每个任务的学习效率。Qwen2-VL [515]、DeepSeek-VL2 [572] 在视觉组件上使用动态编码策略,旨在处理不同分辨率的图像并生成更高效、更准确的视觉表示。同时,DeepSeek-VL2 [572] 还使用了带有 多头潜在注意力机制的 MoE 模型,将键值缓存压缩成潜在向量以实现高效推理。
以往的工作主要使用图像融合文本进行训练。Video-ChatGPT [573] 将输入扩展到视频,并直接使用视频自适应视觉编码器结合大语言模型进行训练,以捕捉视频数据中的时间动态和帧间一致性关系,从而能够以连贯的方式就视频内容进行开放式对话。为了解决图像和视频缺乏统一分词的问题,Video-LLaVA [574] 将图像和视频编码的视觉表示统一到语言特征空间中,使两者相互促进。同样,Chat-UniVi [575] 采用一组动态视觉标记来整合图像和视频,同时利用多尺度表示使模型能够掌握高层语义概念和低层视觉细节。Youku-mPLUG [576] 在特定场景下进行了深入研究。基于优酷视频共享平台中的高质量中文视频-文本对,增强了对整体和细节视觉语义的理解以及场景文本识别能力。与之前需要训练的方法不同,SlowFast-LLaVA [577] 通过双流 SlowFast 设计,无需对视频数据进行任何额外的微调,就能有效捕捉视频中的详细空间语义和长期时间上下文,达到了与微调方法相同甚至更好的结果。
随着大模型参数逐渐减小和端侧算力的提升,高性能端侧模型势头正劲。手机、PC 等智能终端设备对图像视觉处理有强烈需求,这对 AI 模型在端侧部署提出了更高的多模态识别效果和推理性能要求。TinyGPT-V [517] 基于 Phi-2 [578] 小骨干结合 BLIP-2 [567] 构建,推理仅需 8G 显存或 CPU,解决了 LLaVA [513] 和 MiniGPT-4 [579] 的计算效率问题。MiniCPM-V [519] 主要为长难图像提供强大的 OCR 能力,且幻觉率低,提供可靠的感知输出。Megrez-3B-Omni [580] 通过软硬件协同优化,保证所有结构参数与主流硬件高度兼容,其推理速度比同精度模型快高达 300 % 300\% 300%,提高了对不同端侧硬件的适应性。
类似地,有更多与 GUI 相关的工作专注于手机和 PC 上的自动任务执行。OmniParser [520] 使用流行的网页和图标描述数据集进行微调,显著增强了截图中图标的检测和功能语义表达能力。GUICourse [581] 和 OS-ATLAS [582] 也构建了一个跨平台 GUI 接地语料库,这在 GUI 截图理解方面带来了显著的性能提升,并丰富了 GUI 组件的交互知识。
视觉语言动作模型 视觉-语言-动作(Vision-Language-Action, VLA)模型,以视觉和语言为输入,生成机器人动作为输出,代表了具身智能领域的一个重要研究方向。VLA 模型中视觉和语言编码器的选择经历了多样化的发展,从早期的 CNN 发展到 Transformer 架构,并进一步整合了 3D 视觉和大语言模型。早期模型如 CLIPort [521] 使用 ResNet [488] 处理视觉输入,并结合语言嵌入生成动作,为多模态融合奠定了基础。RT-1 [522] 引入了 Transformer 架构,采用 EfficientNet 作为视觉编码器,USE 作为语言编码器,并通过 FiLM 机制融合视觉和语言信息,显著增强了模型的泛化能力。VIMA [523] 进一步采用了多模态提示,结合 ViT 视觉编码器和 T5 语言模型,以支持更复杂的任务。PerAct [524] 创新地使用 3D 点云作为视觉输入,并通过 Perceiver IO 处理多视图信息,为机器人操作提供了更丰富的空间感知。Diffusion Policy [525] 结合了 ResNet 视觉编码器和 Transformer 语言模型,通过扩散模型生成动作,以提高动作生成的多样性和准确性。SayCan [583] 将 PaLM 语言模型与视觉输入相结合,使用 CLIP 视觉编码器进行任务分解。PaLM-E [526] 结合了 ViT 视觉编码器和 PaLM 语言模型,通过文本规划指导低层动作执行。MultiPLY [527] 进一步将 3D 信息整合到大语言模型中,结合 EVA 视觉编码器和 LLaMA 语言模型,为复杂任务提供更全面的规划能力。
音频语言模型 音频语言模型(Audio Language Model, ALM)使用音频和文本构建多模态模型。Speechgpt [533] 构建了一个大规模跨模态语音指令数据集 SpeechInstruct,并训练了离散语音表示,实现了超预期的跨模态语音对话能力。与之前采样离散音频标记来表示输入和输出音频不同,LauraGPT [584] 提出了一种新颖的数据表示方法,结合了音频的连续和离散特征,并通过监督式多任务学习在广泛的音频任务上展示了出色的性能。[529, 585, 531] 将音频数据转换为嵌入表示,然后进行指令微调,从而可以通过自然语言指令在各种语音处理任务上实现出色性能。为了降低微调训练的成本,Audio Flamingo [528] 基于音频语言模型,通过上下文学习和检索快速增强了适应未见任务的能力。UniAudio 1.5 [530] 使用文本词汇表中的单词或子词作为音频标记,通过少量样本学习这些音频表示,并在无需微调的情况下实现跨模态输出。为了使输出更逼真、更符合人类期望,Qwen2-Audio [54] 引入了 DPO 训练方法以实现人类偏好对齐。
音频视觉语言模型 音频视觉语言模型(Audio Vision Language Model, AVLM)利用音频、视觉和文本来统一多模态模型。之前,我们介绍了一些使用两种模态信息构建多模态模型的工作。在追求通用人工智能(AGI)的过程中,实现这一目标的障碍在于任务和模态的多样性和异构性。一个合适的方法是让更多的模态能力在一个统一的框架内得到支持。一些闭源工作 [586, 587] 已经在文本、视觉和音频等模态上实现了出色的能力。ImageBind [588] 实现了跨六种不同模式(图像、文本、音频、深度、热成像和 IMU 数据)的联合嵌入。Panda-GPT [535] 结合了 ImageBind 的多模态编码器和 Vicuna [589],在图像和文本之外展示了零样本跨模态性能。类似的工作包括 [539, 539, 536],它们通过视觉、音频和文本的编码信息实现对齐和训练。多模态模型通常需要更多资源进行训练,UniVAL [538] 基于任务平衡和多模态课程学习训练了一个仅有约 0.25B 参数的模型,并使用权重插值来合并多模态模型,在分布外情况下保持了泛化能力。NExT-GPT [542] 将大语言模型与多模态适配器和不同的扩散解码器连接起来,并且只训练了某些投影层的少量参数(1%)。
其他工作 [543, 590, 544, 545] 实现了任意模态之间的输入-输出转换。Unified-IO 2 [543] 是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。它将不同模态的输入分词到一个共享的语义空间,并使用编码器-解码器模型进行处理。AnyGPT [590] 构建了第一个大规模任意到任意的多模态指令数据集,使用离散表示统一处理各种模态输入。Modaverse [545] 直接将大语言模型的输出与生成模型的输入对齐,解决了先前工作严重依赖文本和非文本特征潜在空间对齐的问题,避免了与潜在特征对齐相关的复杂性。CoDi-2 [544] 在基于主题的图像生成、视觉转换和音频编辑等任务中优于早期的领域特定模型。
其他 人类对 2D 世界的探索多于 3D 世界,但 3D 能更准确地描述物体的形状和纹理信息,并提供更丰富的感知信息。PointLLM [540] 使用点云编码器表达几何和外观特征,并整合语言特征进行复杂点云-文本指令的两阶段训练,实现了出色的 3D 对象描述和分类能力。由于 3D 包含比 2D 更丰富的信息,它也带来了更大的训练成本。[541, 591] 降低了这里的训练成本,MiniGPT-3D [541] 使用来自 2D-大语言模型的 2D 先验知识将 3D 点云与大语言模型对齐。模态对齐以级联方式进行,并混合查询专家模块以高效自适应地聚合特征,通过少量参数更新实现了高效训练。LLaVA-3D [591] 将 2D CLIP 补丁特征与其在 3D 空间中的对应位置连接起来,将 3D 补丁整合到 2D 大语言模型中,并使用联合的 2D 和 3D 视觉语言指令调整,实现了 3.5 倍的收敛速度加速。
为了使智能体能够准确感知和操纵未知物体,Meta [592] 开发了 NeuralFeels 技术,该技术结合视觉和触觉来连续建模未知物体的 3D 形态,更准确地估计手持操作中物体的姿态和形状,并将未知物体操作的准确性提高了 94 % 94\% 94%。
7.3 优化感知系统
感知错误,包括不准确、误解和“幻觉”(生成虚假信息),对基于大语言模型的智能体的可靠性和有效性构成了重大挑战。因此,优化感知需要在模型、系统和外部层面上使用各种策略来最小化这些错误。
7.3.1 模型级增强
微调。在领域特定数据上微调预训练的大语言模型,能显著提高其准确感知和解释相关信息的能力。例如,在特定地标上微调 LLaVA 等模型已被证明可以提高其识别准确性,特别是在城市导航任务中 [513, 593]。此外,诸如低秩适应(LoRA)之类的技术可以实现更高效的微调,避免模型复杂性的大幅增加,同时仍能提高性能 [109, 594]。一些结合传统视觉的大语言模型工作也被广泛使用。在 Llama-Adapter [596] 架构的基础上集成 YOLOS [595],显著提高了检测和定位能力。
提示工程。设计有效的提示对于确保大语言模型生成既准确又符合预期目标的输出至关重要。通过提供清晰的指令、上下文信息和特定的格式要求,提示工程可以最大限度地减少误解和幻觉 [597]。定义智能体角色的系统提示、提供过去交互上下文的历史提示以及确保输出一致性的定制提示已被证明能显著减少错误 [597]。
检索增强生成。通过检索机制用外部知识源补充大语言模型,有助于将其响应建立在事实信息的基础上,减少幻觉的可能性并提高感知信息的准确性 [334]。
7.3.2 系统级优化
预期-重新评估机制。在智能体面临信息不完整或模糊的场景中,预期-重新评估机制可以增强鲁棒性。例如,在导航任务中,智能体可以根据历史数据预期目标方向,并在新信息可用时重新评估其推断 [598]。
多智能体协作。在多智能体系统中,智能体之间结构化的通信与协作可以促进信息共享、错误纠正和共识建立,从而实现对环境更准确的集体感知 [599]。不同的通信拓扑结构,如全连接、中心化和分层结构,在效率和鲁棒性方面提供了不同的权衡 [600]。InsightSee [601] 通过包含描述、推理和决策的多智能体框架来提炼视觉信息,有效增强了视觉信息处理能力。类似地,HEV [602] 整合了多个智能体的全局视角信息,并通过协作感知赋予强化学习智能体全局推理能力,从而增强其决策能力。
智能体专业化。在多智能体系统中为个体智能体分配不同的角色和能力,可以在感知方面实现劳动分工,每个智能体专注于环境或任务的特定方面。这可以提高感知的整体准确性和效率 [603]。
7.3.3 外部反馈与控制
用于优化的损失智能体。利用大语言模型作为损失智能体,可以在训练期间动态调整损失函数权重 [604]。这使得能够基于复杂的、可能不可微的目标(包括人类反馈和来自专门模型的评估)来优化图像处理模型。这种方法实质上将优化目标外部化,允许大语言模型“感知”并适应复杂标准 [605]。
人在环路系统。结合人类反馈和监督有助于纠正错误,指导智能体的学习过程,并确保与人类价值观和期望保持一致 [43]。
内容与输出调解。在向用户呈现大语言模型输出之前,内容调解会过滤和优化这些输出。这有助于防止意外或有害行为,确保与用户期望和安全准则保持一致 [606]。
7.4 感知应用
智能体的操作效能主要受三个关键因素影响:模型架构维度、硬件基础设施规格和量化优化方法。模型参数的指数级增长——从 Bert-Base 的 1.1 亿到 GPT-3 的 1750 亿,最终到 Llama 3 的空前的 4050 亿——相应地将处理延迟从毫秒级提升到数百毫秒级。硬件性能差异尤为显著;使用 GPT-3 的经验证据表明,NVIDIA H100 的令牌处理吞吐量比 A100 提高了 50 % 50\% 50%,而 RTX 4090 的处理能力大约是其两倍。
当代智能体已渗透到不同领域,包括个人助理系统、游戏环境、机器人流程自动化(RPA)和多媒体内容生成,主要利用视觉感知作为其主要输入模态。在像 Minecraft 这样的程序生成环境中,STEVE [607] 通过视觉信息处理展示了显著的性能改进,实现了技术树进展速度加快 1.5 x 1.5\mathrm{x} 1.5x 和方块搜索效率提高 2.5 x 2.5\mathrm{x} 2.5x。Steve-Eye [608] 通过端到端多模态训练推进了这一范式,通过集成的视觉-文本输入处理解决了环境理解延迟问题。
在创意内容生成方面,AssistEditor [609] 展示了复杂的多智能体协作,通过风格驱动的内容理解促进了专业视频编辑。类似地,Audio-Agent [610] 实现了文本/视觉输入与音频输出之间的跨模态集成,实现了全面的音频处理能力 [611, 612, 613]。
移动和桌面平台在智能体应用方面取得了显著进展。ExACT [614] 在 VisualWebArena [615] 中建立了新的最先进基准,通过基于截图的探索性学习(结合了字幕和掩码集集成)实现了 33.7 % 33.7\% 33.7% 的成功率。SPA-Bench [616] 引入了一个全面的移动评估框架,真实地复制了现实世界的复杂性。M3A [617] 通过多模态输入处理,在 SPA-Bench 中展示了 64.0 % 64.0\% 64.0% 的卓越成功率。AgentStore [618] 通过增强的视觉和可访问性树处理,将 OSWorld PC 基准性能显著提高到 23.85 % 23.85\% 23.85%。
个人 AI 助手中的语音交互能力 [619, 586] 显著减少了交互摩擦,同时提高了操作效率。在语音交互中集成情感韵律已被证明可以增加用户参与度和留存率。
在具身智能应用中,触觉和力反馈机制已成为环境交互的关键模态,增强的感官保真度使得日益精确的操作能力成为可能 [620]。
7.5 总结与讨论
尽管越来越多的研究工作 [543, 590] 专注于构建统一的多模态模型以支持多种感知能力的输入和输出,但智能体感知作为自主系统的基石,在有效解释和整合多模态数据方面仍面临重大挑战。当前方法在表示学习、对齐和融合方面遇到持续存在的问题,这阻碍了鲁棒且可泛化的感知系统的发展。
主要问题之一在于所采用的表示方法,这些方法往往无法捕捉多模态数据的复杂细微之处。在需要对高维感官输入进行复杂抽象以保留关键语义信息的场景中,这一不足尤为明显。此外,表示的对齐带来了额外的困难。将异构数据类型整合到一个连贯的特征空间中不仅计算量大,而且容易出现不一致,这可能导致对模糊信号的误解。当试图融合这些不同的表示时,挑战更加严峻,因为合并来自不同来源的特征的过程常常导致次优整合和关键信息的潜在丢失。
未来的研究方向应优先考虑通过动态神经架构进行自适应表示学习,这些架构能够根据环境上下文和任务需求自动调整其结构。这可能涉及元学习的参数化或基于图的表示,明确地建模感知实体之间的关系。对于跨模态对齐,利用对比学习原理的自监督时空同步机制在无需详尽标记数据的情况下建立密集对应关系方面显示出潜力。将因果推理框架整合到对齐过程中 [621] 可以进一步增强对虚假相关性的鲁棒性。在表示融合方面,具有可学习门控功能的分层注意力机制值得更深入的探索,以实现互补模态特征的上下文感知整合。可微记忆网络方面的新兴技术可能为在扩展的时间范围内维护和更新融合表示提供新途径。