EmBARDiment：XR 产品的具身 AI 智体

硅谷秋水

于 2024-08-21 00:12:52 发布

阅读量266

点赞数 7

分类专栏：智能体大模型计算机视觉文章标签： xr 语言模型人工智能深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141309856

版权

大模型同时被 3 个专栏收录

411 篇文章 4 订阅

订阅专栏

智能体

119 篇文章 0 订阅

订阅专栏

计算机视觉

89 篇文章 0 订阅

订阅专栏

24年8月来自谷歌的论文“EmBARDiment: an Embodied AI Agent for Productivity in XR”。

运行由大语言模型 (LLM) 驱动的聊天机器人 XR 设备具有巨大的潜力，可以作为始终在线的智体，实现更好的产品场景。但是，基于屏幕的聊天机器人不会利用 XR 中可用的全套自然输入，包括面向内的传感器数据；而是它过度依赖显式语音或文本提示，有时还会与作为查询的一部分丢弃多模态数据进行配对。提出一种解决方案，利用注意框架，从 XR 环境中的用户操作、眼神注视和上下文记忆中隐式地获取上下文。这最大限度地减少了对设计的显式提示需求，促进扎实而直观的交互，从而为聊天机器人收集用户见解。

大语言模型 (LLM) 的快速发展彻底改变了人机交互，ChatGPT [41]、Claude [5] 和 BARD [20] 等聊天机器人成为与这些强大的 AI 系统互动的主要界面。然而，随着 LLM 的不断发展，它们的潜力不仅限于基于文本的交互，尤其是在扩展现实 (XR) 环境领域。

将 LLM 作为具身的、始终在线的沉浸式智体，集成到增强现实和虚拟现实耳机中，对于改变用户体验和实现无缝的情境感知帮助具有巨大的前景。尽管 LLM 越来越复杂，但当前的聊天机器人实现严重依赖明确的语音或文本提示，通常需要多次迭代才能完善所需的语气和上下文以获得最佳输出，从而导致交互时间过长。

在 XR 环境中，这种方法无法充分利用可用的各种自然输入，因为当代 XR 耳机（如 Meta Quest Pro [36] 和 Apple Vision Pro [6]）配备了能够捕获丰富用户数据的内部传感器。尽管 LLM 架构的最新进展（如 Gemini 1.5 [21]）旨在支持附加到提示多达 10M 个上下文tokens，但当前 XR 设备中的显式输入模式仍然有限。例如，语音输入估计通用吞吐量仅为每秒 39 位 [14]，而 XR 技术中的文本输入仍然繁琐且效率低下 [26]。
如图所示：EmBARDiment 引入一个注意框架，该框架从 XR 环境中的用户视线和上下文记忆中隐式地获取上下文。它使用与显式口头输入捆绑在一起的隐式信息，引出用户和 AI 智体之间落地的交流。

请添加图片描述

该方法对于 XR 环境特别有用，因为它们具有大视场 (FoV) 显示屏，可以支持多个窗口以执行生产力任务 [7, 42]。虽然可以将这些窗口上的所有可用数据作为上下文提供给 LLM，但这可能会导致数据量过大，从而降低系统响应速度、增加计算负担，并且难以维持细致入微的对话，因为并非所有信息都相关 [31, 29]。因此，将基于显式提示的聊天机器人直接转换为 XR 中的实体智体可能不是最优的。

为了应对这些挑战，提出 EmBARDiment，利用隐式注意框架与上下文记忆相结合，在 XR 环境中启用实体 LLM 智体，如图所示。该解决方案旨在从 XR 环境中的用户动作、眼神注视和视觉显著性中，隐式地得出上下文，从而最大限度地减少对设计显式提示的依赖。因此，要促进高度针对性和直观的交互，根据用户现在和过去的行为和关注点，智体能够推断用户的意图和需求。例如，如果用户正在阅读文档，智体可以访问用户已阅读的内容并将其用作上下文，与查询提示一起生成相关响应。与之前主要关注一次性视觉查询的 XR 凝视研究 [47, 37] 不同，该方法将凝视显着性上下文与 LLM 驱动的持续交互相结合，提供两全其美的解决方案。假设这种方法将增强用户与具身智体的交互，因为它建立了共享的“心智理论”，并提供高度上下文的帮助，有可能将交互简化到自然语言命令的级别，例如“把那个放在那里” [8]。

请添加图片描述

EmBARDiment 是框架的一个实际示例，实现为一个 XR 应用程序，无缝集成了语音转文本、文本转语音、凝视驱动的显著性和 LLM，从而在多窗口 XR 环境中实现语音交互 AI 智体。该应用程序是使用 Unity [1] 开发的，并部署在 Oculus Quest Pro [36] 上。

代码在 GitHub 下载：https://github.com/anonymous-user/anonymous-repo。

EmBARDiment 具有一个具身 AI 智体，可作为用户交互的主要锚点和界面。AI 智体具身为一个可爱的avatar，旨在通过结合口头和非口头提示来提供引人入胜且直观的体验。当 AI 智体收到来自 ChatGPT-4 API 的响应时，它会使用 Google Cloud 文本转语音 API 生成语音和相应的视素（visemes），实现唇同步和面部动画。这种集成为用户创造了更逼真、更身临其境的体验，模仿了类似人类的交互。AI 智体的具身在建立沉浸感和促进自然交流方面起着至关重要的作用。利用用户的注视和显着性历史，AI 智体可以在不同的窗口中移动，以视觉方式展示对用户当前焦点的共享理解水平。

EmBARDiment 利用多种输入和输出模式来实现用户与具身 AI 智体之间的无缝通信 [43, 19]。用户可以通过按下按键然后说话（键盘上的“V”）来发起口头请求。用户的语音通过 Google Speech-to-Text API [22] 转换为文本，该 API 将音频数据发送到 Google 云并返回转录的文本，然后该文本会动态显示在 AI 智体下方的 UI 面板中，为用户提供视觉反馈。

从 Google Speech-to-Text API 收到最终转录文本后，任何 LLM API 都会对其进行处理以进行自然语言理解和生成。系统会维护聊天记录以保留交互上下文，从而使 AI 智体能够生成相关且连贯的响应。然后，响应会显示在 AI 智体下方的 UI 面板上，再次使用 Google Cloud Text-to-Speech API [23]，但现在是将文本转换为语音。这个过程还会产生音素及其对应的视素，用于使人工智能智体的面部表情和唇动与口语同步 [51]。

EmBARDiment 在现有的开源多窗口 XR 环境 WindowMirror 基础上构建并进行了扩展，WindowMirror 可以从 PC 捕获现有窗并在 XR 环境内呈现它们 [9]。EmBARDiment 使用 Google Vision API [24] 处理每个窗框执行光学字符识别 (OCR)，提取文本内容及其在框内的位置。将文本的空间位置与来自 XR 耳机的眼动追踪数据相关联，EmBARDiment 可以确定用户当前正在关注哪些文本。该系统会维护用户显著性历史的缓冲区，从而保留文本的顺序以确保连贯性。

为了区分扫视和注视，EmBARDiment 仅记录用户至少注视 120 毫秒的文本，这被认为是阅读过程中有效处理视觉信息所需的最短时间 [46]。系统中的上下文记忆最大容量为 250 个单词，用于实现基本情景记忆，而不是长期记忆。智体上下文记忆的工作原理是，当用户关注新内容时，简单地丢弃旧信息。当用户发出口头请求时，上下文记忆会与用户的查询相结合，并发送到 ChatGPT-4 完成 API 进行处理。这种方法允许 AI 智体生成基于用户当前焦点和显着性历史的响应。每次请求后，上下文记忆缓冲区都会被清除。

如图所示实验条件。（A）基线：未选择上下文信息。（B）完整上下文：选择所有上下文信息。（C）视线：根据视线注视点选择信息。

请添加图片描述