EmBARDiment:XR 产品的具身 AI 智体

119 篇文章 0 订阅
89 篇文章 0 订阅

24年8月来自谷歌的论文“EmBARDiment: an Embodied AI Agent for Productivity in XR”。

运行由大语言模型 (LLM) 驱动的聊天机器人 XR 设备具有巨大的潜力,可以作为始终在线的智体,实现更好的产品场景。但是,基于屏幕的聊天机器人不会利用 XR 中可用的全套自然输入,包括面向内的传感器数据;而是它过度依赖显式语音或文本提示,有时还会与作为查询的一部分丢弃多模态数据进行配对。提出一种解决方案,利用注意框架,从 XR 环境中的用户操作、眼神注视和上下文记忆中隐式地获取上下文。这最大限度地减少了对设计的显式提示需求,促进扎实而直观的交互,从而为聊天机器人收集用户见解。

大语言模型 (LLM) 的快速发展彻底改变了人机交互,ChatGPT [41]、Claude [5] 和 BARD [20] 等聊天机器人成为与这些强大的 AI 系统互动的主要界面。然而,随着 LLM 的不断发展,它们的潜力不仅限于基于文本的交互,尤其是在扩展现实 (XR) 环境领域。

将 LLM 作为具身的、始终在线的沉浸式智体,集成到增强现实和虚拟现实耳机中,对于改变用户体验和实现无缝的情境感知帮助具有巨大的前景。尽管 LLM 越来越复杂,但当前的聊天机器人实现严重依赖明确的语音或文本提示,通常需要多次迭代才能完善所需的语气和上下文以获得最佳输出,从而导致交互时间过长。

在 XR 环境中,这种方法无法充分利用可用的各种自然输入,因为当代 XR 耳机(如 Meta Quest Pro [36] 和 Apple Vision Pro [6])配备了能够捕获丰富用户数据的内部传感器。尽管 LLM 架构的最新进展(如 Gemini 1.5 [21])旨在支持附加到提示多达 10M 个上下文tokens,但当前 XR 设备中的显式输入模式仍然有限。例如,语音输入估计通用吞吐量仅为每秒 39 位 [14],而 XR 技术中的文本输入仍然繁琐且效率低下 [26]。
如图所示:EmBARDiment 引入一个注意框架,该框架从 XR 环境中的用户视线和上下文记忆中隐式地获取上下文。它使用与显式口头输入捆绑在一起的隐式信息,引出用户和 AI 智体之间落地的交流。

请添加图片描述

该方法对于 XR 环境特别有用,因为它们具有大视场 (FoV) 显示屏,可以支持多个窗口以执行生产力任务 [7, 42]。虽然可以将这些窗口上的所有可用数据作为上下文提供给 LLM,但这可能会导致数据量过大,从而降低系统响应速度、增加计算负担,并且难以维持细致入微的对话,因为并非所有信息都相关 [31, 29]。因此,将基于显式提示的聊天机器人直接转换为 XR 中的实体智体可能不是最优的。

为了应对这些挑战,提出 EmBARDiment,利用隐式注意框架与上下文记忆相结合,在 XR 环境中启用实体 LLM 智体,如图所示。该解决方案旨在从 XR 环境中的用户动作、眼神注视和视觉显著性中,隐式地得出上下文,从而最大限度地减少对设计显式提示的依赖。因此,要促进高度针对性和直观的交互,根据用户现在和过去的行为和关注点,智体能够推断用户的意图和需求。例如,如果用户正在阅读文档,智体可以访问用户已阅读的内容并将其用作上下文,与查询提示一起生成相关响应。与之前主要关注一次性视觉查询的 XR 凝视研究 [47, 37] 不同,该方法将凝视显着性上下文与 LLM 驱动的持续交互相结合,提供两全其美的解决方案。假设这种方法将增强用户与具身智体的交互,因为它建立了共享的“心智理论”,并提供高度上下文的帮助,有可能将交互简化到自然语言命令的级别,例如“把那个放在那里” [8]。

请添加图片描述

EmBARDiment 是框架的一个实际示例,实现为一个 XR 应用程序,无缝集成了语音转文本、文本转语音、凝视驱动的显著性和 LLM,从而在多窗口 XR 环境中实现语音交互 AI 智体。该应用程序是使用 Unity [1] 开发的,并部署在 Oculus Quest Pro [36] 上。

代码在 GitHub 下载:https://github.com/anonymous-user/anonymous-repo。

EmBARDiment 具有一个具身 AI 智体,可作为用户交互的主要锚点和界面。AI 智体具身为一个可爱的avatar,旨在通过结合口头和非口头提示来提供引人入胜且直观的体验。当 AI 智体收到来自 ChatGPT-4 API 的响应时,它会使用 Google Cloud 文本转语音 API 生成语音和相应的视素(visemes),实现唇同步和面部动画。这种集成为用户创造了更逼真、更身临其境的体验,模仿了类似人类的交互。AI 智体的具身在建立沉浸感和促进自然交流方面起着至关重要的作用。利用用户的注视和显着性历史,AI 智体可以在不同的窗口中移动,以视觉方式展示对用户当前焦点的共享理解水平。

EmBARDiment 利用多种输入和输出模式来实现用户与具身 AI 智体之间的无缝通信 [43, 19]。用户可以通过按下按键然后说话(键盘上的“V”)来发起口头请求。用户的语音通过 Google Speech-to-Text API [22] 转换为文本,该 API 将音频数据发送到 Google 云并返回转录的文本,然后该文本会动态显示在 AI 智体下方的 UI 面板中,为用户提供视觉反馈。

从 Google Speech-to-Text API 收到最终转录文本后,任何 LLM API 都会对其进行处理以进行自然语言理解和生成。系统会维护聊天记录以保留交互上下文,从而使 AI 智体能够生成相关且连贯的响应。然后,响应会显示在 AI 智体下方的 UI 面板上,再次使用 Google Cloud Text-to-Speech API [23],但现在是将文本转换为语音。这个过程还会产生音素及其对应的视素,用于使人工智能智体的面部表情和唇动与口语同步 [51]。

EmBARDiment 在现有的开源多窗口 XR 环境 WindowMirror 基础上构建并进行了扩展,WindowMirror 可以从 PC 捕获现有窗并在 XR 环境内呈现它们 [9]。EmBARDiment 使用 Google Vision API [24] 处理每个窗框执行光学字符识别 (OCR),提取文本内容及其在框内的位置。将文本的空间位置与来自 XR 耳机的眼动追踪数据相关联,EmBARDiment 可以确定用户当前正在关注哪些文本。该系统会维护用户显著性历史的缓冲区,从而保留文本的顺序以确保连贯性。

为了区分扫视和注视,EmBARDiment 仅记录用户至少注视 120 毫秒的文本,这被认为是阅读过程中有效处理视觉信息所需的最短时间 [46]。系统中的上下文记忆最大容量为 250 个单词,用于实现基本情景记忆,而不是长期记忆。智体上下文记忆的工作原理是,当用户关注新内容时,简单地丢弃旧信息。当用户发出口头请求时,上下文记忆会与用户的查询相结合,并发送到 ChatGPT-4 完成 API 进行处理。这种方法允许 AI 智体生成基于用户当前焦点和显着性历史的响应。每次请求后,上下文记忆缓冲区都会被清除。

如图所示实验条件。(A)基线:未选择上下文信息。(B)完整上下文:选择所有上下文信息。(C)视线:根据视线注视点选择信息。

请添加图片描述

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值