将大语言模型嵌入扩展现实：包容性、参与度和隐私方面的机遇与挑战

最新推荐文章于 2024-09-25 03:40:15 发布

硅谷秋水

最新推荐文章于 2024-09-25 03:40:15 发布

阅读量888

点赞数 23

分类专栏：大模型计算机视觉智能体文章标签：语言模型 xr 人工智能

本文链接：https://blog.csdn.net/yorkhunter/article/details/141322933

版权

大模型同时被 3 个专栏收录

446 篇文章 7 订阅

订阅专栏

智能体

189 篇文章 0 订阅

订阅专栏

计算机视觉

154 篇文章 0 订阅

订阅专栏

24年6月来自慕尼黑工大的论文“Embedding Large Language Models into Extended Reality: Opportunities and Challenges for Inclusion, Engagement, and Privacy”。

人工智能和人机交互的进步可能会让扩展现实 (XR) 无处不在。虽然 XR 可以为用户提供交互式、引人入胜和沉浸式的体验，但非玩家角色（NPC）通常以预先编写和常规方式使用。本文在 XR 中使用大语言模型 (LLM)，将它们嵌入到avatar中或作为叙述，通过提示工程和微调 LLM 来促进包容性。这种包容性将促进 XR 使用的多样性。此外，LLM 的多功能对话功能可能会增加 XR 的参与度，帮助 XR 无处不在。最后，将用户提供给 LLM 驱动的空间信息与获得的生物特征数据相结合，可能会带来新的隐私侵犯。在探索潜在的隐私泄露同时，检查用户的隐私问题和偏好也是必不可少的。

随着计算机图形学、人工智能 (AI) 和人机交互领域的研究和发展，虚拟、混合和增强现实 (VR/MR/AR) 和头戴式显示器 (HMD) 已开始在日常生活中普及。尤其是随着 Apple 和 Meta 等大型科技公司将其 HMD 推向市场并得到广泛使用（例如 Apple Vision Pro、Meta Quest 3），HMD 很可能很快就会变得类似于当今的智能手机、智能手表或平板电脑。然而，使用 HMD，用户通常会体验高度沉浸式的虚拟场景，这使得他们的互动和社会方面与其他设备不同。

扩展现实涵盖 VR、AR 和 MR 的广泛领域，已用于教育 [9、23、30]、医学 [31、59、78]、娱乐 [4、33、37]、交通 [7、14、45] 和商业 [1、27、46] 等各个领域的不同用途。XR 和 HMD 的优势之一（尤其是在理解人类行为和交互方面）是可以获得细粒度运动传感器数据，例如眼球和头部跟踪 [44]，可能带有受控刺激 [6]。这可以更好地理解人类在 XR 中的行为和感知方式，并为实时和自适应用户支持提供机会。将这种实时和自适应交互体验与高临场感、沉浸感和社交性相结合，可能会带来积极的用户体验，从而激励用户频繁使用 XR 和 HMD。

尽管有许多优点，但在包含非玩家角色 (NPC) 的虚拟和混合空间（即使是由人工智能和机器学习驱动的 NPC）的社交性方面，问题之一是角色的对话能力有限。这些角色通常被设计为预编程的智体 [25] 或使用相关训练数据进行特定用途的训练 [36]。但是，这些不能灵活地用于开放式对话或开放世界设置。此外，当受众发生变化（例如，从成人到儿童）时，对话脚本或训练有素的模型必须几乎从头开始更新，这需要大量人力来创建脚本或标记训练数据。

将大语言模型 (LLM) 作为聊天智体嵌入到 XR 空间中可以显著解决这些问题，并帮助这些空间提供更具包容性和吸引力的体验。LLM 经过大量互联网训练，并获得多样化的文本数据，因此它们可以谈论各种话题。此外，使用特定用例的小数据集和提示工程对此类模型进行微调的可能性，有助于它们用于更广泛的任务。尤其是随着 ChatGPT 于 2022 年公开推出 [50]，广大观众也观察到 LLM 的强大功能以及它们可以生成的类似人类文本。人们强调了不同领域的可能性和机会，例如教育 [35] 和医学 [65]。然而，除了少数几篇论文提到它们作为 XR 中的对话智体的潜力 [2, 67, 72] 或展示它们在 MR [68] 中生成和编辑目标和场景的能力外，它们尚未在 XR 中得到深入研究。原因之一可能是，与听觉和视觉相比，XR 的文本交互使用并不常见。
尽管在 XR 中使用听觉和视觉信息的可能性高于文本，但用语音转文本 [60]、大语言模型 [69] 和文本转语音 [60] 模型构建自动处理流水线，通过 XR 的 LLM 处理音频数据并不困难。此外，随着 GPT-4 [53] 和 Gemini [28] 等多模态 LLM 的出现，在 XR 空间中使用 LLM 来促进对话将比预编程avatar或使用传统 AI 技术更直观。

大语言模型具有灵活的对话功能、微调可能性和提示技术，对 XR 具有巨大的优势，特别是如果此类模型被用作 NPC 或叙述。然而，这方面的研究并不多。在非常简单的情况下，要将 LLM 集成到 XR 中，必须使用语音转文本和文本转语音模型 [60]，以便以听觉方式将信息从用户转换到 LLM 驱动的 NPC，反之亦然。如图描绘了一个示例处理流水线。虽然这样的流水线可能存在一些缺点，例如如果使用在线服务从 LLM 获取响应，则会出现延迟问题，或者如果 LLM 本地部署在 XR 空间内，则需要大量存储空间（因为它们很容易占用数百 GB），但这些问题可以通过良好的工程实践和在通过 Web 服务有效通信的共享位置部署定制模型来解决。

请添加图片描述

此外，多模态 LLM [28, 53] 可能会端到端地利用这种流水线，从而缓解延迟等问题。因此，考虑到这些问题可以得到很好的处理，使用 LLM 将促进 XR 的包容性，并促进更加多样化、平等和引人入胜的 XR 空间。但是，拥有更具包容性和吸引力的空间将导致用户在 XR 空间中花费更多时间。因此，在交互体验期间将提供更多数据和可能更敏感的信息。虽然需要更多的研究来验证这一点，但如此大量的数据与来自 XR 的现有感官数据（例如眼球和手部追踪）相结合将导致新的隐私侵犯。

考虑到所有这些，提供了三组机会和挑战，包括几个研究机会。但是，应该谨慎评估每一个，并且需要通过用户研究和实证数据来验证这些论点。

1. 包容性、多样性和公平性：

预先编写的和传统的 NPC 需要大量的人工劳动才能满足 XR 中不同用户的特征。例如，在技能训练场景中，新手和专家在与 NPC 交流时会有不同的需求。传统上，必须创建两个脚本或 AI 智体来支持这两个用户。尽管如此，由于基于规则的对话生成或使用小型数据集训练用于特定用途的智体，这些智体的知识或整体对话质量可能会被视为虚构的。相比之下，即使是未经微调的预训练 LLM，如果提示用户特定用途，也可以为用户提供个性化的体验 [54]，例如“当我寻求帮助时，请考虑到我是 XR 的 [专家/新手] 而提供回应。”通过微调，LLM 甚至可以提供更具适应性的响应，这种由 LLM 驱动的 XR 空间将通过激励和吸引不同类型的用户而更具包容性。此外，由于任何用户特征都可以通过 LLM 以个性化的方式得到支持，这将为用户提供平等的机会。

因此，主要的研究方向涉及不同用户特征如何看待由 LLM 驱动的 XR 空间，以及此类空间是否可以同等地激励具有不同特征的用户并促进多样性和平等。然而，LLM 也会产生幻觉 [77]，减轻幻觉的影响是一项挑战。

2. 用户参与度

由于 LLM 能够创建类似人类的响应，因此通过 NPC 或叙事实现的 LLM 驱动 XR 空间将比传统的对话智体更能吸引用户。因此，XR 空间内的整体沉浸感和交互性将得到增强。因此，这些增强功能可能会吸引用户的注意力，并鼓励他们在 XR 空间中花费更多时间。 LLM 所促进的丰富而动态的叙事和逼真的互动，将提升 XR 的参与价值，并为创造性的故事讲述和互动开辟新的方式，从而改变用户在 XR 空间中的感知和行为方式。

关于用户参与的主要研究方向，是了解 LLM 驱动的空间是否可以比传统 XR 显著提高用户参与度。在这种情况下，用户可能会在与 XR 中的 NPC 对话时，提供更多关于自己的信息。这可能包括更多关于他们自己的敏感信息，从而导致数据隐私方面的道德挑战。

3. 隐私

基于 LLM 的 XR 将吸引更多用户，并且由于参与度和交互时间的增加，用户将提供更多关于自己的信息，包括敏感信息。因此，在交互过程中获得的此类敏感信息与其他传感器数据相结合，可能会对用户造成新的隐私侵犯。众所周知，LLM 存在一些隐私问题 [51, 66]，应该进行更深入的调查，因为在案例中，XR 将结合来自 LLM 交互的数据和多模态传感器数据。此外，应该通过询问用户的隐私问题和偏好来解决此类隐私侵犯问题，就像在其他领域所做的那样 [19, 22, 47]，通过观察隐私期望和行为之间是否存在差距 [73]。最近的研究还强调了由 LLM 驱动对话智体的可用隐私方面，类似人类的交互，鼓励更多隐私敏感的披露 [80]。然而，以前的研究没有考虑 XR 方面，为此，需要进行更多的实证评估来验证与隐私相关的问题。因此，这些方面构成了机会，特别是对于设计隐私感知和以用户为中心的 XR 空间。

因此，在隐私和道德保护伞下确定的研究方向，涉及了解这些新空间中是否会发生新的隐私侵犯和泄露，了解用户的一般隐私态度，以及在前者的情况下设计隐私增强方法。然而，由于 LLM 研究与其他研究相比进展非常快，某些方面可能需要以纵向方式进行评估，这是一个挑战。