Augmented Language Models a Survey 翻译阅读与理解

Augmented Language Models: a Survey 阅读与理解

原文链接:https://arxiv.org/abs/2302.07842
简要

本文回顾了大语言模型(LMs)能够通过推理技能和使用工具来增强其能力。这种模型可以被称为增强语言模型(Augmented Language Models ALMs)。他们依然以经典的掩码预测方式训练,学习推理事件和使用工具。

这些LMs涉及调用外部的可能是非参数化的模块,不同于经典的语言建模范式。

如何以完全自我监督的方式为语言模型配备有意义的增强仍然是一个开放的研究问题。 将推理和工具结合起来也是一个不错的方向。

内容

1 引言:调查的动机和定义

1.1动机

大语言模型LLMs带来了广泛的变革,记忆和创作能力赋予了LLMs解决多种任务的可能。但是LLMs仍有许多不足和限制,诸如幻觉等。而且LLMs需要一定的规模,其持续的学习也是一个开放性问题。Goldberg*(Yoav Goldberg. Some remarks on large language models, 2023.)*在关于ChatGPT 的上下文中讨论了LLMs的其他不足。

本文认为带来这些问题的原因之一是上下文的有限性,需要大规模存储上下文中不存在但手头任务所必需的知识。所以出现越来越多的研究来规避LLMs有限的上下文大小。一是通过为LMs配备检索模块从给定上下文的数据库中检索;二是通过推理策略改善上下文;三是LMs利用外部工具。

术语定义

Reasoning 推理 将潜在的复杂任务分解为简单的子任务,无论是通过递归还是迭代。但目前并不能完全的解释LLMs是否真的在推理抑或是对语言的滥用而已。

Tool 工具 一个通过某种规则或特殊标记来调用的外部模块。可以收集外部信息或对物理世界产生影响。LLMs学习与工具交互可能包括学习调用其API。

Act 行为 ALM调用虚拟或物理世界有影响的工具并观察结果,通常会将结果包含在ALM当前的上下文中。

为什么要联合讨论推理和工具

推理能够分解任务,工具可以正确执行任务。

为什么联合讨论工具和行为

LM可以相同的方式调用收集附加信息的工具和对虚拟和物理世界有影响的工具。LM具有行动的潜力。

1.2 章节分类

第二节研究了LM的推理能力,第三节关注LMs与工具的交互和行为,第四节探讨推理和工具的具体用途(启发式or学习(监督or强化)),第五节讨论其他探索路线。本文主要关注LLMs。

2 推理

增强LMs推理技能的各种策略。

2.1 通过提示引发推理

两种提示形式:zero-shot和few-shot。

启发性提示鼓励LMs在预测输出前给出中间步骤,这种可以使LMs在few-shot,zero-shot下均具有更好的推理能力。下面的段落将详细讨论。

Few-shot setting

思维链(chain-of-thought,CoT)是一种few-shot提示技术。如图一所示,输入之后是一系列的推理过程和最终结果。

在这里插入图片描述

有研究表明CoT的成功使用需要模型具有一定的规模。表一显示CoT优于标准提示方法

在这里插入图片描述

wang等(2022c)*( Self-consistency improves chain of thought reasoning in language models.)提出了自一致性CoT:采用不同推理路径并选择最一致的答案进行输出。Press等(2022)( Measuring and narrowing the compositionality gap in language models)*提出自我询问:回答问题前明确陈述后续问题。并依赖于一个框架(例如,“后续问题:”或“所以最终答案是:”),因此答案更容易解析。作者在他们引入的数据集上展示了对CoT的改进,旨在测量组合性差距。他们观察到,当增加模型的尺寸时,这个差距并没有缩小。请注意,Press等人(2022)**关注的是2-hop问题,即模型只需要组成两个事实即可获得答案的问题。有趣的是,Self-ask可以很容易地通过搜索引擎进行扩展(参见第3节)。ReAct (Yao等人,2022b)是另一种触发推理的少数提示方法,可以在推理步骤中查询三个工具:在Wikipedia中搜索和查找,并完成返回答案。

Zero-shot setting.

Kojima等人*(Large language models are zero-shot reasoners. )*将LMs中引出的推理思想扩展到zero-shot。方法是将“Let’s think step by step”输入,且LLM在GSM8K等任务上表现良好,但不如few-shot-CoT。如图

在这里插入图片描述

2.2 递归提示

采用问题分解的方法独立的解决子问题,将答案汇总生成最终答案;或者依次解决子问题,其中下一个子问题的解取决于前一个子问题的答案。

例如,在数学问题的背景下,最小到最大提示(Zhou et al)*( Least-to-most prompting enables complex reasoning in large language models.)*允许语言模型通过将复杂问题分解为子问题列表来解决比演示示例更难的问题。该算法首先采用少镜头提示将复杂问题分解成子问题,然后依次求解提取出来的子问题,利用前一子问题的解来回答下一子问题。

虽然许多早期的工作包括通过远程监督学习分解。和Zhou et al .(2022)一样,最近的许多研究都采用了in-context-learning。其中,还有进一步的差异。例如,Drozdov等人(2022)是Zhou等人(2022)的后续,但不同之处在于使用一系列提示对输入执行递归语法解析,而不是线性分解,并且通过各种启发式自动选择示例也有所不同。Dua等人(2022)与Zhou等人(2022)的同时工作,但不同之处在于将问题分解和回答阶段交织在一起,即下一个子问题预测可以访问以前的问题和答案,而不是独立于任何以前的答案生成所有子问题。另一方面,Yang等人(2022a)使用基于规则的原则和补槽提示进行分解,将问题转化为一系列SQL操作。Khot et al(2022)也使用提示符分解为具体的操作,但随后允许每个子问题被分解

2.3 明确地教授语言模型去推理

Nye等人引入了scratchpad的概念,允许LM更好地执行多步计算任务,如加法或代码执行。更准确地说,在训练时LM看到输入任务,比如加法,以及相关的中间步骤:这个集成被称为Scratchpad。在测试时,需要模型预测输入任务的步骤和答案。scratchpad与上述提示策略的不同之处在于,它们是对具有相关计算步骤的示例任务的微调。但请注意,Nye等人也在few-shot状态下进行了实验。Taylor等人在大型LM预训练模型的上下文中使用了类似方法:Galactica在科学数据语料库上进行训练,包括一些文档,其中推理步骤用特殊标记和包裹,以模仿内部工作存储。推理时,可以通过token显式地要求模型激活此推理模式。**Taylor等人认为,在对推理示例进行训练时,还会出现另一个问题:由于人类没有明确地写下所有推理步骤,因此从互联网收集的训练数据中可能缺少许多中间推理步骤。为了避免缺少步骤的问题,作者创建了具有详细推理过程的数据集。在Galactica的预训练中看到的提示示例如图4所示。

在这里插入图片描述

最近的其他工作通过微调提高了预训练的LMs的推理能力。Zelikman等人提出了一种bootstrap方法,为大量未标记的数据生成推理步骤(称为rationales),并使用该数据对模型进行微调。Yu等人表明,与预先训练的模型相比,对推理任务进行标准LM微调可以产生更好的推理技能,如文本蕴意、溯因推理和类比推理。此外,几种指令微调方法使用思维链式提示在BBH和MMLU 等流行基准上取得了显著的改进。有趣的是,所有这些工作也表明,小尺度指令微调模型比未微调的大尺度模型表现更好,特别是在指令跟随很重要的任务中。

2.4抽象推理的比较与局限性

探索尽可能多的推理路径是困难的,且不能保证中间步骤是有效的。一种产生可信的推理路径的方法是在每一步推理中产生问题及其对应的答案。但仍不能保证其正确性。推理是LMs在自己改善上下文来寻求更多的机会去输出正确的答案。但是它在多大程度上使用了所述的推理步骤人们仍然对此知之甚少(Alert: Adapting language models to reasoning tasks.)

许多情况下,推理反而会出现本可避免的错误。例如计算步骤中的错误会影响后续答案。上面研究的一些作品(Yao 等人(ReAct);Press等人,2022)已经利用简单的外部工具,如搜索引擎或计算器来验证中间步骤。更一般地说,本文的下一部分侧重于LMs可以查询的各种工具,以增加输出正确答案的机会。

3 使用工具及其动作

3.1 调用另一个模型

LM的迭代调用

作为对单个优化Prompt进行优化的替代方法,LM获得更好结果的直观方法包括反复调用模型以迭代地改进其输出。

Re3 (Yang et al ., 2022c)利用这个想法自动生成了超过两千字的故事。准确地说,Re3首先通过提示GPT3产生一个计划、故事设置和人物。然后,Re3迭代地将来自计划和当前故事状态的信息注入到新的GPT3 Prompt中,以生成新的故事段落。Yang等人(2022b)对这项工作进行了改进,他们使用了一个学习过的详细大纲,迭代地将简短的初始大纲扩展到任何所需的粒度(granularity)级别。其他教模型以无监督的方式迭代改进文本的方法包括空白填充等应用(Shen等人,2020;Donahue et al, 2020)将高斯向量序列去噪为词向量(Li et al, 2022c)。例如,PEER (Schick et al, 2022)是一个基于LM-Adapted T5 (rafael et al, 2020)初始化的模型,并依托维基百科的编辑行为进行训练,学习如何进行编辑以及如何计划下一步。因此,PEER能够通过重复规划和编辑来开发文章,如图5所示。

在这里插入图片描述

迭代方法还有一个额外的好处,就是允许像故事和文章生成这样的复杂任务分解成更小的子任务。重要的是,除了PEER之外,上面提到的作品还使用启发式方法来调用LM。未来的研究方向可能包括允许LM重复调用自己,直到输出满足某个标准。Wu等人(2022a)提出了一个用于管道的交互接口,允许将多个LMs链接在一起,其中一个步骤的输出作为输入传递给下一个步骤,而不仅仅是重复调用单个模型。这样的贡献允许非人工智能专家改进单个LM无法适当处理的复杂任务的解决方案。

利用其他模态

文本形式下的Prompt可能不包含足够的上下文来正确执行给定的任务。例如,如果一个问题是用严肃或讽刺的语气提出的,那么它需要不同的答案。在上下文中包含各种模态可能对诸如聊天机器人之类的LMs很有用。正如Hao等人(2022)和Alayrac等人(2022)最近所证明的,LMs也可以用作在不同模态上预训练的模型的通用接口。例如,Hao等人(2022)采用了许多预训练的Encoders,这些编码器可以处理视觉和语言等多种模态,并将它们连接到作为通用任务层的LM。接口和模块Encoder通过半因果(Semi-causal)语言建模目标进行联合预训练。这种方法结合了因果和非因果语言建模的优点,支持上下文学习和开放式生成,以及Encoder的轻松微调。类似地,Alayrac等人(2022)引入了Flamingo,这是一个视觉语言模型(VLMs)家族,可以处理任何交错的视觉和文本数据序列。Flamingo模型在包含交错文本和图像的大规模多模态网络语料库上进行训练,这使它们能够在上下文中显示多模态任务的few-shot能力。仅使用少量注释示例,Flamingo就可以轻松适应生成任务(如视觉问答和字幕)以及分类任务(如选择题视觉问答)。Zeng等人(2022)引入了苏格拉底模型(Socratic Models),这是一个模块化的框架,在这个框架中,各种模型在不同的模态上进行预训练,可以进行zero-shot Prompt。这允许模型彼此交换信息并获得新的多模态功能,而无需额外的微调。通过与外部api和数据库(如搜索引擎)的接口,苏格拉底模型可以实现新的应用程序,如机器人感知和规划,关于自我中心视频的自由形式问答,或多模态辅助对话。有趣的是,可以将图像等其他模态纳入到中等大小的LMs中来提高推理能力(1B) (Zhang et al ., 2023)。

3.2 信息检索

3.2.1 检索增强型语言模型

密集、稀疏检索器 有两种类型的检索器可以用来增强LM:密集的和稀疏的。稀疏检索器使用文档和查询的稀疏词袋表示(Robertson和Zaragoza, 2009)。相比之下,密集神经检索器使用从神经网络获得的密集查询和密集文档向量(Asai等人,2021)。这两种类型的检索器都评估文档与信息查找查询的相关性。这可以通过

(i)检查精确术语的重叠 或者

(ii)计算相关概念间的语义相似度

来完成。稀疏检索器在第一个子问题上表现出色,而密集检索器在第二个子问题上表现更好(Luan et al, 2021)。

LM对检索到的文档进行调节 各种工作通过将检索到的文档附加到当前上下文中来增强使用密集检索器的LM(Chen等人,2017;Clark and Gardner, 2017;Lee et al, 2019;Guu et al ., 2020;Khandelwal等,2020;Lewis et al, 2020;伊扎卡德和格雷夫,2020;钟等,2022;Borgeaud et al, 2022;Izacard et al, 2022)。尽管检索文档来执行问答的想法并不新鲜,但检索增强的LMs最近在问答之外的其他知识密集型任务中表现出了强大的性能。与使用更多参数的大型LMs相比,这些提议缩小了性能差距。REALM (Guu et al ., 2020)是第一个与编码器LM联合训练端到端检索系统的方法。RAG (Lewis et al ., 2020)联合使用Seq2seq模型对检索器进行微调。Izacard和Grave(2020)引入了对seq2seq架构的修改,以有效地处理许多检索到的文档。Borgeaud等人(2022)专注于一种称为RETRO的自回归LM,并表明将大规模语料库与预训练的冻结BERT嵌入相结合,可以消除进一步训练检索器的需要,同时在不同的下游任务上获得与GPT3相当的性能。RETRO中使用的方法允许将检索集成到现有的预训练LMs中。Atlas (Izacard et al, 2022)联合训练了一个Seq2seq模型的检索器,获得了一个具有强大的few-shot能力的LM,尽管它比许多其他大型LM小几个数量级。表2比较了所讨论的模型的主要特征,特别是如何将检索结果集成到LM的上下文中。在所有这些情况下,查询都与Prompt相对应。

在这里插入图片描述

思维链和检索 近期作品(He et al, 2022;Trivedi等人,2022)提出通过思维链(CoT)Prompt将检索器与推理结合起来,以增强LM。He等人(2022)使用CoT提示生成由解释和预测对组成的推理路径。然后,检索知识来支持解释和选择最受证据支持的预测。这种方法不需要任何额外的训练或微调。Trivedi等人(2022)提出了一种信息检索思维链方法(IRCoT),该方法由多步骤QA的信息检索与信息检索交叉组成。其思想是用检索来指导CoT推理步骤,反过来用CoT推理来指导检索步骤。

在所有这些工作中,系统地为每个查询调用检索器,以便获得相应的文档以增强LM。这些方法还假定意图包含在查询中。如Asai等人(2022)所提出的,查询可以通过提供搜索任务(指令)的自然语言描述来增强用户的意图,从而消除意图的歧义(disambiguate)。此外,LM只能偶尔(当提示提示它这样做时)查询检索器,这将在下一小节中讨论。

3.2.2 查询搜索引擎

只摄取查询的LM可以被视为被动代理。然而,一旦赋予它基于Prompt生成查询的能力,LM就可以扩大其操作空间并变得更加活跃。

LaMDA是为对话应用程序设计的类似代理的LM的一个例子。作者在对话数据和其他公共网络文档上预训练模型。除此之外,为了确保模型基于事实并增强其会话能力,还增加了检索、计算器和翻译器(Thoppilan et al, 2022)。此外,为了提高模型的安全性,LaMDA使用带注释的数据进行了微调。另一个例子是BlenderBot (Shuster等人,2022b),其中LM决定根据Prompt生成查询。在这种情况下,Prompt对应于调用搜索引擎工具的指令。BlenderBot能够进行开放领域的对话,它已经被部署在一个公共网站上,通过与人类在循环中不断学习来进一步改进模型。类似地,ReAct使用少量提示来教LM如何使用不同的工具,例如在Wikipedia中搜索和查找,并完成返回答案(Yao et al, 2022b)。同样,Komeili等人(2021);Shuster等人(2022a)提出了一种模型,该模型学习基于上下文生成互联网搜索查询,然后根据搜索结果条件生成响应。ReAct将推理和行为交织在一起,允许两者之间更大的协同作用,并提高语言和决策任务的性能。ReAct在各种语言和决策任务(如问答、事实验证或web和主页导航)上表现良好。

一般来说,推理可以通过做出更好的推断和预测来改进决策制定,而使用外部工具的能力可以通过从知识库或环境中收集额外的信息来改进推理。

3.2.3 查询并导航web

也有可能训练能够在开放式互联网上导航的代理,以追求特定的目标,如搜索信息或购买物品。例如,WebGPT (Nakano et al, 2021)是一个基于机器学习的代理,它可以与基于文本的自定义web浏览环境进行交互,以回答长格式的问题。与其他只学习如何查询检索器或搜索引擎(如LaMDA (Thoppilan等人,2022)或blendbot (Shuster等人,2022b)的模型相比,WebGPT学习与web浏览器交互,这允许它进一步优化初始查询或基于与工具的交互执行其他操作。更具体地说,WebGPT可以搜索internet、浏览网页、跟踪链接和引用资源(参见表3获得可用操作的完整列表)。

在这里插入图片描述

通过访问互联网,智能体能够增强其回答问题的能力,甚至超过人类评估者所确定的人类的能力。最佳模型是通过在人类演示中微调GPT3,然后对经过训练以预测人类偏好的奖励模型进行拒绝抽样来获得的。类似地,WebShop (Yao et al, 2022a)是一个模拟的电子商务网站,代理必须根据给定的指令查找、定制和购买产品。为了实现这一目标,智能体必须理解和推理嘈杂的文本,遵循复杂的指令,重新制定查询,浏览不同类型的网页,在需要时采取行动收集额外的信息,并做出战略决策以实现其目标。观察和动作都是用自然语言表达的,这使得环境非常适合基于机器学习的代理。该代理由一个LM组成,该LM对人类演示的行为克隆进行了微调(即,问题-人类演示对),并使用硬编码的奖励函数进行强化学习,该函数验证购买的物品是否与给定描述匹配。虽然还有其他12个关于网页导航和计算机控制的作品,但它们中的大多数都假设了典型的人机界面,即以计算机屏幕的输入图像和输出键盘命令为输入,以解决数字任务(Shi等人,2017;Gur等人,2019;2021;Toyama等人,2021;Humphreys et al, 2022;Gur et al ., 2022)。由于调查重点是基于LMs的代理,所以不会详细讨论这些作品。

3.3 通过符号模块和代码解释器进行计算

尽管最近的LMs能够正确地分解许多问题,但在处理大量数字或执行复杂的算术运算时,它们仍然容易出错。例如,Vanilla GPT3不能执行分布外加法,即使提供了带有注释步骤的示例,也不能对比训练期间看到的更大的数字进行加法(Qian et al, 2022)。在强化学习的背景下,Wang等人(2022b)在Transformer代理的动作空间中配备了符号模块来执行算术或导航等操作。Mind’s Eye (Liu et al ., 2022b)调用一个物理引擎来进行LMs的物理推理。更准确地说,文本到代码LM用于为物理引擎生成呈现代码。然后,与回答问题相关的模拟结果以自然语言的形式附加到LM提示符中。因此,Mind 's Eye能够在某些特定的物理推理任务上胜过最大的LMs,而参数却少了两个数量级。PAL (Gao et al, 2022)依靠大型lm的CoT提示将符号推理、数学推理或算法任务分解为中间步骤,并为每个步骤提供python代码(见图6)。

在这里插入图片描述

然后将python步骤装载到输出最终结果的python解释器中。它们在几个基准测试中优于CoT提示,特别是在GSM-HARD上,这是GSM8K的一个版本,具有更大的数字。GSM8K上PAL与其他型号的比较见 表1。同样,Drori等人(2022);Chen et al(2022)促使Codex (Chen et al, 2021)生成基于可执行代码的解决方案,以解决大学水平的问题、数学问题或财务问题。在定理证明的背景下,Wu等人(2022c)在Isabelle或HOL中使用大型lm自动形式化非正式数学竞赛问题陈述。Jiang等人(2022)生成正式的证明草图,然后将其提供给证明者。

3.4 虚拟和现实世界的行为

控制虚拟代理 最近的工作证明了LMs在模拟的2D和3D环境中通过输出函数来控制虚拟代理的能力,这些函数可以由计算机在相应的环境中执行,无论是模拟还是现实世界。例如,Li等人(2022b)通过将目标和观察值表示为嵌入序列并预测下一个动作,对序列决策问题的预训练GPT2 (Radford等人,2019)进行微调。该框架支持跨不同领域(包括模拟家庭环境)的强组合泛化。这表明,LMs不仅可以生成对语言建模有用的表示,还可以生成对顺序目标和计划建模有用的表示,因此它们可以提高语言处理之外的任务的学习和泛化。同样,Huang等人(2022a)研究了是否有可能使用LMs捕获的世界知识来采取具体行动,以响应用自然语言编写的高级任务,如“做早餐”。这项工作首次证明,如果LM足够大并且提示正确,它可以将高级任务分解为一系列简单的命令,而无需额外的训练。但是,代理可以访问预定的一组操作,因此并不是所有的自然语言命令都可以在环境中执行。为了解决这个问题,作者提出使用余弦相似度函数将LM建议的命令映射为智能体的可行动作。在虚拟家庭环境中对该方法进行了评估,与使用LM生成的计划而不进行额外映射相比,该方法在执行任务的能力方面得到了改进。虽然这些工作已经证明了LMs在控制虚拟机器人方面的有用性,但下面的段落涵盖了物理机器人的工作。Zeng等人(2022)将LM与视觉语言模型(VLM)和预训练的语言条件策略相结合,用于控制模拟机械臂。LM被用作多步骤计划器,将高级任务分解为子目标,而VLM用于描述场景中的对象。两者都被传递给策略,然后策略根据指定的目标和观察到的世界状态执行操作。Dasgupta等人(2023)使用7B和70B Chinchilla作为在PycoLab环境中行动和观察结果的代理的计划者。此外,报告模块将操作和观察结果从像素空间转换为文本空间。最后,Carta等人(2023)中的代理使用LM为基于文本的任务生成动作策略。通过在线强化学习进行的交互式学习允许将LM内部表征与环境相结合,从而部分地脱离了在预训练期间获得的关于文本统计表面结构的知识。

控制物理机器人 Liang等人(2022)使用LM编写给定自然语言命令的机器人策略代码,通过一些演示提示模型。通过结合经典逻辑结构和引用外部库,例如,用于算术运算,lm可以创建显示空间几何推理的策略,推广到新的指令,并为模糊描述提供精确的值。在多个真实机器人平台上验证了该方法的有效性。LMs对关于世界的常识进行编码,这对于让机器人遵循用自然语言表达的复杂高级指令很有用。然而,他们缺乏上下文基础,这使得很难在现实世界中使用他们来做决策,因为他们不知道在特定情况下什么行动是可行的。为了缓解这个问题,Ahn等人(2022)建议教机器人一些低级技能(如“找海绵”、“捡苹果”、“去厨房”),并学会预测它们在任何给定状态下的可行性。然后,LM可用于将复杂的高级指令从机器人的曲目中拆分为更简单的子目标。然后,LM可以为机器人选择最有价值且可行的技能来执行。通过这种方式,机器人可以使用其物理能力来执行LM的指令,而LM则提供有关任务的语义知识。作者在各种现实世界的任务中测试了他们的方法,称为SayCan,发现它可以在各种环境中成功地完成长而抽象的指令。为了解决部署问题,Chen等人(2021)提出了NLMap-SayCan,这是一个将上下文信息收集到LM规划器中的框架。NLMap使用视觉语言模型(VLM)在生成上下文条件计划之前创建开放词汇可查询的场景表示。将上下文信息纳入智能体决策的另一种方法是利用来自环境的语言反馈,如成功检测、对象识别、场景描述或人类交互(Huang et al ., 2022b)。这提高了机器人控制任务的性能,如桌面重新排列和在真实厨房中的移动操作。最后,RT-1 (Brohan et al, 2022)利用大规模、多样化、任务不可知的机器人数据集来学习一个可以遵循700多种自然语言指令的模型,并将其推广到新的任务、环境和对象。RT-1使用DIAL (Xiao et al ., 2022),这是一种通过视觉语言对齐模型CLIP自动标记机器人演示语言标签的方法(Radford et al ., 2019)。

4 学习利用工具和行为去推理

4.1 有监督

教LMs推理和行动的一种直接方法是为它们提供所需行为的人类书面演示。这样做的常见方法是

(i)通过Brown等人(2020)首次提出的few-shot prompt,其中LMs在推理期间提供一些示例作为额外的上下文,但不执行参数更新,或者

(ii)通过常规的基于梯度的学习。

通常,监督学习是在具有语言建模目标的初始预训练之后完成的(Ouyang等人,2022;Chung et al, 2022);泰勒等人(2022)最近的工作是一个例外,他们建议将预训练文本与包含某种形式的明确推理的人工注释示例混合在一起,并用特殊的标记进行标记。一些作者使用监督微调作为中间步骤,然后从人类反馈中进行强化学习(Nakano et al, 2021;欧阳等,2022);有关这些方法的深入讨论,请参见4.2节。

Few-shot prompting 为LMs提供一些人类在上下文中编写的期望行为演示是教它们推理的常用方法(Wei et al ., 2022c;b;Suzgun等,2022;Press等人,2022)以及教他们使用工具和行动(Gao等人,2022;Lazaridou等,2022;Yao et al ., 2022b)。这主要是因为它易于使用:少量提示只需要少量手动标记的示例,并且由于不需要模型微调,因此可以进行非常快速的实验;此外,它可以通过改变Prompt来为不同的推理任务和工具重用相同的模型(Brown等人,2020;Wei et al ., 2022c)。另一方面,只有当模型达到一定规模时,才能从几个上下文示例中使用思维链进行推理(Wei et al ., 2022b;Chung等人,2022),而性能在很大程度上取决于呈现示例的格式(Jiang等人,2020;Min et al ., 2022),few-shot示例的选择以及它们呈现的顺序(Kumar和Talukdar, 2021;Lu et al ., 2022;Zhou et al ., 2022)。另一个问题是,可以提供的监督数量受到适合LM上下文窗口的示例数量的限制;如果

(i)一种新的行为很难学习,它需要更多的例子,或者

(ii)有很大的可能的动作空间,希望模型学习。

除此之外,由于没有执行权重更新,LM的推理和行为能力完全与提供的提示联系在一起;移除它也会移除这些能力

Fine-tuning 作为few-shot的替代方案,预训练LM的推理和行为能力也可以通过使用标准监督学习更新其参数来激发。这种方法已被用于教学模型使用工具,包括搜索引擎(Komeili等人,2021;Shuster等人,2022b),网页浏览器(Nakano等人,2021),计算器和翻译系统(Thoppilan等人,2022),以及提高推理能力(Chung等人,2022)。对于后者,推理示例通常用于更大的指令调整上下文(Mishra等人,2021;Sanh等,2022;Wang等,2022d;欧阳等人,2022),其中,更一般地说,LM遵循指令的能力是基于人类标记的例子得到提高的。典型的例子是从人群工作者中收集的。在某些情况下,它们可以自动获得:Nye等人(2021)使用执行痕迹作为推理监督的一种形式,而Andor等人(2019)使用启发式方法收集监督数据,用于教授语言模型使用计算器。

Prompt pre-training 在预训练阶段之后进行微调的潜在风险是LM可能偏离原始分布很远,并且在微调期间提供的示例分布过拟合。为了缓解这个问题,Taylor等人(2022)提议将预训练数据与标记的推理演示混合,类似于早期的工作将预训练数据与来自各种下游任务的示例混合(rafael等人,2020);然而,与单独的微调阶段相比,这种混合的确切收益尚未得到实证研究。怀着类似的目标,欧阳等人(2022)和Iyer等人(2022)组合了微调阶段预训练的例子。

Bootstrapping 作为标准微调的替代方案,一些作者建议使用自举技术(例如Yarowsky, 1995;Brin, 1999)利用某种形式的间接监督。这通常是通过提示LM在几次设置中进行推理或行动,然后进行最终预测来实现的;执行的动作或推理步骤没有导致正确的最终预测的示例将被丢弃。例如,STaR (Zelikman et al, 2022)提示模型在常识性问题回答设置中生成思维链推理序列,但只保留那些导致给定问题正确最终答案的链。最后,在所有正确的示例上对原始LM或另一个(通常较小的)模型进行微调。因此,自举结合了少量提示的数据效率和微调的一些优势,可以成功地应用于教授模型推理(Shridhar等人,2022)和使用工具(Parisi等人,2022)。

4.2 强化学习

Prompt进行监督学习的成本高昂,但人类偏好数据成本更低。

强化学习已经被证明是成功的,它可以通过与环境的基于反馈的交互来学习复杂的行为。当用RL训练LM时,LM可以被视为学习策略的代理(即模型词汇表的分布,从中采样下一个token),以优化某些奖励函数。大多数关于RL和ALM的现有工作都集中在教LMs如何行动而不是推理上。关于学习如何通过RL进行推理的最接近的工作是STaR (Zelikman等人,2022),这是一种基于引导的方法,在4.1节中进行了讨论。

强化学习已经被证明是成功的,它可以通过与环境的基于反馈的交互来学习复杂的行为,并且已经被我们用于玩游戏等应用程序(Mnih等人,2015;Silver等人,2016;Vinyals等人,2019;团队等,2021;Bakhtin et al, 2022)或控制机器人(Gu et al, 2017;卡拉什尼科夫等人,2018;Akkaya等人,2019;Lee et al, 2020)。当用RL训练LM时,LM可以被视为学习策略的代理(即模型词汇表的分布,从中采样下一个令牌),以优化某些奖励函数。大多数关于RL和alm的现有工作都集中在教LMs如何行动而不是推理上。关于学习如何通过RL进行推理的最接近的工作是STaR (Zelikman等人,2022),这是一种基于引导的方法,将在4.1节中讨论。

强化学习已经被证明是成功的,它可以通过与环境的基于反馈的交互来学习复杂的行为,并且已经被我们用于玩游戏等应用程序(Mnih等人,2015;Silver等人,2016;Vinyals等人,2019;团队等,2021;Bakhtin et al, 2022)或控制机器人(Gu et al, 2017;卡拉什尼科夫等人,2018;Akkaya等人,2019;Lee et al, 2020)。当用RL训练LM时,LM可以被视为学习策略的代理(即模型词汇表的分布,从中采样下一个令牌),以优化某些奖励函数。大多数关于RL和alm的现有工作都集中在教LMs如何行动而不是推理上。关于学习如何通过RL进行推理的最接近的工作是STaR (Zelikman等人,2022),这是一种基于引导的方法,将在4.1节中讨论

硬编码的奖励功能

当教授LM如何使用外部工具时,标准做法是使用由硬编码奖励函数生成的标量奖励来更新模型的权重。此任务相关函数是基于工具输出计算的。LM代理接受文本输入(在RL术语中对应于环境的当前状态),并生成一系列令牌,或RL术语中的操作。优化是通过策略梯度算法来完成的,比如REINFORCE (Williams, 1992)、PPO和类似的变体(Schulman et al, 2017;Ramamurthy et al, 2022)。

通过强化学习训练LMs使用工具的最初工作主要集中在搜索和获取额外的事实信息。用于此类信息查找任务的常用工具是文档检索器、问答系统和搜索引擎。前两种方法包括从预定义的文本文档集检索文档,或者基于某些输入查询检索答案。然而,搜索引擎允许更结构化的交互式搜索,例如,模型进一步细化初始查询或基于工具的初始输出执行其他操作。例如,Wu等人(2022d)通过RL教LM重写查询,以便将其提供给现成的检索器,从而执行会话式问答。奖励函数是基于以下对话回合和检索段落之间的标记重叠的对比检索精度度量。另一个例子是Liu等人(2022a)的工作:RAINIER是一个能够生成上下文相关问题的LM,这些问题被优化以查询冻结的QA系统。在将较大的GPT3 (Brown等人,2020)模型中的知识提取到较小的T5模型(Raffel等人,2020)之后,使用PPO (Schulman等人,2017)对RAINIER进行微调,并使用Khashabi等人(2020)的预训练问答模型提供的反馈。有趣的是,这项工作是LM学习使用另一个冻结的神经模型作为外部工具的一个例子。

Yao等人(2022a)使用强化学习来教语言模型导航虚拟商店并购买受颜色和价格等属性约束的商品。与WebGPT (Nakano et al, 2021)类似,该模型以文本格式给出目标,并允许执行一组有限的操作。根据用户生成的指令提示,在多任务学习设置中,模型需要同时理解查询并浏览网页以搜索正确的产品。奖励是一个硬编码的文本匹配函数,基于模型购买的物品的书面描述与给定的购物说明之间的相似性。

优化是用A3C算法(Mnih等人,2016)进行的,A3C算法是标准演员评价方法的一种变体。虽然该模型仍然落后于人类专家,但他们发现,在人类示范训练后,对强化学习进行微调可以提高性能。这提供了额外的证据,证明基于奖励的学习对于赋予LMs与外部工具交互的能力的好处。

虽然与搜索引擎或文档检索器交互允许模型使用额外的输入来增强其当前上下文,但在与知识库等工具交互时,通常需要处理结构化信息。Dognin等人(2021)通过执行text2graph和graph2text任务来训练LM学习如何与基于图的知识库进行交互。该模型基于T5架构(rafael等人,2020)并使用朴素的策略梯度算法强化(Williams, 1992)进行训练,可以执行文本和图形的双向生成,并在与文本知识库自动构建相关的任务上显示最先进的性能,反之亦然。基于T5的智能体被训练成直接最大化graph2text指标,如BLEU (Papineni等人,2002a)、METEOR (Banerjee和Lavie, 2005)和chrf++ (popoviki, 2017),或text2graph指标,如F1、Precision和Recall。

人类反馈 评估机器生成文本的质量是非常重要的,因为它可以根据上下文、个人偏好和用户的意图而变化。例如,在某些上下文中,用户可能需要创造性的写作,而在其他上下文中,用户可能只需要事实信息。应该据此判断模型输出,并且应该能够捕捉到这种意图差异。基于BLEU (Papineni et al ., 2002b)和ROUGE (Lin, 2004)等启发式方法的几个指标已经被开发出来,用于比较模型输出和参考文本。然而,它们未能充分捕捉到世代在人类意图方面的品质。人类反馈可以用来提高机器生成文本的质量,例如对话代理(Xu et al, 2022)。特别是,从人类反馈中强化学习(RLHF)(Knox and Stone,2008;MacGlashan et al ., 2017;Christiano et al ., 2017;Warnell et al, 2018)旨在通过使用人类偏好作为评估指标和优化语言模型的目标函数来克服这些限制。使用RLHF允许LMs更紧密地与复杂的人类偏好和价值观保持一致,这些偏好和价值观很难被硬编码的奖励函数捕获。

RLHF的工作原理是使用预训练的LM生成文本,然后由人类评估文本,例如,为同一提示对两模型的产出进行排序。然后收集这些数据来学习奖励模型,该模型预测给定任何生成文本的标量奖励。在判断模型输出时,奖励捕获了人类的偏好。最后,使用RL策略梯度算法(如PPO)针对这种奖励模型对LM进行优化(Schulman等,2017)。RLHF可以直接应用于通过自监督学习预训练的通用LM之上。然而,对于更复杂的任务,模型的产出可能不够好。在这种情况下,RLHF通常在初始监督微调阶段之后应用,对相应的下游任务使用少量专家演示(Ramamurthy等人,2022;欧阳等,2022;Stiennon et al, 2020)。

一个成功的用来教LM使用外部工具的RLHF例子是WebGPT(Nakano等人,2021)(在3.2.3中讨论),一个能够使用搜索引擎回答问题并提供参考来支持这些答案的模型。工具界面是一个简化的基于文本的web浏览器。该模型架构基于GPT3 (Brown et al ., 2020),并经过训练以执行用自然语言表达的浏览操作。在通过RLHF进一步优化之前,模型在问题-人类演示对上进行微调。在两个QA数据集上,WebGPT的答案相对于人工生成的答案更受青睐,而且往往比原始的香草GPT3模型更真实。同样,Menick等人(2022)提出了GopherCite,这是一种基于gopher的LM模型(Rae等人,2021),它与RLHF进行了微调,可以在回答问题时引用支持证据,在不确定时不回答。与WebGPT相比,GopherCite使用信息检索外部模块而不是网络浏览器来查找相关信息,从而提高了其问答能力。除了学习使用外部工具外,RLHF还被证明可用于广泛的语言生成任务,从摘要(Ziegler等人,2019;Wu等,2021;Stiennon et al, 2020)训练更有帮助、无害和准确的助手(Glaese et al, 2022;Cohen等人,2022;欧阳等,2022;Bai et al ., 2022)。由于这些作品并没有专注于训练模型进行推理和行动,因此它们超出了本调查的范围。

4.3 局限和未来的方向

尽管最近的算法进步和性能改进,目前的强化学习方法仍然存在不稳定性问题,这可能使训练变得困难和缓慢(Ramamurthy等人,2022;Snell et al, 2022)。虽然监督学习是一种有效而稳健的方法,可以在特定任务上微调语言模型(Mishra等人,2021;Sanh等,2022;Wang等人,2022b),这假设存在大量的专家演示,这可能是困难和昂贵的获得。这对于需要推理和行动的任务尤其如此,因为我们没有现成的数据。缺乏高质量数据问题的一个可能的解决方案可能来自自举方法和离线强化学习。它们结合了“两全其美”的优点,既可以更稳定地训练,又可以通过反馈和互动来改进,即使没有大量的例子来解决感兴趣的任务。近期作品(Zelikman et al, 2022;Snell等人,2022)已经表明,这种方法可以达到超越专家演示的性能,或者比最初的模型一代有所改进。例如,Snell等人(2022)引入了一种名为ILQL的新的离线RL算法,该算法通过估计值函数并使用它来优化LM生成,从而从演示及其相关奖励的静态数据集中学习。ILQL结合了在线强化学习灵活的优化框架和从现有的监督学习数据集学习的简单性和能力,从而在对话任务上取得了良好的表现。如第4节所述,Zelikman等人(2022)采用了一种引导方法来教授LMs进行推理,这可以看作是一种近似于策略梯度算法的方法。最近,Schick等人(2023)提出了Toolformer,这是一个以自我监督的方式自学使用工具的模型。这是通过首先使用现有LM的few-shot功能来采样大量潜在的工具使用来实现的。例如,模型可以调用计算器API来增强其上下文,例如,“在1400个参与者中,400个(或[计算器(400 / 1400)→0.29]29%通过了测试。”然后,模型对自己的输出进行微调,根据它们是否减少了后续tokens产出的困惑度来过滤它们。这种方法允许使用多种工具(例如,日历、计算器或信息检索系统)。然而,它是在一次使用单个工具的有限设置中进行测试的,因为工具使用的示例是独立采样的。我们认为,研究如何将这种方法扩展到更复杂的多步骤工具使用中,是一个有前途的研究方向。

5 讨论

脱离语言模型

一个模型被训练来做中间推理步骤或访问互联网仍然纯粹是执行语言建模吗?事实上,在NLP中,语言建模(Bahl et al, 1983)通常被定义为在给定上下文下预测缺失标记的任务,并且严重依赖于预训练模型。然而,已经有后来的微调模型开发了几种技术(Ziegler等人,2019;魏等,2022a;Sanh等人,2022)来执行各种自然语言任务,被视为远离传统的语言建模。特别是,用于微调LMs的文本不仅可以在互联网上找到,而且明确地加入了某种程度的基础。Goldberg(2023)最近提倡的一个论点是“从这些直接指令中学习可能比从非指令数据中学习要容易得多”。这一论点可以得到Giannou等人(2023)最近工作的支持,该工作在理论上和实践中都表明,即使是浅回路Transformer也可以按照指令进行编程,作为一个通用计算机。直观上,文本是隐藏的复杂中间思想的结果。因此,用于监督的肤浅文本只能被视为这些思想的记录,缺乏语境。相反,对于面向任务的监督数据,我们可以明确地将答案与中间步骤联系起来。在这方面,产生的模型可能不被视为语言模型。然而,这个任务仍然是预测下一个给定文本的标记。这一论点对于ALMs来说更加正确,因为它们可以扩大它们的上下文。特别是,工具增强的LM实际上可能会失去为下一个标记分配概率的能力——这是语言建模的核心:而常规LM可以轻松计算 p ( x t ∣ x 1 , … , x t − 1 ) p(x_t | x_1,…, x_{t−1}) p(xtx1xt1),一个工具增强的LM必须考虑所有可能的工具使用,例如:

P ( x t ∣ x 1 , … , x t − 1 ) = ∑ c P ( c ) ⋅ P ( x t ∣ x 1 , … , x t − 1 , c ) P (x_t | x_1,…,x_{t−1})= \sum _c P (c)·P (x_t | x_1,…, x_{t−1},c) P(xtx1xt1)=cP(c)P(xtx1xt1,c)

其中c是一个工具,它可能不容易处理。基于这些原因,我们在本次调查中使用增强语言模型(Augmented Language Models, ALMs)来区别于传统意义上的语言建模。

记忆工具和查询工具之间的权衡

是记住模型权重中的信息,还是利用外部工具呢?有些情况需要外部工具,例如计算213443344。然而,许多信息是众所周知的事实,如“埃菲尔铁塔位于巴黎”或“1 + 2 = 3”,不应该利用工具。而且,在学习单词表征时,记忆不仅是可取的,而且与推理密切相关(Hayes et al, 2014)。ALMs是否能够足够校准以决定何时使用工具何时不使用工具?是否可以将每个工具的计算预算集成到损失中,让模型学会这样做?

非参数框架的推广

信息检索增强LMs(如RETRO (Borgeaud等人,2022)和Atlas (Izacard等人,2022))背后的动机是通过依赖外部非参数存储器来开发一类需要较少参数的LMx。到目前为止,使用其他类型工具(如代码解释器或计算器)的动机略有不同:例如,Cobbe等人(2021)使用计算器来提高需要算术的任务的准确性。然而,工具增强LMs的范例可以被视为非参数框架的泛化。实际上,除了信息检索之外,LMs还可以将任何类型的能力(如微积分)委托给相应的外部工具。通过避免在其权重中存储很少访问的知识,工具增强的LMs可能具有更好的缩放定律,从而产生更小的模型,保留其最大对应模型的功能。结合从外部世界获取最新信息的可能性,从而避免频繁更新,非参数泛化对ALMs有很大的好处。

通往自主机器智能的道路?

自主智能体的概念由LeCun(2022)提出。现在我们来讨论ALMs在多大程度上体现了这一理念。在LeCun(2022)中,agent由不同的模块组成,从世界模型和短期记忆开始。从本质上讲,agent通过基于其世界模型、感知模块和短期记忆模块的actor模块采取行动,从而使某些成本最小化。该代理还配备了一个配置器模块,用于调制世界模型、感知、参与者和给定手头任务的成本。

在这个框架中,ALM的权重基本上包含世界模型、感知和参与者模块。短期记忆可以通过ALM的上下文或提示来识别。基于它对上下文的感知和它的世界模型,ALM将通过输出特殊的tokens来采取行动,并感知结果。配置器模块仍然是难以捉摸的,但可能是隐含的:它可以被看作是由ALM的上下文引起的条件反射,例如一个初始提示,如“你是一个善良和乐于助人的助手”。最后,成本在此框架中保持固定,并且可能是ALM的困惑与推理和使用外部工具相关的计算成本混合在一起。

然而,LeCun(2022)提到智能体的一个重要特征是它的计划能力,通过将复杂任务分解为子任务来定义:在ALM的上下文中,计划类似于推理,这是对术语的轻微滥用,因为不清楚LMs是否像第2节所述的那样像人类那样推理。LeCun(2022)提出将推理(在规划术语下)作为相对于行动的分层组合的能量最小化来实现。由于ALMs仅在tokens层面进行预测,因此它们无法根据LeCun(2022)的观点进行推理,并且可能仍然局限于系统1任务,即依赖于反射而不是逻辑和思考。是否系统2,即相反的能力,可以通过推动现有的方法仍然是不确定的。例如,LM在其最大序列长度之外被剥夺了全局一致性:作为一个例子,对相同LM的两个不同讨论将导致不一致性。当涉及到解决需要执行大量子目标的复杂问题时,这是一个很大的限制,比如写一篇研究论文,其中一个人有一个初始的心理状态,包括当前的结果和论文的角度。这个过程不是线性的,是不同的相互作用的结果,例如,在阅读一些相关作品时产生新的想法。虽然在整个过程中不断更新,但我们的精神状态是保持不变的,这样我们就能记住大局。虽然更多的计算和更大的输入大小可以缓解这个问题,但另一种解决方案可能是赋予LMs足够的组件。在这方面,LeCun(2022)提出的本质上使LM与能量函数一致的模型架构可能构成一个有希望的场所。

最后,我们的调查将LMs视为可以用自然语言进行推理并与外部工具进行交互的通才智能体的核心部分。沿着这些思路,Wang等人(2023)使用LM作为集中计划器来生成目标序列,以解决《我的世界》游戏中的任务。通过对子目标执行的反馈循环和中间检查,LM可以解释目标执行者的错误并改进其原始计划。然而,我们注意到基于LMs的控制器可能不是通才代理的唯一可行方法。最近关于外交游戏的研究(Bakhtin et al, 2022)采用了一种通过自我游戏和强化学习训练的临时计划模型,由于其复杂的规划和推理动态,这是人工智能代理的长期挑战。在这里,LM用于与其他玩家进行交互,从而作为基于当前游戏状态的外部通信模块。这提供了另一种观点,即LMs是专门与人类交流的代理,尽管是在外交游戏的限制设置中。我们相信(A)LMs将在下一代强大的交互系统中发挥核心作用,无论是作为模块化系统的集中控制器,还是作为需要与编排器交互的仅语言模块,这仍然是一个开放的研究问题。

增强语言模型的好处

真实性:由于当前LM的训练目标可能会导致产生看似可信但不真实的信息,因此通过一些工具进行预测应该会产生更值得信赖的模型。然而,尽管这个结论在为LM配备计算器时很简单,但令人惊讶的是,很少有证据表明它适用于信息检索增强的LM (Krishna et al, 2021)。其中一个原因是网络上存在大量不真实的信息。研究这个方向对于LM的可靠性至关重要。

评估和减少不确定性:通过让模型推理和访问额外的信息来扩展最大似然范式,帮助模型了解它们知道什么和不知道什么。一些论文表明,LMs已经经过了很好的校准(Kadavath等人,2022),即其预测的准确性与相应的可能性之间存在高度相关性。ALMs可以直接利用这种不确定性来知道何时依赖自己的权重,或者何时查询外部工具。

可解释性:深度学习模型通常被认为是黑盒子,它们的预测很难解释。提供中间推理步骤和依赖工具应该有助于使alm更具可解释性。特别是,我们可以期望能够引用用于组成答案的来源是关键的。然而,Lewkowycz et al(2022)的一些作品指出,即使中间推理没有任何意义,思维链也可以导致正确的预测,这表明研究人员在探索这一方向时面临着明显的挑战。

增强的功能:与标准lm相比,具有改进的推理能力和工具的alm可以成为更有帮助的助手,并解决更广泛的任务。例如,连接到python解释器的ALM可以代表用户运行代码和实验,这是普通LM无法做到的。此外,推理和行动之间可能会出现反馈循环,其中每种能力都会进一步改善另一种能力(Yao et al, 2022b)。与外部工具、实体和环境的交互可以改进推理,因为它允许ALM收集额外的信息,并将自己置于现实世界中。同样,推理可以提高ALM的决策能力,例如何时以及如何使用某个工具。

伦理问题

施舍引发了新的潜在伦理问题。基于工具的LM预测可能看起来更值得信赖和权威,但实际上其中许多预测仍然是不正确的。此外,我们可以预期这种现象会被放大,因为LMs的推理方式与人类非常相似(Dasgupta等人,2022),这使得发现错误变得更加困难。虽然这些问题适用于大多数工具,但是区分被动工具和主动工具是很重要的。前者将外部信息收集到LM的上下文中,而后者,例如让LM控制搜索引擎,允许它在没有人类验证的情况下对虚拟或物理世界进行操作,从而扩大了使用LM可能产生的有害后果的范围。我们正在从孤立于外部环境而生成文本的被动LMs,转向在现实世界中发挥作用的ALMs。在这种情况下,前面提到的伦理问题可能会进一步引起共鸣,因为ALM将连接到越来越多的工具和环境。

大,因为LMs的推理方式与人类非常相似(Dasgupta等人,2022),这使得发现错误变得更加困难。虽然这些问题适用于大多数工具,但是区分被动工具和主动工具是很重要的。前者将外部信息收集到LM的上下文中,而后者,例如让LM控制搜索引擎,允许它在没有人类验证的情况下对虚拟或物理世界进行操作,从而扩大了使用LM可能产生的有害后果的范围。我们正在从孤立于外部环境而生成文本的被动LMs,转向在现实世界中发挥作用的ALMs。在这种情况下,前面提到的伦理问题可能会进一步引起共鸣,因为ALM将连接到越来越多的工具和环境。

总结见开头 引用参见原文

  • 9
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《增强现实调查》是一份关于增强现实技术的调查报告。增强现实是一种结合虚拟和现实世界的技术,通过在现实世界中叠加虚拟信息来提供更丰富的感官体验。这项调查主要对增强现实技术的应用和影响进行了探讨。 首先,调查指出增强现实技术在多个领域都有重要的应用。例如,在教育领域,增强现实可以通过虚拟模型和互动活动来增强学生的学习效果。在医疗领域,增强现实可以帮助医生进行准确的手术操作和诊断,提高医疗质量。在娱乐领域,增强现实可以为用户提供逼真的虚拟游戏体验和沉浸式的娱乐内容。 其次,调查指出增强现实技术在社会生活中的影响。一方面,增强现实技术可以改变人们与世界的互动方式,为人们提供更直观、个性化的信息和体验。例如,通过增强现实技术,人们可以在购物时实时查看产品的相关信息和评价;在旅行时,可以通过扫描建筑物获取历史背景和导航信息。另一方面,增强现实技术也带来了一些问题和挑战。例如,人们对于个人隐私的担忧增加,因为增强现实技术可能会收集和使用个人数据。此外,对于增强现实应用的开发和规范也面临技术、法律和伦理等方面的挑战。 最后,调查强调了增强现实技术的发展趋势和未来前景。随着技术的进步和成本的降低,增强现实技术将更广泛地应用于各个领域。例如,可穿戴设备和智能眼镜的普及将推动增强现实技术的发展。此外,人工智能和大数据分析的进步将进一步提升增强现实技术的性能和应用范围。 总而言之,《增强现实调查》通过对增强现实技术的深入研究和分析,对其应用和影响进行了系统的解读,并展望了其未来发展的可能性。这份调查报告有助于我们更好地理解增强现实技术,并为相关领域的决策和发展提供指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清辉依次减

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值