A Survey on Hallucination in Large Language Models:Principles, Taxonomy, Challenges, Open Question

摘要

大规模语言模型(LLMs)的出现标志着自然语言处理(NLP)的重大突破,导致文本理解和生成方面的显着进步。然而,伴随着这些进步,LLMs表现出一种产生幻觉的关键倾向,导致内容与现实世界的事实或用户输入不一致。这种现象给LLMs的实际应用带来了巨大的挑战,并引发了人们对LLMs在现实场景中的可靠性的担忧,因此越来越多的人关注检测和减轻这些幻觉。在这项调查中,我们的目的是提供一个全面和深入的概述,在LLMs幻觉领域的最新进展。我们从LLMs幻觉的创新分类开始,然后深入研究导致幻觉的因素。随后,我们提出了幻觉检测方法和基准的全面概述。此外,还相应地介绍了减轻幻觉的代表性方法。最后,我们分析了突出当前局限性的挑战,并提出了开放性问题,旨在为LLMs幻觉的未来研究描绘途径。

1.介绍

最近,大型语言模型(LLMs)的出现(OpenAI, 2022;谷歌,2023;Touvron et al., 2023;Penedo et al., 2023;赵等人;2023b)引领了自然语言处理(NLP)的范式转变,在语言理解方面取得了前所未有的进步(Hendrycks et al., 2021;Huang et al., 2023c),生成(Zhang et al., 2023f;Zhu et al., 2023b)和推理(Wei et al ., 2022;小岛等人,2022;乔等,2022;Yu等,2023a;Chu et al ., 2023)。
然而,随着LLMs的快速发展,有一个令人担忧的趋势,即法学硕士表现出产生幻觉的倾向(Bang et al, 2023;Guerreiro等人,2023b),导致看似合理但实际上不支持的内容。
目前对幻觉的定义与先前的研究一致(Ji等人,2023a),将其描述为无意义或不忠实于所提供源内容的生成内容。根据与源内容的矛盾,这些幻觉又进一步分为内在幻觉和外在幻觉。虽然这一类别在各种自然语言生成(NLG)任务之间共享,但任务特定的变体确实存在。LLMs非常多才多艺,擅长不同的NLG任务(Bubeck等人,2023;Bang等人,2023),特别是在开放领域应用中,与特定任务模型相比,它们显著的多功能性放大了产生幻觉的可能性。在LLMs中,幻觉的范围包含了一个更广泛、更全面的概念,主要集中在事实错误上。随着LLMs时代的发展,有必要对现有的幻觉分类进行调整,增强其适用性和适应性。
image.png
图1:LLM幻觉的直观例子。
在这项调查中,我们重新定义了幻觉的分类,为LLM应用程序提供了一个更定制的框架。我们把幻觉分为两大类:事实幻觉和忠实幻觉。事实幻觉强调生成的内容与可验证的现实世界事实之间的差异,通常表现为事实不一致或捏造。例如,如图1(a)所示,当被问及第一个在月球上行走的人时,这个模型可能会断言这是1951年的查尔斯·林德伯格。而事实是尼尔·阿姆斯特朗是1969年阿波罗11号任务中第一个在月球上行走的人。另一方面,忠实幻觉是指生成内容与用户指令或输入提供的上下文的背离,以及生成内容内部的自一致性。如图1(b)所示,当被要求总结一篇新闻文章时,该模型不准确地生成了以色列和哈马斯之间冲突的实际事件日期,即2023年10月至2006年10月。关于事实,我们根据可验证来源的存在将其进一步分为两类:事实不一致和事实捏造。为了保证可靠性,我们强调从用户的角度解决不一致性,将其分类为指令不一致性、上下文不一致性和逻辑不一致性,从而使其更好地与LLM的当前使用保持一致。
至于幻觉的潜在原因,虽然在NLG任务的背景下进行了研究,但在尖端的LLM中提出了独特的挑战,值得深入研究。我们的深入分析专门针对LLM幻觉的独特起源,涵盖了从数据、训练到推理阶段的一系列贡献因素。在这个框架内,我们指出了潜在的数据相关原因,如有缺陷的来源和次优利用,在预训练和对齐过程中可能导致幻觉的劣质训练策略,以及解码策略的随机性和推理过程中的不完美表征。此外,我们全面概述了专门用于检测LLM幻觉的各种有效检测方法,以及与LLM幻觉相关的基准的详尽概述,作为评估LLM产生的幻觉程度和检测方法功效的适当测试平台。此外,我们详细介绍了为减轻已确定的幻觉原因而量身定制的综合策略。
通过这项全面的调查,我们旨在为LLM领域的进步做出贡献,并提供有价值的见解,加深对LLM中与幻觉相关的机遇和挑战的理解。这一探索不仅增强了我们对当前LLM局限性的理解,而且为未来的研究和开发更强大、更值得信赖的LLM提供了重要的指导。
与现有调查比较。随着对可靠生成人工智能的推动力度加大,LLM幻觉成为一个重大挑战,导致对其最近进展的大量调查(Ji等人,2023a;Rawte等,2023;刘等,2023h;Zhang等,2023g;Wang et al ., 2023c)。虽然这些作品从不同的角度探讨了LLM幻觉,并提供了宝贵的见解,但必须区分我们当前调查的独特性和全面性。
(Ji et al ., 2023a)主要阐明了NLG任务领域内预训练语言模型中的幻觉,将LLM排除在他们的讨论范围之外。(Liu et al ., 2023h)从更广泛的角度讨论了LLM的可信度,而(Wang et al ., 2023c)则深入研究了LLM的真实性。相比之下,我们的调查集中在LLM可信度挑战的一个子集上,涵盖了事实性的各个方面,并进一步扩大了讨论范围,包括与诚信有关的幻觉。据我们所知,最符合我们调查的工作是(Zhang et al ., 2023g),概述了法学硕士幻觉现象的分类、评估基准和缓解策略。尽管如此,我们的调查在分类和组织结构方面都与众不同。我们提出了幻觉的分层和颗粒分类。在结构上,我们通过追溯LLM的能力来剖析LLM幻觉的原因。更有针对性的是,我们的缓解战略与根本原因错综复杂地联系在一起,确保了一种连贯和有针对性的方法。
本调查的组织。在本文中,我们提出了一个全面的调查有关幻觉在LLM的最新发展。我们从定义LLM开始,并在此背景下构建幻觉的分类(§2)。随后,我们深入分析了LLM中导致幻觉的因素(§3),然后检查了用于可靠检测法学硕士幻觉的各种方法和基准(§4)。然后,我们详细介绍了一系列旨在减轻LLM幻觉的方法(§5)。最后,我们深入研究了挑战和开放性问题,这些问题构成了该领域当前的局限性和未来前景,为即将到来的研究提供了见解并描绘了潜在的途径(§6)。

2.定义

为了全面了解LLM中的幻觉,我们首先简要介绍LLM(§2.1),描述本调查的范围。随后,我们深入研究了LLM(§2.2)的训练过程,作为对潜在训练机制的透彻理解,有助于阐明幻觉的起源。最后,我们阐述了LLM中幻觉的概念(§2.3),并将其进一步分为两种不同的类型。

2.1大型语言模型

在深入探讨幻觉的原因之前,我们首先介绍LLM的概念。通常,LLM指的是一系列通用模型,这些模型利用基于transformer的语言模型架构,并在大量文本语库上进行广泛的训练,其中著名的例子包括GPT-3 (Brown等人,2020)、PaLM (Chowdhery等人,2023)、Galactica (Taylor等人,2022)、LLaMA (Touvron等人,2023)和GPT-4 (OpenAI, 2023)。通过扩展数据量和模型容量,LLM培养了惊人的应急能力,通常包括上下文学习(ICL) (Brown等人,2020)、思维链提示(Wei等人,2022)和指令遵循(Peng等人,2023)。

2.2大型语言模型的训练阶段

LLM的属性和行为与他们的训练过程密切相关。LLM经历三个主要训练阶段:预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)。分析这些阶段可以深入了解LLM的幻觉起源,因为每个阶段都为模型配备了特定的功能。
训练。预训练通常被认为是LLM获得知识和技能的关键阶段(Zhou et al ., 2023a)。语言模型在预训练过程中,旨在自回归地预测序列中的下一个标记。通过对大量文本语料库的自监督训练,该模型获得了语言语法知识、世界知识和推理能力,为后续的微调任务提供了坚实的基础。此外,最近的研究(Sutskever, 2023;delsamtang等人,2023)认为预测后续单词类似于无损压缩重要信息。语言模型的本质在于预测即将出现的单词的概率分布。准确的预测表明对知识的深刻掌握,转化为对世界的细致入微的理解。
监督微调。虽然LLM在预训练阶段获得了大量的知识和能力,但重要的是要认识到预训练主要是为了完成优化。因此,预训练的LLM基本上是作为补全机,这可能导致LLM的下一个单词预测目标与用户获得期望响应的目标之间的不一致。为了弥补这一差距,引入了SFT (Zhang et al ., 2023),其中包括使用精心注释的(指令,响应)对集进一步训练llm,从而增强LLM的能力并改善其可控制性。此外,最近的研究(Chung et al ., 2022;Iyer等人,2022)已经证实了监督微调的有效性,可以在看不见的任务上实现卓越的性能,展示了他们卓越的泛化能力。
image.png
image.png
image.png
基于人类反馈的强化学习。虽然SFT过程成功地使LLM能够遵循用户指令,但它们仍有空间更好地与人类偏好保持一致。在利用人类反馈的各种方法中,RLHF作为一种通过强化学习与人类偏好保持一致的研究所解决方案脱颖而出(Christiano等人,2017;Stiennon et al, 2020;欧阳等人,2022)。通常情况下,RLHF采用偏好模型(Bradley和Terry, 1952),在给定提示和一对人工标记的反应的情况下,训练预测偏好排名。为了与人类偏好保持一致,RLHF优化了LLM,以产生最大化训练偏好模型提供的奖励的输出,通常采用强化学习算法,如近端策略优化(PPO)(Schulman et al, 2017)。将人类反馈整合到训练循环中已被证明有效地增强了llm的一致性,指导它们产生高质量和无害的响应。

2.3大型语言模型中的幻觉

image.png
image.png
表1:LLM幻觉的每个类别的例子。标记为红色的内容代表幻觉输出,而标记为蓝色的内容表示用户指令或提供与LLM幻觉相矛盾的上下文。
幻觉的概念可以追溯到病理学和心理学领域,并被定义为对现实中不存在的实体或事件的感知(Macpherson和Platchias, 2013)。在NLP领域,幻觉通常指的是一种现象,即生成的内容看起来毫无意义或不忠实于所提供的源内容(Filippova, 2020;Maynez et al, 2020)。这个概念与在人类心理学中观察到的幻觉现象有一些相似之处。一般来说,自然语言生成任务中的幻觉可分为两种主要类型:内在幻觉和外在幻觉(Huang et al ., 2021;Li et al ., 2022b;Ji et al ., 2023a)。具体来说,内在幻觉属于与源内容相冲突的LLM的输出。相反,外在幻觉是指无法从源内容验证的LLM代。
然而,在大型语言模型的时代,这些模型的多功能促进了它们在不同领域的广泛使用,突出了现有任务特定分类范式的局限性。考虑到LLM非常强调以用户为中心的交互,并优先考虑与用户指令保持一致,再加上他们的幻觉主要出现在事实层面,我们在Ji等人(2023a)的基础工作基础上引入了更细粒度的分类法。这种精致的分类法试图概括与LLM幻觉相关的独特的复杂性。为了更直观地说明我们对LLM幻觉的定义,我们在表1中给出了每种幻觉的例子,并附有相应的解释。我们建议的类别详情如下:
事实性幻觉。LLM的出现标志着从传统的特定任务工具包到高度关注开放域交互的人工智能助手的重大转变。
这种转变主要归因于他们丰富的参数性事实知识。然而,现有的LLM偶尔会表现出与现实世界事实不一致或可能具有误导性的输出倾向,这对人工智能的可信度构成了挑战。在这种情况下,我们将这些事实性错误归类为事实性幻觉。根据生成的事实内容是否可以通过可靠来源进行验证,它们可以进一步分为两种主要类型:
事实不一致是指LLM的输出包含可以基于现实世界信息的事实,但存在矛盾的情况。这种类型的幻觉发生得最频繁,并且有多种来源,包括LLM对事实知识的捕捉、存储和表达。如表1所示,当被问及“登月第一人”时,模型错误地生成了“尤里·加加林”,这与现实世界的事实相矛盾。
•事实捏造指的是LLM的输出包含的事实是无法验证的建立现实世界的知识的实例。如表1所示,虽然“独角兽的起源”传统上缺乏经验依据,但该模型为独角兽编造了一个可信的历史起源。
信实幻觉。LLM天生就被训练成与用户指令保持一致。随着LLM的使用转向更多以用户为中心的应用程序,确保它们与用户提供的指令和上下文信息的一致性变得越来越重要。此外,LLM的可靠性还体现在其生成内容的逻辑一致性上。从这个角度来看,我们将忠实幻觉分为三种亚型:
指令不一致是指LLM的输出偏离用户的指令。虽然一些偏差可能符合安全指导原则,但这里的不一致表示无意中与非恶意用户指令不一致。如表1所示,用户的实际意图是翻译,但LLM错误地偏离了用户的指令,执行了问答任务。
上下文不一致指的是LLM的输出与用户提供的上下文信息不忠实的实例。例如,如表1所示,用户提到尼罗河的源头在非洲中部的大湖地区,但LLM的回答与上下文相矛盾。
逻辑不一致强调LLM输出表现出内部逻辑矛盾,通常在推理任务中观察到。这表现为推理步骤本身之间以及步骤与最终答案之间的不一致。例如,如表1所示,方程两边除以2的推理步骤是正确的,但x=4的最终答案与推理链不一致,导致结果不正确。

3.幻觉的原因

幻觉有多方面的起源,跨越了LLM能力获取过程的整个频谱。在本节中,我们深入研究了llm幻觉的根本原因,主要分为三个关键方面:数据(第3.1节),训练(第3.2节)和推理(第3.3节)。

3.1数据幻觉

预训练数据是LLM的基础,使他们能够获得一般能力和事实知识(Zhou et al ., 2023a)。然而,它可能在不经意间成为LLM幻觉的来源。这主要表现在两个方面:有缺陷的数据源(§3.1.1)带来的潜在风险,以及对数据中捕获的事实知识的利用不足(§3.1.2)。

3.1.1有缺陷的数据源

虽然扩大预训练数据大大提高了LLM的能力(Kaplan等人,2020;Hoffmann等人,2022),在保持一致的数据质量方面存在挑战,这可能会引入错误信息和偏见(Bender等人,2021;Weidinger et al, 2021)。此外,缺乏特定的领域知识和数据中最新的事实可能导致LLM形成知识边界,这对LLM在特定场景中的应用构成了限制。基于此,我们主要将可能导致幻觉的因素分为错误信息、偏见和知识边界限制。为了更全面的理解,表2给出了每种类型的数据引起的幻觉的说明性示例。
错误信息和偏见。鉴于对大规模语料库的需求日益增长,启发式数据收集方法被用于高效地收集大量数据。在提供大量数据的同时,它们可能会无意中引入错误信息,增加模仿虚假信息的风险。此外,社会偏见可能会不经意地引入LLM的学习过程。这些偏见主要包括重复偏见和各种社会偏见,可能导致幻觉。
image.png
假话。LLM预训练的主要目标是模拟训练分布。当LLM在事实不正确的数据上接受训练时,他们可能会无意中放大这些不准确性,潜在地导致事实不正确的幻觉,称为“模仿谬误”(Lin et al, 2022)。例如,如表2所示,“托马斯·爱迪生发明了灯泡”这一说法实际上是一种误解,长期以来被广泛误解。在这种事实性错误数据上训练的LLM可能会导致误导性的输出。
重复偏差。神经网络,尤其是大型语言模型,具有记忆训练数据的内在倾向(Carlini et al, 2021)。研究(Carlini et al, 2022;Chowdhery et al, 2023)进一步表明,这种记忆倾向随着模型的增长而增长。然而,在预训练数据中存在重复信息的情况下,固有的记忆能力就会出现问题(Lee et al ., 2022a;Kandpal等,2023;Paullada et al, 2021)。这种重复可以使LLM从概括转向记忆(Hernandez等人,2022),最终导致重复偏见,LLM过分优先考虑重复数据的回忆,导致与期望内容偏离的幻觉。在表2中,当用户请求“列出一些红色水果,不包括苹果”时,“红苹果、西瓜、樱桃和草莓”等语句在训练数据集中频繁重复,导致模型在输出中产生过度记忆的语句。
社会偏见。某些偏见与幻觉有着内在的联系,尤其是那些与性别(Paullada等人,2021)和国籍(Narayanan Venkit等人,2023;Ladhak et al, 2023)。例如,LLM可能会将护理职业与女性联系起来,即使在用户提供的上下文中没有明确提到性别,这是章节(§2.3)中讨论的上下文不一致幻觉的例证。这种偏见可能不经意地从基于互联网的文本中获得,这些文本充斥着各种偏见的观点,随后被传播到生成的内容中(Ladhak et al, 2023)。除了这些偏差,数据分布的差异也可能导致幻觉。在自然语言推理(NLI)任务中,McKenna等人(2023)发现LLM倾向于对训练数据中确认的假设进行偏见错误标记。
知识的边界。虽然庞大的预训练语料库赋予LLM广泛的事实知识,但它们本身具有边界。这种限制主要表现在两个方面:缺乏最新的事实知识和专业领域知识。表3给出了一个示例。
image.png
表3:知识边界示例。
领域知识不足。LLM在通用领域的广泛下游任务中表现出了卓越的性能。然而,鉴于这些通用LLM主要是在广泛的公开数据集上训练的(Penedo等人,2023;拉斐尔等人,2020;Gao等人,2021),他们在专业领域的专业知识受到缺乏专有培训数据的固有限制。因此,当遇到需要特定领域知识的问题时,例如医学(Li et al ., 2023g;Singhal et al, 2023)和legal (Yu et al, 2022;Katz et al ., 2023)的问题,这些模型可能表现出明显的幻觉,通常表现为事实捏造。
过时的事实知识。除了领域特定知识的不足之外,LLM知识边界的另一个内在限制是他们获取最新知识的能力有限。LLM中嵌入的事实知识具有明确的时间界限,并可能随着时间的推移而过时(Onoe等人,2022;Kasai等,2022;Li et al ., 2023a)。一旦这些模型被训练,它们的内部知识就永远不会更新。鉴于我们这个世界的动态和不断变化的性质,这构成了一个挑战。当遇到超越时间范围的问题时,LLM通常会捏造事实或提供过去可能正确但现在已经过时的答案

3.1.2数据利用率低

预训练数据体现了丰富的现实世界事实知识,使LLM能够捕获并随后在其参数中编码大量事实知识(Petroni等人,2019;Jiang等,2020;Roberts et al, 2020)。然而,尽管有如此庞大的知识储备,LLM仍然可以产生知识诱导的幻觉,由于对参数知识的利用不足。在这种情况下,我们深入研究两个关键的挑战:虚假的相关性在捕获事实知识和它的斗争在知识回忆。表4给出了与低数据利用率相关的每种类型的幻觉的示例,以进一步说明。
知识的捷径。虽然在探索其知识存储方面已经做出了重大努力(Geva等人,2021;Meng et al ., 2022)和probing (Petroni et al ., 2019;钟等,2021;Yu et al ., 2023c),LLM获取事实性知识的确切机制仍然难以捉摸。近期研究(Li et al ., 2022a;Kang and Choi, 2023;Kandpal等人,2023)表明,LLM经常走捷径,而不是真正理解事实知识的复杂性。他们表现出过度依赖预训练数据中的位置接近(Li等人,2022a)、共现统计(Kang和Choi, 2023)和相关文档计数(Kandpal等人,2023)的倾向,这可能会引入对虚假相关性的偏见,如果偏见反映了事实不正确的信息,可能会导致幻觉。例如,如表4所示,当查询“加拿大首都”时,模型错误地响应为“多伦多”。这种错误可能是由于其训练数据中加拿大和多伦多的共现频率较高,导致模型错误地捕获了关于加拿大首都的事实知识
知识回忆失败。当LLM们努力有效地利用他们广泛的知识时,就会产生幻觉。我们探讨了知识回忆的两个主要挑战:回忆长尾知识的不足和复杂场景中需要多跳推理和逻辑演绎的困难。
image.png
表4:劣质数据利用的例子,展示了知识捷径的陷阱和知识回忆的失败。这包括LLM依靠共发生统计获取事实知识的实例,以及它不能从参数知识中回忆相关信息的情况。
•长尾知识 在LLM所利用的巨大知识景观中,一个显著的挑战是以长尾知识利用的形式出现的(Kandpal等人,2023;malen et al, 2023)。这种长尾知识的特点是在预训练数据中相对罕见,这给LLM带来了固有的挑战,LLM主要依靠共现模式来记忆事实知识。因此,当面对与这种长尾知识有关的问题时,LLM产生幻觉的风险很高,他们试图产生与事实不准确的回答。例如,如表4所示,当提示为之前在Wikipedia训练数据中遇到的长尾实体生成传记时,LLM错误地将该职业归因于此,错误地将政治家描述为教育家。
•复杂场景除了长尾知识的挑战之外,有效利用知识与推理能力密不可分。例如,在多跳问答场景中,即使LLM拥有必要的知识,如果问题之间存在多个关联,由于其推理的局限性,它可能难以产生准确的结果(Zheng et al, 2023)。此外,Berglund等人(2023)揭示了法学硕士中被称为逆转诅咒的特定推理失败。具体来说,当问题被表述为“A是B”时,模型可以正确回答,但当被问及相反的“B是A”时,它表现出失败的逻辑推理。这种推理上的差异超出了简单的推论。在检索增强设置中,Liu等人(2023e)强调了一个相关的挑战。
尽管在模型的上下文窗口中有包含正确答案的文档,但由于模型在有效利用所提供的证据方面的不足,它仍然难以生成精确的响应。如表4所示,虽然LLM识别珠穆朗玛峰是世界最高峰,但是如果珠穆朗玛峰海拔降低500米,LLM无法确定哪座山将成为世界最高峰,这一任务需要复杂的推理能力。

3.1.3总结

LLMs的数据相关幻觉主要源于有缺陷的数据源和较差的数据利用。数据源中的错误信息和固有偏见不仅传播模仿的虚假信息,而且还引入有偏见的输出,导致各种形式的幻觉。LLM的知识边界在处理特定领域的查询或遇到快速更新的事实知识时变得明显。在数据利用方面,LLM倾向于捕捉虚假的相关性,并在回忆知识(尤其是长尾信息)和复杂推理场景中表现出困难,进一步加剧了幻觉。这些挑战强调了提高数据质量和模型更有效地学习和回忆事实知识的能力的迫切需要。

3.2 训练产生的幻觉

LLMs的训练过程主要包括两个初级阶段:1)预训练阶段,LLMs在此阶段学习通用表示并获取世界知识;2)校准阶段,LLMs在此阶段进行调整以更好地与用户指令和偏好保持一致。虽然这一过程使LLMs具备了非凡的能力,但这些阶段的任何不足都可能无意中导致幻觉。

3.2.1 预训练产生的幻觉

预训练是LLMs的基础阶段,通常采用基于transformer的体系结构在大量语料库上进行因果语言建模。然而,与幻觉有关的问题可能来自固有的建筑设计和所采用的特定训练策略。在本节中,我们将深入探讨架构缺陷带来的挑战和暴露偏差的影响。
结构缺陷。LLMs通常采用基于transformer的架构,遵循GPT建立的范式(Radford等人,2018,2019;Brown等人,2020),他们通过因果语言建模目标获得表征,该框架以OPT(Zhang等人,2022)、Falcon (Penedo等人,2023)和Llama-2 (Touvron等人,2023)等模型为例。尽管它取得了成功,但它并非没有缺陷,特别是在单向表示不足和注意故障方面。
单向表示不足。遵循因果语言建模范式,LLMs仅基于前面的标记以从左到右的方式预测后续标记。这种单向建模,在促进高效训练的同时,也有其局限性。它专门利用来自单一方向的上下文,这阻碍了它捕捉复杂的上下文依赖关系的能力,潜在地增加了出现幻觉的风险(Li et al, 2023h)。
注意力故障。基于transformer的体系结构,配备了自关注模块,在捕获远程依赖关系方面显示出了非凡的能力。然而,最近的研究(Liu et al ., 2023a)表明,在算法推理的背景下,它们偶尔会出现不可预测的推理错误,跨越远程和短程依赖关系,无论模型规模如何。一个潜在的原因是软注意的局限性(Hahn, 2020;Chiang和Cholak, 2022),随着序列长度的增加,注意力在不同位置上被稀释
暴露的偏见。除了架构缺陷之外,训练策略也起着至关重要的作用。值得注意的是,暴露偏差现象(Bengio et al ., 2015;Ranzato等人,2016)脱颖而出,这是由于自回归生成模型中训练和推理之间的差异。在训练期间,这些模型通常采用教师强制的最大似然估计(MLE)训练策略,其中提供基础真值令牌作为输入。然而,在推理过程中,模型依赖于它自己生成的令牌来进行后续预测。这种不一致可能导致幻觉(Wang和Sennrich, 2020),特别是当模型生成的错误标记将错误级联到后续序列时,类似于滚雪球效应(Zhang等人,2023c)。

3.2.2 对齐产生幻觉

校准通常涉及两个主要过程,即监督微调和从人类反馈中强化学习,这是释放LLMs能力并使其与人类偏好保持一致的关键一步。虽然对齐显著提高了LLM响应的质量,但它也引入了幻觉的风险。在本节中,我们将把与幻觉相关的校准缺陷分为两部分:能力偏差和信念偏差。
功能错位。考虑到LLMs在预训练过程中建立了固有的能力边界,SFT利用高质量的指令及其相应的响应来授权LLMs遵循用户指令,释放他们在此过程中获得的能力。然而,随着LLMs功能的扩展,一个重要的挑战出现了**:LLMs的内在功能与注释数据中描述的功能之间存在潜在的不一致**。当来自校准数据的需求超过这些预定义的能力边界时,LLMs被训练以产生超出其自身知识边界的内容,从而放大了幻觉的风险(Schulman, 2023)。
信念偏差。几项研究表明,LLMs的激活封装了与其生成的陈述的真实性相关的内部信念(Burns等人,2022;阿扎里亚和米切尔,2023)。然而,在这些内部信念和生成的输出之间偶尔会出现不一致。即使LLMs通过人类反馈进行了改进(Ouyang et al ., 2022),它们有时也会产生与内在信念不同的输出。这种行为被称为谄媚(Cotra, 2021),强调了模型倾向于安抚人类评估者,往往以牺牲真实性为代价。最近的研究表明,通过RLHF训练的模型表现出明显的迎合用户意见的行为。这种谄媚行为并不局限于没有明确答案的模棱两可的问题(Perez et al, 2023),比如政治立场,但当模型选择了一个明显不正确的答案时,也会出现这种行为,尽管它意识到它的不准确性(Wei et al, 2023)。深入研究这一现象,(Sharma et al ., 2023)认为,谄媚的根源可能在于RLHF模型的训练过程。通过进一步探索人类偏好在这种行为中的作用,研究表明,阿谀奉承的倾向可能是由人类和偏好模型共同驱动的,这些偏好模型显示出对阿谀奉承的反应比对真实的反应的偏爱

3.2.3 总结

在训练LLMs的过程中,无论是基础的预训练还是后续的对齐,都面临着独特的挑战,可能会导致幻觉。在训练前阶段,结构缺陷,特别是单向表征的不足,注意力故障,加上众所周知的暴露偏见,导致了幻觉。同时,在校准阶段,出现了能力偏差和信念偏差的问题。前者有可能将LLMs推向他们所不了解的领域而后者则揭示了LLMs的信念与其产出之间的差距。这些挑战凸显了训练LLMs以确保其真实性的重要性。从基础模型设计和训练策略到与人类期望保持一致,它仍然是一个多方面的努力。

3.3 推理产生幻觉

解码在LLMs预训练和对齐后的能力表现中起着重要作用。然而,解码策略中的某些缺陷可能导致LLM幻觉。在本节中,我们将深入研究解码过程中的潜在原因,强调两个关键因素:解码策略的内在随机性(第3.3.1节)和不完善的解码表示(第3.3.2节)。

3.3.1 固有的抽样随机性

LLMs在产生高度创造性和多样化的内容方面表现出了非凡的才能,这种能力严重依赖于其解码策略中随机性的关键作用。随机抽样(Fan et al ., 2018;Holtzman et al, 2020)是目前这些LLMs采用的主流解码策略。将随机性纳入解码策略的基本原理源于高似然序列通常会导致令人惊讶的低质量文本,这被称为似然陷阱(Stahlberg和Byrne, 2019;Holtzman et al, 2020;Meister et al, 2020;Zhang et al, 2021)。解码策略的随机性带来的多样性是有代价的,因为它与幻觉风险的增加呈正相关(Dziri等人,2021a;Chuang et al ., 2023)。采样温度的升高会导致更均匀的令牌概率分布,从而增加从分布尾部以较低频率采样令牌的可能性。因此,这种对不经常出现的标记进行取样的倾向加剧了幻觉的风险(Aksitov et al, 2023)。

3.3.2 译码表示不完善

在解码阶段,LLMs使用它们的toplayer表示来预测下一个令牌。然而,顶层表示也有其局限性,主要表现在两个方面:上下文关注不足和Softmax瓶颈。
上下文关注不足。先前的研究,特别是在机器翻译(Miao et al ., 2021)和摘要(Chen et al ., 2022b)等领域,强调了使用编码器-解码器架构的生成模型的过度自信问题。这种过度自信源于对部分生成内容的过度关注,常常以忠实地坚持源上下文为代价来优先考虑流畅性。虽然主要采用因果语言模型架构的大型语言模型得到了广泛的使用,但过度自信的现象仍然存在。在生成过程中,下一个单词的预测取决于语言模型上下文和部分生成的文本。然而,正如之前的研究所证明的那样(Voita等人,2019;Beltagy等,2020;Liu et al ., 2023e),语言模型往往在其注意机制中表现出局部焦点,优先考虑附近的单词,导致明显的上下文注意缺陷(Shi et al ., 2023b)。此外,这种担忧在LLMs中被进一步放大,LLMs倾向于产生冗长而全面的回应。在这种情况下,甚至对教学遗忘风险的敏感性更高(Chen et al ., 2023f;Liu et al ., 2023i)。这种注意力不足可以直接导致忠实幻觉,其中模型输出的内容偏离了原始上下文。
Softmax瓶颈。大多数语言模型都使用softmax层,该层在语言模型中对最后一层的表示进行操作,并结合单词嵌入来计算与单词预测相关的最终概率。然而,基于Softmax的语言模型的有效性受到Softmax瓶颈的公认限制(Yang等人,2018a)的阻碍,其中Softmax与分布式词嵌入的结合使用限制了给定上下文的输出概率分布的表达性,这阻碍了LMs输出期望的分布。此外,Chang和McCallum(2022)发现,当输出词嵌入空间内的期望分布呈现多个模式时,语言模型在准确地将所有模式中的词作为下一个单词的优先级时面临挑战,这也引入了幻觉的风险。

3.3.3 总结

在解码阶段,固有的解码策略和用于预测的表示都带来了挑战。前者强调其解码算法的随机性,随着随机性的增加,它可能成为幻觉的来源。而在表示方面,过度依赖附近的内容和softmax瓶颈等问题会限制模型表达不同输出概率的能力,从而导致不准确的令牌预测的风险。这些复杂性强调了在整个解码过程中保持真实性和真实性的必要性。

5 减轻幻觉

在本节中,我们提出了旨在减轻LLMs幻觉的当代方法的全面审查。根据在幻觉原因(§3)中讨论的见解,我们根据幻觉的潜在原因系统地对这些方法进行分类。具体而言,我们专注于解决与数据相关的幻觉(§5.1)、与训练相关的幻觉(§5.2)和与推理相关的幻觉(§5.3)的方法,每种方法都提供量身定制的解决方案,以应对各自原因固有的特定挑战。

5.1 减轻数据相关幻觉

与数据相关的幻觉通常是偏见、错误信息和知识差距的副产品,而这些都是根植于训练数据的。在此背景下,我们探索了减轻这种幻觉的各种策略,旨在最大限度地减少错误信息和偏见的发生,同时也提供知识扩充和提高LLMs对知识的有效利用。

5.1.1 减少错误信息和偏见

为了减少错误信息和偏见的存在,最直观的方法是收集高质量的事实数据,以防止引入错误信息,并对偏见进行数据清理。
事实数据增强。保持训练数据的事实正确性对于减轻模仿虚假等问题至关重要(Lin et al, 2022)。最直接的方法是手动管理预训练数据集。早在GPT-2出现时,Radford等人(2019)就强调了专门抓取经过人类专家严格管理和过滤的网页的重要性。然而,随着预训练数据集的不断扩展,人工管理成为一个挑战。鉴于学术或专门领域的数据通常在事实上是准确的,收集高质量的数据就成为主要策略。值得注意的例子包括Pile (Gao等人,2021)和“教科书式”数据源(Gunasekar等人,2023;Li et al ., 2023)。此外,在预训练阶段对事实数据进行上采样已被证明可有效提高LLMs的事实正确性(Touvron et al ., 2023),从而减轻幻觉。
Debias。预训练数据中的偏见通常可以分为两大类:重复偏见和社会偏见,每一类都需要不同的消除偏见的方法。
重复偏差。重复数据删除是预训练阶段的一个关键步骤。现有的实践通常分为两类:完全重复和近似重复。对于精确重复项,最直接的方法包括精确子字符串匹配,以识别相同的字符串。然而,考虑到预训练数据的庞大,这个过程可能是计算密集型的。此外,一种更有效的方法利用后缀数组的构造(Manber和Myers, 1993),能够在线性时间内有效地计算大量子字符串查询。关于近重复,识别通常涉及近似全文匹配,通常使用基于哈希的技术来识别具有显著ngram重叠的文档对。此外,MinHash (Broder, 1997)作为大规模重复数据删除任务的流行算法脱颖而出(Gyawali et al, 2020)。此外,SemDeDup (Abbas et al., 2023)利用预训练模型中的嵌入来识别语义重复,即语义相似但不相同的数据对。
社会偏见。鉴于预训练数据的广博性和深不可测的性质,直接解决社会偏见的根本原因是一项艰巨的挑战(Ferrara, 2023)。因此,当前的主流解决方案严重依赖于精心策划的训练语料库。通过精心挑选多样、均衡、有代表性训练数据,我们可以减轻偏见(Paullada等人,2021;Narayanan Venkit等,2023;Ladhak et al, 2023),这可能会引发幻觉。此外,还引入了工具包(Viswanath和Zhang, 2023),使用户能够消除现有模型和自定义模型的偏见。

5.1.2 缓解知识边界

受训练数据的覆盖范围和时间边界的限制,不可避免地形成知识边界,带来了显著的挑战。为了应对这些挑战,两种流行的方法获得了极大的关注。一是知识编辑(Sinitsin et al ., 2020;Yao et al ., 2023c),其目的是直接编辑模型参数,以弥合知识差距。另一种是通过检索增强生成(RAG)利用非参数知识源(Lewis et al ., 2020b;Guu et al ., 2020;Shuster et al, 2021)。
知识编辑。曹德等(2021);Sinitsin等人(2020)已经引起了越来越多的研究人员的关注,其目的是通过纳入额外的知识来纠正模型行为。目前的知识编辑技术可以修复事实错误和更新过时的信息,以减轻知识差距,这可以分为两类:通过修改模型参数来改变模型的行为,或者使用外部模型插件来冻结原始模型(Yao et al, 2023c)。
修改模型参数。这些技术直接将知识注入到原始模型中,导致模型的输出发生实质性的变化,这种变化可以进一步分为定位-编辑方法和元学习方法。定位-然后编辑方法(Dai等,2022a;Meng等人,2022)包括两个阶段,首先找到模型参数的“错误”部分,然后对它们进行更新以改变模型的行为。例如,ROME (Meng et al ., 2022)通过破坏并随后恢复激活来定位编辑相关层,然后有针对性地更新FFN的参数以编辑知识。MEMIT (Meng et al ., 2023)采用了与ROME相同的知识定位方法,实现了多层并行更新,便于数千个编辑知识同时集成。然而,Yao等人(2023c)发现这些方法缺乏重要的泛化能力,对不同模型架构的性能和适用性也不尽相同。根据经验,表现最好的方法ROME (Meng et al ., 2022)和MEMIT (Meng et al ., 2023)仅适用于仅解码器的LLMs。元学习方法(De Cao et al ., 2021;Mitchell et al ., 2022a)训练一个外部超网络来预测原始模型的权值更新。然而,元学习方法通常需要额外的训练和内存成本,需要专门的设计来减少LLMs时代的超网络规模(例如低秩分解(Mitchell et al, 2022a))。虽然这些方法可以细粒度地调整模型的行为,但对参数的修改可能会对模型的固有知识产生潜在的有害影响。
保留模型参数。一系列研究不是直接修改模型参数,而是将附加的模型插件应用到原始模型中,以实现对模型行为的期望更改。SERAC (Mitchell et al ., 2022b)使用范围分类器将存储在外部编辑存储器中的与新知识相关的输入路由到反事实模型,这可以帮助基本模型处理更新的信息。
与整个模型相比,有各种技术涉及将附加参数层(例如适配器层(Hartvigsen等人,2022))作为插件合并到原始模型中。T-Patcher (Huang et al ., 2023d)和NKB (Dai et al ., 2022b)都将补丁添加到FFN层中,FFN层被认为是存储知识的库(Geva et al ., 2021),以纠正事实错误。CALINET (Dong et al ., 2022)提出了一种识别PLMs中错误知识的评估方法,并通过引入类ffn内存槽来调整FFN的输出,这有利于缓解知识缺口。这些方法需要额外的步骤来训练参数模块,仔细设计训练函数和结构,以促进插件在更新知识中发挥作用,同时保持原始模块处理未编辑的事实。
知识编辑方法可以有效地引入知识,在一定程度上缓解模型的知识缺口。然而,知识编辑的影响仍有提升的空间。(Zhong et al ., 2023b)提出MQUAKE来评估注入知识的泛化,发现编辑后的模型可以成功召回编辑后的事实,但在复杂的多跳问题中失败。也有一些研究(Wu et al ., 2023;Wang et al ., 2023e),表明现有的编辑方法表现出有限的跨语言泛化能力。此外,Pinter和Elhadad(2023)认为,当试图减轻LLMs的幻觉时,知识编辑技术会给用户带来潜在风险,并建议使用包含显性知识的方法(例如检索增强方法)。
检索增强。缓解知识差距的一种直观方法是检索增强生成(RAG)(Lewis等人,2020b;Guu et al ., 2020;Shuster等人,2021),通过对从外部知识来源检索的相关文档进行调节,使LLM在生成过程中接地。通常,RAG遵循一个检索-读取管道,其中首先由检索器(Karpukhin等人,2020)从外部源检索相关的上下文文档,然后由生成器对输入文本和检索文档进行调节生成所需的输出。我们将利用检索增强来减轻幻觉的方法分为三种类型,包括一次性检索、迭代检索和事后检索。
一次性检索。一次性检索的目的是将单次检索获得的外部知识直接添加到LLMs的提示符中。Ram等人(2023)介绍了Incontext RALM,它需要一种简单而有效的策略,即将选定的文档预先添加到LLM的输入文本中。实证结果表明,在不同的LLM规模和不同的语料库中,使用In-context RALM始终可以提高性能。值得注意的是,排名机制的结合已被证明可以进一步扩大性能收益。
除了像维基百科这样的传统知识库之外,正在进行的研究已经探索了其他途径,特别是知识图(KGs)的利用。这些kg是促进LLMs学习的关键工具,促进他们与最新知识的互动,并引出强大的推理路径(Wen等人,2023;Qi等,2023;Baek et al ., 2023)。Varshney等人(2023)引入了参数化知识指导(PKG)框架,用特定领域的知识增强LLMs。PKG采用可训练的背景知识模块,将其与任务知识对齐,生成相关的上下文信息。PKG的有效性突出了通过整合检索到的背景知识来提高LLMs忠诚度的潜力。
迭代检索。然而,当面对复杂的挑战时,如多步推理(Yang等人,2018c)和长篇问答(Fan等人,2019;Stelmakh et al ., 2022),传统的一次性检索可能不足。针对这些苛刻的信息需求,最近的研究提出了迭代检索,它允许在整个生成过程中不断收集知识。一个新兴的研究方向(Khot等人,2022;Yao等,2022;Press等,2022;他等人,2023;Trivedi等人,2023)试图通过将这些复杂的任务分解成更易于管理的子任务来解决这些复杂的任务。认识到思维链提示在多步骤推理中给LLMs带来的实质性进步,Wei等人(2022),许多研究(Yao等人,2022;Trivedi等,2023;他等人,2023)尝试在每个推理步骤中纳入外部知识,并进一步指导基于正在进行的推理的检索过程,减少推理链中的事实错误。Press等人(2022)在思维链提示的基础上引入了自我询问。与传统的连续的、不明确的思维链提示不同,自我询问描述了它打算在每一步解决的问题,随后结合了基于后续问题的搜索行动
Feng等人(2023b)和Shao等人(2023)都采用了迭代检索生成协作框架,而不是仅仅依赖于思维链提示来进行检索指导,其中模型的响应作为有洞察力的上下文来获取更多相关知识,随后在后续迭代中改进响应。除了多步骤推理任务之外,Jiang等人(2023)将他们的重点转移到长形式的一代。他们提出了一个主动检索增强生成框架,该框架迭代地将即将到来的预测作为查询来检索相关文档。如果预测包含低置信度的符号,句子就会重新生成。除了使用迭代检索来改进中间代,Zhang等(2023e)提出MixAlign,它使用基于模型的指导迭代地提炼用户问题,并寻求用户的澄清,最终增强问题与知识之间的一致性。
事后检索。除了传统的“检索-然后读取”范式之外,还有一系列工作深入研究了事后检索,通过随后的基于检索的修订来细化LLM输出。为了提高LLMs的可信度和归因性,Gao等人(2023a)采用了先研究后修改的工作流程,即先研究相关证据,然后根据发现的证据差异对初始生成进行修改。同样,Zhao等人(2023a)引入了验证和验证框架,通过引入外部知识来提高推理链的事实准确性。对于一致性低于平均水平的推理链,框架生成验证问题,然后根据检索到的知识提炼基本原理,确保更真实的响应。Yu et al . (2023d)通过生成多种答案对事后检索方法进行了改进。他们不是只生成一个答案,而是对各种可能的答案进行抽样,从而获得更全面的检索反馈。此外,通过采用集成技术,考虑了答案在检索前后的可能性,他们进一步降低了误导性检索反馈的风险。

5.1.3 缓解知识快捷方式

当LLMs依靠虚假的相关性(如预训练语料库的共现统计)来获取事实知识时,知识捷径就会显现出来。Kang和Choi(2023)建议对通过排除有偏样本构建的去偏数据集进行微调。尽管这导致频繁事实的召回率显著下降,因为更多的样本被排除在外,但当微调过程中看不到罕见事实时,这种方法很难泛化。

5.1.4 减少知识召回失败

LLMs产生幻觉的一个普遍原因是他们无法准确地检索和应用嵌入在参数化知识中的相关信息。在信息完整性至关重要的复杂推理场景中,这一挑战尤为严峻。通过增强知识回忆,我们可以更好地将模型的输出锚定到可验证的知识上,从而提供更强大的防御,防止产生幻觉内容。通常,回忆知识最直接的方法是让LLMs通过思维链提示进行推理。Zhong等(2023b)认为,简单地应用CoT可以提高知识召回率,从而大大提高了在多跳设置下编辑事实的性能。Zheng等人(2023)认为,直接用相关信息补充问题可以增强模型回忆关键知识的能力,而不是纳入推理步骤。Wang等人(2023g)通过概念化推进了这一点,概念化将原始的常识性知识提炼成高层次的抽象知识,从而提高了知识的回忆率。

5.2 减轻与训练有关的幻觉

与训练相关的幻觉通常源于LLMs所采用的架构和训练策略的内在限制。在这种情况下,我们讨论了从训练阶段(§5.2.1)到校准阶段(§5.2.2)的各种优化方法,旨在减轻训练过程中的幻觉。

5.2.1 减轻预训练相关幻觉

为了解决与预训练相关的幻觉,大多数研究强调探索新的模型架构和改进预训练目标。
减轻有缺陷的模型体系结构。减轻预训练相关幻觉的一个重要研究途径集中在模型架构固有的局限性上,特别是单向表示和注意故障。鉴于此,许多研究已经深入到设计新颖的模型架构,专门针对这些缺陷进行定制。
减轻单向表示。为了解决单向表示固有的局限性,Li等人(2023h)引入了采用双向自回归方法的BATGPT。这种设计允许模型基于以前看到的所有标记来预测下一个标记,同时考虑过去和未来的上下文,从而捕获两个方向上的依赖关系。基于这个想法,Liu等人(2023e)强调了编码器-解码器模型更好地利用其上下文窗口的潜力,为未来的LLMs架构设计提出了一个有希望的方向。
减轻注意力故障。认识到软注意在基于自我注意的架构中的局限性,Liu等人(2023a)提议的注意力强化正则化器。这种即插即用的方法使用可微损失项(Zhang等人,2018)来简化自关注架构,以促进稀疏性,从而显著减少推理幻觉
缓解次优预训练目标。在LLMs的预训练阶段,目标的选择对模型的性能起着关键作用。然而,传统目标可能导致模型输出中的碎片化表示和不一致。最近的进展试图通过改进预训练策略,确保更丰富的上下文理解和规避偏见来解决这些挑战。本节阐明了这些开创性的方法,包括新的训练目标和消除暴露偏见的努力。
训练目标。为了解决LLMs训练中固有的局限性,即由于GPU内存约束和计算效率,文档级别的非结构化事实知识经常被分块,导致信息碎片化和不正确的实体关联,Lee等人(2022b)引入了一种事实增强的训练方法。通过给事实文档中的每个句子附加一个TOPICPREFIX,该方法将它们转换为独立的事实,显著减少了事实错误,增强了模型对事实关联的理解。同样,考虑到在预训练期间随机拼接较短的文档可能会导致模型输出不一致,Shi等人(2023c)提出了上下文预训练,这是一种创新的方法,LLMs在相关文档的序列上进行训练。通过改变文档顺序,该方法旨在最大化上下文窗口内的相似性。它明确地鼓励LLMs跨文档边界进行推理,潜在地增强了代之间的逻辑一致性。
暴露偏差。正如(Arora et al, 2022)所指出的那样,暴露偏差引起的幻觉与错误积累有着复杂的联系。Chen等人提出了几种方法(2020);Welleck et al (2020);Bertsch等人(2023)为了减轻暴露偏见,很少有研究与幻觉直接相关。为了弥补这一差距,Wang等人(2023b)在置换多任务学习框架中引入了中间序列作为监督信号,以减轻NMT领域移位场景中的虚假相关性。此外,通过采用最小贝叶斯风险解码(Shen et al ., 2016),它可以进一步减少与暴露偏见相关的幻觉。

5.2.2 减轻错位幻觉

校准过程中产生的幻觉通常源于能力偏差和信念偏差。然而,定义LLMs的知识边界被证明是具有挑战性的,这使得很难弥合法学硕士固有能力与人工注释数据中呈现的知识之间的差距。虽然针对能力偏差的研究有限,但重点主要转向了信念偏差。
源于信仰错位的幻觉通常表现为阿谀奉承,LLMs倾向于以不受欢迎的方式寻求人类的认可。这种阿谀奉承的行为可以归因于这样一个事实,即人类的偏好判断往往倾向于阿谀奉承的回应,而不是更真实的回应(Sharma et al, 2023),这为奖励黑客行为铺平了道路(Saunders et al, 2022)。为了解决这个问题,一个直接的策略是改进人类的偏好判断,进而改进偏好模型。近期研究(Bowman et al, 2022;Saunders等人,2022年)研究了LLMs的使用,以帮助人类标记者识别被忽视的缺陷。此外,Sharma等人(2023)发现,汇总多种人类偏好可以提高反馈质量,从而减少阿谀奉承。
此外,对LLMs内部激活的修改也显示出改变模型行为的潜力。这可以通过微调(Wei等人,2023)或推理期间的激活转向(Dathathri等人,2020;Subramani et al, 2022;Gu et al ., 2022b,c;Hernandez et al, 2023)。具体来说,Wei等人(2023)提出了一种综合数据干预,使用综合数据对语言模型进行微调,其中主张的基本事实独立于用户的意见,旨在减少阿谀奉承的倾向。
另一种研究方法(Rimsky, 2023b,a)是通过激活导向来减轻阿谀奉承。这种方法包括使用成对的阿谀/非阿谀提示来生成阿谀导向矢量,该矢量来自对中间激活的差异进行平均。在推理过程中,减去这个向量可以产生更少的谄媚的LLM输出

5.3 减轻推理相关幻觉

大型语言模型中的解码策略在决定生成内容的真实性和可信度方面起着至关重要的作用。然而,正如第3.3节所分析的那样,不完美的解码通常会导致输出可能缺乏事实性或偏离原始上下文。在本小节中,我们探讨了两种先进的策略,旨在改进解码策略,以提高LLMs输出的真实性和可信度。

5.3.1 事实增强解码

事实增强解码侧重于确保LLMs产生的信息的真实性。通过强调事实的准确性,该策略旨在产生严格遵循现实世界信息的输出,并抵制产生误导性或虚假陈述。
关于独立解码。考虑到采样过程中的随机性会将非事实内容引入开放式文本生成中,Lee等人(2022b)引入了事实核采样算法,该算法在整个句子生成过程中动态调整“核”p。通过根据衰减因子和下边界动态调整核概率,并在每个新句子的开头重新设置核概率,该解码策略在生成事实内容和保持输出多样性之间取得了平衡
此外,一些研究(Burns et al, 2022;Moschella et al, 2022)认为LLMs的激活空间包含与事实性相关的可解释结构。基于这个想法,Li等人(2023d)引入了推理时间干预(ITI)。该方法首先在与事实正确语句相关的激活空间中确定一个方向,然后在推理过程中沿着与事实相关的方向调整激活。通过反复应用这种干预,LLMs可以做出更真实的回应。
同样,Chuang等(2023)从事实知识存储的角度探讨了增强LLMs解码过程的真实性。他们利用转换LLMs中事实知识的分层编码,注意到较低级别的信息在较早的层中捕获,而语义信息在较晚的层中捕获。受Li等人(2022c)的启发,他们引入了DoLa,一种动态选择和对比来自不同层的logits以优化解码事实的策略。通过强调来自高层的知识,淡化来自低层的知识,DoLa展示了其使LLMs更加真实的潜力,从而减少了幻觉。
后编解码。与直接修改概率分布以防止在初始解码过程中出现幻觉的方法不同,后期编辑解码寻求利用LLMs的自我校正能力(Pan等人,2023)来改进原始生成的内容,而不依赖于外部知识库。Dhuliawala等人(2023)引入了验证链(COVE),它的运行假设是,当适当提示时,LLMs可以自我纠正错误并提供更准确的事实。从最初的草稿开始,它首先制定核查问题,然后系统地回答这些问题,以便最终产生改进的修订答复。同样,Ji等人(2023b)专注于医疗领域,并引入了一个迭代的自我反思过程。这个过程利用LLMs的固有能力,首先生成事实知识,然后改进响应,直到它与提供的背景知识一致。

5.3.2 信度增强解码

另一方面,“忠实增强解码”优先考虑与用户指令或提供的上下文保持一致,并强调增强生成内容的一致性。因此,在本节中,我们将现有的工作归纳为两类,包括上下文一致性和逻辑一致性。
上下文的一致性。优先考虑上下文一致性的解码策略旨在增强LLMs对用户指令和提供的上下文的忠实度。在LLMs时代之前,先前的研究广泛探索了上下文一致性的改进,主要是在抽象摘要和数据文本领域。Tian等人(2019)提出了自信解码,在解码过程中引入置信度分数来衡量模型对源的注意水平。当自信得分高时,他们会更多地强调来源,从而减轻由于缺乏上下文注意而产生的幻觉。van der Poel等人(2022)将解码目标转变为点互信息。这种方法鼓励模型优先考虑与源文档相关的令牌,特别是当模型不确定性上升时,旨在防止幻觉。与之前强调加强对来源的关注以增强上下文一致性的策略相反,Wan等人(2023)深入研究了更好地探索搜索空间是否可以提高忠诚度。通过使用自动忠实度指标对波束搜索生成的候选对象进行排名,并结合前馈启发式方法,为下一代分配忠实度分数,与现有的解码策略相比,他们在忠实度方面取得了显着改善。
然而,在LLMs时代,由于对环境关注不足而产生幻觉的问题仍然存在。Shi等人(2023b)提出了上下文感知解码(CAD),通过减少对先验知识的依赖来修改输出分布,从而促进模型对上下文信息的关注,类似于(van der Poel等人,2022)提出的方法。然而,由于多样性和归因之间的内在权衡(Gu et al, 2022a),过分强调上下文信息会降低多样性。对此,Chang等人(2023a)引入了一种创新的采样算法,在保持多样性的同时加强归因。这种方法涉及两个并行解码器,一个考虑源,另一个不考虑源,并使用它们的令牌分布之间的KL散度来动态调整温度以反映源属性。Lei等人(2023)探索了一种更通用的后期编辑框架,以减轻推理过程中的忠实幻觉。这种方法首先在句子和实体级别检测幻觉,然后利用这种检测反馈来改进生成的响应。此外,Choi等人(2023)引入了知识约束解码(KCD),该技术采用令牌级别的幻觉检测来识别幻觉,并通过重新权衡令牌分布来更好地估计未来的知识基础来指导生成过程。此外,考虑到softmax瓶颈限制了多样性和忠实表示的表达。一系列的工作探索了克服瓶颈的方法,通过混合Softmax,它使用多个隐藏状态多次计算Softmax并合并结果分布(Yang等人,2019)或使用指针网络使LLMs能够复制上下文词(Chang等人,2023b),进一步减少幻觉。
逻辑一致性。LLMs的逻辑一致性对于确保一致的反应和防止幻觉至关重要,特别是在多步骤推理过程中。为了增强思维链提示固有的自一致性,Wang等(2023f)采用了知识蒸馏框架。他们首先使用对比解码生成一致的基本原理(Li等人,2022c),然后用反事实推理目标对学生模型进行微调,这有效地消除了推理捷径(Branco等人,2021),这些捷径在不考虑基本原理的情况下得出答案。此外,通过直接使用对比解码,LLMs可以减少表面级复制并防止错过推理步骤(O 'Brien和Lewis, 2023)。

6 挑战和开放性问题

在本节中,我们将深入探讨LLMs中围绕幻觉的各种挑战和开放问题,旨在指导这一关键领域的未来方向。

6.1 LLM幻觉的挑战

在追求可靠和真实的LLMs的过程中,考虑到其固有的复杂性,解决幻觉是必不可少的。虽然在减轻LLM幻觉方面取得了重大进展,但仍存在显著的挑战。在此背景下,我们深入研究了这些挑战,强调了它们在长文本生成(§6.1.1)、检索增强生成(§6.1.2)和大型视觉语言模型(§6.1.3)等领域的表现。

6.1.1 长篇文本生成中的幻觉

长格式文本生成在LLMs中得到了广泛的应用(Qin et al ., 2023;Bhat等人,2023;Chen et al ., 2023b)。然而,随着生成内容的长度增加,产生幻觉的倾向也会增加,这给评估这种幻觉带来了挑战(Min et al, 2023)。首先,现有的LLMs幻觉基准(Lin et al, 2022;Cheng et al ., 2023)通常以事实性问答的形式呈现,更侧重于事实性幻觉。在长格式文本生成领域,明显缺乏手动注释的幻觉基准,这阻碍了研究人员在这种情况下研究特定类型的幻觉。其次,评估长格式文本生成中的幻觉是具有挑战性的。虽然有一些可用的评估指标(Min et al, 2023),但它们有局限性,当事实更加微妙、开放和有争议时,或者当知识来源存在冲突时,它们就不适用了。这给现实世界中的实际应用带来了障碍。

6.1.2 检索扩增代中的幻觉

检索增强生成(RAG)已成为减轻LLMs幻觉的一种有前途的策略。随着对LLMs幻觉的担忧日益加剧,RAG越来越受到关注,为一系列商业应用铺平了道路,如Perplexity2、YOU.com 3和New Bing 4。通过从外部知识库中检索证据,RAG使LLMs能够配备最新的知识,并根据相关证据产生反应。然而,尽管有这些优点,RAG也会产生幻觉。一个值得注意的问题是在RAG管道的错误积累的可能性。不相关的证据可能会传播到生成阶段,可能会污染输出(Li et al ., 2023a;Shi等人,20023a;Cho等,2023;Xu et al, 2023)。另一个问题在于生成检索领域,它偶尔会受到引文不准确的影响(Rashkin等人;Liu et al ., 2023f;Yue等,2023;Gao等人,2023a;Chen et al ., 2023a)。虽然引用的目的是为验证目的提供信息来源的可跟踪路径,但这个领域的错误可能会导致用户误入歧途。此外,现有的RAG可能会在多样性和事实性之间权衡(Liu et al ., 2023f),这对多样性的需求提出了新的挑战。

6.1.3 大视觉语言模型中的幻觉

大型视觉语言模型(Large Vision-Language Models, LVLMs)具有视觉感知能力,以及出色的语言理解和生成能力,表现出卓越的视觉语言能力(Zhu et al ., 2023a;刘等,2023;Yu et al ., 2021;黄等,2023b;Maaz等,2023;Chen et al ., 2023e;Yu等人,2023b;Zellers et al, 2019)。与之前从大规模视觉语言预训练数据集获得有限视觉语言能力的预训练多模态模型不同(Wang et al, 2022;Li et al ., 2009;Luo et al ., 2020;Zhong等人,2023a), LVLMs利用先进的大语言模型来更好地与人类和环境进行交互。因此,LVLMs的多样化应用也为维护此类系统的可靠性带来了新的挑战,因此必须进一步研究和缓解。
Li等人(2023e)、Lovenia等人(2023)迈出了评估LVLMs中客体幻觉的第一步。评估和实验表明,当前的LVLMs容易对关联图像产生不一致的响应,包括不存在的对象、错误的对象属性、不正确的语义关系等。Liu et al . (2023c), Zong et al . (2023c)和Liu et al . (2023b)表明,LVLMs很容易被愚弄,由于过度依赖强语言先验,以及防御不适当用户输入的能力较差,LVLMs的性能会严重下降。目前的评价和讨论主要集中在客体幻觉上。然而,尽管存在感知错误,即使在正确识别所有视觉元素时,LVLMs也会产生有缺陷的逻辑推理结果,这还有待进一步研究。
人们一直在努力构建一个更健壮的大型视觉语言模型。Gunjal等人(2023), Lu et al(2023)和Liu et al (2023c)建议进一步微调模型以产生更真实和有用的响应。另一项工作选择对生成的不一致内容进行事后纠正,例如(Zhou等人,2023b)和(Yin等人,2023)。虽然这些方法被证明是有效的,但通常需要额外的数据注释、视觉专家或训练阶段,这阻碍了lvlm有效地扩展和泛化到各个领域。因此,期望将来采取一种更普遍的办法来建立一个更可靠的系统。更重要的是,当呈现多个图像时,LVLMs有时会混淆或遗漏部分视觉上下文,并且无法理解它们之间的时间或逻辑联系,这可能会阻碍它们在许多场景中的使用,然而正确识别这种混乱的原因并解决它们仍然需要持续的努力。

6.2 LLMs幻觉中的开放性问题

随着LLMs幻觉研究的进展,有几个问题需要持续讨论。这些包括LLMs自我纠正机制在减少幻觉方面的有效性(§6.2.1),LLMs对知识边界的理解(§6.2.2),以及他们的创造力和真实性之间的平衡(§6.2.3)。深入研究这些开放的问题,为更深刻地理解LLMs的能力和幻觉的复杂性铺平了道路。

6.2.1 自我纠正机制是否有助于减轻推理幻觉?

虽然LLMs在通过思维链提示处理复杂推理任务方面表现出了非凡的能力(Wei等人,2022),但他们偶尔会表现出不忠实的推理,其特征是推理步骤内的不一致或结论在逻辑上不遵循推理链(Golovneva等人,2022;Ribeiro等,2023;Lyu et al, 2023)。研究表明,将外部反馈整合到LLMs中可以显著减轻推理中的这种幻觉。这种反馈通常通过检索过程来自外部知识来源(He et al, 2023;Gou等人,2023),与其他LLMs进行互动辩论(Du等人,2023;Cohen et al, 2023);或来自外部评估指标的指导(Lei et al, 2023;Khalifa et al, 2023)。
尽管如此,研究的一个分支(Madaan et al, 2023;Yao等,2023b;Xie等人,2023)探索了自我纠正机制的潜力,其中LLM使用其内置功能来纠正其初始响应,独立于外部反馈。虽然自我纠正已经显示出实现忠实和准确推理的希望,特别是在迭代设置中,但某些研究(Stechly等人,2023;黄等,20023a;Valmeekam et al, 2023)质疑自我纠正机制的有效性,指出LLMs仍然难以自我纠正其推理链。因此,自我纠正机制在减轻推理幻觉中的有效性仍然是一个悬而未决的问题,值得进一步探索。

6.2.2 LLMs知识边界能否准确捕获?

尽管LLMs从广泛的数据中获取事实知识的能力令人印象深刻,但在认识自己的知识边界方面仍然面临挑战。这种不足导致了幻觉的发生,LLMs自信地制造谎言,而没有意识到自己的知识局限(Pacchiardi等人,2023;Ren et al ., 2023;Zhao et al ., 2023c)。许多研究都在探索法LLMs的知识边界,利用诸如评估多项选择设置中正确回答的概率(Kadavath等人,2022)等策略,或者通过评估具有不确定含义的句子集之间的相似性来量化模型的输出不确定性
此外,一系列工作(Moschella等人,2022;Burns等人,2022;Li et al ., 2023;Azaria和Mitchell, 2023)揭示了LLMs在其激活空间中包含与真实性信念相关的潜在结构。最近的研究(Slobodkin et al, 2023)也发现了大量证据,证明LLMs有能力对问题的不可回答性进行编码,尽管这些模型在面对无法回答的问题时表现出过度自信并产生幻觉。尽管如此,Levinstein和Herrmann(2023)已经使用实证和概念工具来探究LLMs是否有信仰。他们的实证结果表明,目前LLMs的测谎方法尚不完全可靠,(Burns等人,2022)和(Azaria和Mitchell, 2023)提出的探测方法没有充分概括。因此,我们能否有效地探究LLMs的内在信念还有待进一步研究。

6.2.3 如何在创造性和真实性之间取得平衡?

在发展真实可靠的LLMs的过程中,平衡创造力和事实性的挑战是一个重要的问题(Mukherjee和Chang, 2023;李,2023)。确保真实性对于LLMs的实际应用至关重要;任何不准确都可能误导用户,污染网络环境。这种错误信息的影响可能是巨大的,可能会滚雪球并级联到后续LLM巡考所使用的数据中。相反,幻觉有时可以提供有价值的观点,特别是在创造性的努力中,如讲故事、头脑风暴和产生超越传统思维的解决方案。
虽然目前对LLMs的研究很大程度上倾向于减少幻觉,但它往往忽视了他们创造能力的重要作用。随着LLMs的不断发展,在他们的创造力和事实准确性之间取得平衡的挑战仍然没有解决。同样有趣的是,不仅在多模态文本生成任务中探索平衡(Li et al ., 2023b;Yu et al ., 2021),也用于视觉生成任务(Zhang et al ., 2023b;Rombach et al, 2022)。这个问题不仅仅是技术性的,它需要更广泛地思考人工智能的本质及其对人类互动和知识交流的影响。

7 结论

在这项综合调查中,我们在大型语言模型中对幻觉进行了深入研究,深入研究了其潜在原因的复杂性,开拓了检测方法以及相关基准,并制定了有效的缓解策略。尽管已经取得了重大进展,但大型语言模型中的幻觉难题仍然是一个令人信服和持续关注的问题,需要持续的研究。此外,我们设想这项调查将成为致力于推进安全和值得信赖的人工智能的研究人员的指路明灯。通过驾驭幻觉的复杂景观,我们希望赋予这些敬业的人宝贵的见解,推动人工智能技术朝着更高的可靠性和安全性发展。

参考资料

论文下载

https://arxiv.org/abs/2311.05232
image.png

电子资料

https://github.com/LuckyyySTA/Awesome-LLM-hallucination

  • 26
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十有久诚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值