大基础模型的幻觉问题：综述

最新推荐文章于 2024-12-10 17:59:06 发布

三谷秋水

最新推荐文章于 2024-12-10 17:59:06 发布

阅读量1.3k

点赞数 17

分类专栏：大模型机器学习文章标签：人工智能深度学习机器学习语言模型

本文链接：https://blog.csdn.net/yorkhunter/article/details/139133954

版权

大模型同时被 2 个专栏收录

716 篇文章

订阅专栏

机器学习

524 篇文章

订阅专栏

23年9月份来自南卡大学的AI研究所的论文“A Survey of Hallucination in “Large” Foundation Models“。

基础模型（FM）中的幻觉是指偏离事实情况或包含捏造的信息。本文综述广泛概述了最近旨在识别、阐明和解决幻觉问题的努力，特别关注“大型”基础模型（LFM）。该论文对LFM特有的各种幻觉现象进行了分类，并建立了评估幻觉程度的标准。还审查了减轻LFM中幻觉的现有策略，提出该领域未来研究的潜在方向。从本质上讲，本文对LFM中与幻觉相关的挑战和解决方案进行了全面的研究。

基础模型中的幻觉，是指模型产生的条件不是基于事实或准确的信息。当模型产生的文本，不是提供可靠和真实的信息，而包含了虚构、误导或完全捏造的细节、事实或主张，就会发生幻觉。

出现此问题的原因是，模型根据从训练数据中学习的模式，生成听起来合理的文本，即使生成的内容与现实不一致。幻觉可能是无意的，也可能由各种因素引起，包括训练数据中的偏差，模型无法访问实时或最新的信息，或者是模型在理解和生成上下文准确响应方面的固有局限性。

解决基础模型和LLM中的幻觉至关重要，尤其是在事实准确性至关重要的应用中，例如日报、医疗保健和法律背景。研究人员和开发人员正在积极研究减轻幻觉并提高模型可靠性和可信度的技术。

添加图片注释，不超过 140 字（可选）

先说大语言模型的幻觉。

LLM

SELFCHECKGPT（Manakul 2023 ）是一种在生成 LLM 中进行零资源黑盒幻觉检测的方法。该技术侧重于识别这些模型在不依赖额外资源或标记数据的情况下生成不准确或未经验证信息的实例。它旨在提供一种无需外部指导或任何数据集即可检测和解决幻觉的机制，提高LLM的可信度和可靠性。

LLM中的自相矛盾幻觉在（Mündler2023）中进行了探索，并通过评估、检测和缓解的技术来解决这些问题。这个指的是LLM生成自相矛盾的文本，导致不可靠或无意义输出的情况。这项工作提出评估此类幻觉发生的方法，在LLM生成的文本中检测并减轻其影响，提高LLM生成内容的整体质量和可信度。

PURR（Chen 2023 ）是一种旨在有效编辑和纠正语言模型中幻觉的方法。PURR利用语言模型污染的去噪来有效地识别和纠正这些幻觉。这种方法旨在通过减少幻觉内容的流行来提高语言模型输出的质量和准确性。

幻觉数据集：幻觉，与语言模式（LMs）的知识差距密切相关。然而，（Zhang2023a）提出了一个假设，即在某些情况下，当语言模型试图合理化先前产生的幻觉时，可能会产生虚假陈述，这些可以独立地被识别为不准确。因此，他们创建了三个问答数据集，其中 ChatGPT 和 GPT-4 经常提供不正确的答案，并附有至少包含一个错误断言的解释。HaluEval（Li2023b）是一个综合基准集，旨在评估LLM中的幻觉。作为一种工具，其可以系统地分析LLM在各种领域和语言出现幻觉方面的表现，帮助研究者和开发人员衡量和提高这些模型的可靠性。

使用外部知识缓解幻觉：通过交互地使问题知识对齐，（Zhang2023b）提出了一种减轻语言模型幻觉的方法。他们提出的方法侧重于将生成的文本与相关事实知识对齐，使用户能够交互式地指导模型的响应，产生更准确和可靠的信息。该技术旨在让用户参与对齐过程来提高语言模型输出的质量和真实性。LLM-AUGMENTER（Peng2023）使用外部知识和自动反馈改进LLM。其强调解决LLM生成内容中的局限性和发现潜在事实错误的必要性。这种方法涉及结合外部知识来源和自动反馈机制，提高LLM输出的准确性和可靠性。

本文旨在减少事实不准确性，并提高LLM生成文本的整体质量。同样（Li2023d）引入了一个名为“知识链”的框架，用于将LLM与结构化知识库联系起来。接地实施（grounding）是指将LLM生成的文本与结构化知识联系起来以提高事实准确性和可靠性的过程。该框架采用分层方法，将多个知识来源链接在一起，提供背景并增强对LLM的理解。这种方法旨在提高LLM生成内容与结构化知识的一致性，降低产生不准确或幻觉信息的风险。

与较大LLM相比，参数较少的开源LLM通常会经历明显的幻觉（Elaraby2023）。这项工作的重点是评估和减轻BLOOM 7B中的幻觉，代表了用于研究和商业应用的较弱开源LLM。他们介绍了HALOCHECK，一个轻量级的无知识框架，旨在评估LLM的幻觉程度。此外，它还探索了知识注入方法和教师-学生方法等，减小在少参数LLM中的幻觉问题。

此外，与LLM相关的风险可以通过与Web系统相提来减轻（Huang和Chang，2023）。它强调了LLM中缺乏“引用”这一关键要素，这可以提高内容的透明度和可验证性，并解决知识产权和道德问题。

使用提示技术来缓解幻觉：“去幻觉”是指减少LLM产生不准确或幻觉的信息。使用迭代提示指导的形式方法消除幻觉LLMs（Jha2023）。他们采用形式化的方法通过迭代提示来指导生成过程，旨在提高LLM输出的准确性和可靠性。这种方法想减轻幻觉问题并增强LLM生成内容的可信度。

多语种LLM

大型多语言机器翻译系统在直接翻译多种语言方面表现出印象深刻的能力，对实际应用具有吸引力。无论如何，这些模型都会产生幻觉的翻译，这在部署时会带来信任和安全问题。现有的幻觉研究主要集中在高资源语言的小型双语模型上，在理解不同翻译场景中的大规模多语言模型幻觉方面存在空白。

为了弥补这一差距，（Pfeiffer 2023 ）对传统神经机器翻译模型的 M2M 系列和 ChatGPT（一种可以提示翻译的多功能 LLM）进行了全面分析。这个调查覆盖了广泛的条件，包括 100 多个翻译方向、各种资源级别以及以英语为中心的语言对的各种语言。

特定领域的LLM

医学、银行、金融、法律和临床等关键任务领域的幻觉是指产生或感知虚假或不准确信息的情况，可能导致严重后果。在这些部门，可靠性和准确性至关重要，任何形式的幻觉，无论是在数据、分析还是决策中，都可能对结果和运营产生重大和有害的影响。因此，强有力的措施和系统，对于最大限度地减少和预防这些高风险领域的幻觉，至关重要。

医学：LLM中的幻觉问题，特别是在医学领域，产生合理但不准确的信息可能是有害的。为了解决这个问题，（Umapathi 2023 ）引入了一个名为 Med-HALT（医学领域幻觉测试）的新基准和数据集。它专门设计用于评估并减轻LLM中的幻觉。其包括一个来自不同国家的医学检查多国数据集，并包括创新的测试方法。Med-HALT由两类测试组成：推理和基于记忆的幻觉测试，旨在评估LLM在医疗环境中解决问题和信息检索的能力。

法律：ChatLaw（Cui 2023 ）是一个专门用于法律领域的开源LLM。为了确保高质量的数据，作者创建了一个精心设计的法律领域微调数据集。为了解决法律数据筛选过程中的模型幻觉问题，他们提出了一种矢量数据库检索与关键字检索相结合的方法。这种方法，有效地减少了在法律背景下仅依靠矢量数据库检索做参考数据检索可能出现的不准确性。

再说大图像模型的幻觉。

采用Siamese结构的对比学习模型（Wu2023）在自监督学习中表现出色。它们的成功取决于两个关键条件：存在足够数量的正数据对和其中存在的足够变化。如果不满足这些条件，这些框架可能缺乏有意义的语义区别，并且容易过拟合。为了应对这些挑战，作者推出了幻觉器（Hallucinator），可以有效地生成额外的正样本以增强对比度。幻觉器是不同的，在特征空间中运行，适合在预训练任务中直接优化，并且产生最小的计算开销。

受LLM启发，为复杂的多模态任务增强大规模视觉语言模型（LVLM）的努力面临着一个重大挑战：目标幻觉，即LVLM在描述中生成不一致的目标。这项研究（Li2023e）系统地调查了LVLM中的目标幻觉，并发现这是一个常见问题。视觉指令，尤其是频繁发生或同时发生的目标，会影响此问题。现有的评估方法也受到输入指令和LVLM生成方式的影响。为了解决这个问题，该研究引入了一种称为POPE的改进评估方法，为LVLM中的目标幻觉提供了更稳定和灵活的评估。

指令微调的大视觉语言模型（LVLM）在处理各种多模态任务方面取得了重大进展，包括视觉问答（VQA）。然而，对于这些模型来说，生成详细且视觉上准确的响应仍然是一个挑战。即使是像InstructBLIP这样最先进的LVLM也表现出很高的幻觉文本发生率，包括30%不存在的目标，不准确的描述，和错误的关系。为了解决这个问题，该研究（Gunjal 2023 ）引入了 MHalDetect1，一种多模态幻觉检测数据集，旨在训练和评估去检测和预防幻觉的模型。MHalDetect包含16,000个关于VQA示例的精细详细注释，使其成为第一个用于检测详细图像描述中发生幻觉的综合数据集。

还有大视频模型的幻觉。

（Kulal 2023 ）引入一种生动方式将人物插入场景，解决在理解场景可见性面临的挑战。用具有标记区域的场景图像和人物图像，该模型在考虑场景特征的同时将人物无缝集成到场景中。该模型能够根据场景上下文推断出逼真的姿势，相应地调整人物的姿势，并确保视觉上令人愉悦的构图。自监督训练使模型能够在尊重场景上下文的同时生成各种合理的姿势。此外，该模型还可以自行生成生动的人物和场景，从而实现交互式编辑。

VideoChat（Li2023c）是一个以聊天为导向的方法来理解视频的综合系统。VideoChat用适应神经接口将基础大视频模型与LLM相结合，展示了在理解空间、时间、事件定位和推断因果关系等方面的卓越能力。为了有效地微调该系统，他们引入了一个专门为基于视频指令而设计的数据集，其中包括数千个视频，并附有详细的描述和对话。该数据集强调时空推理和因果关系等技能，使其成为训练面向聊天视频理解系统的宝贵资源。

视频修复的最新进展值得注意（Yu 2023 ），尤其是在光流等显式引导下，可以帮助跨帧传播缺失像素。然而，当缺乏跨帧信息时，就会出现挑战，从而带来不足。因此，模型不是从其他帧借用像素，而是专注于解决相反的问题。这项工作引入了一种双模态兼容的修复框架，称为缺陷-觉察掩码Transformer（DMT）。预训练图像修复模型作为训练视频模型的先验，在信息不足情况下，改进其处理仍然具有优势。
视频字幕旨在使用自然语言描述视频事件，但通常会引入降低文本质量的虚假错误。虽然在文本-到-文本的任务中对一致性进行了广泛的研究，但在基于视觉的文本生成中，受到的关注较少。在这项研究中（Liu&Wan2023），作者对视频字幕中的事实性进行了彻底的人工评估，发现57.0%的模型生成的情感包含事实错误。现有的评估指标主要基于 n -语法匹配（n-gram matching），与人工评估不太一致。为了解决这个问题，他们引入了一个基于模型的事实性指标，名为FactVC，在评估视频字幕中的事实性方面优于以前的指标。

另外在音频大模型的幻觉。

自动音乐字幕，是为音乐曲目生成文本描述，有可能加强大量音乐数据的组织性。然而，由于现有音乐语言数据集的规模有限且收集过程昂贵，研究人员遇到了不小的挑战。为了解决这种稀缺性，（Doh 2023 ）使用 LLM 从广泛的标签数据集中生成描述。他们创建了一个名为LP-MusicCaps的数据集，包括大约220万个字幕和50万个音频剪辑。他们还用各种定量自然语言处理指标和人工评估对这个大规模的音乐字幕数据集进行了全面评估。他们在这个数据集上训练了一个基于Transformer的音乐字幕模型，并评估了其在零样本和迁移学习场景中的性能。

理想情况下，视频应该增强音频，并且在（Li2023a）中，他们用了一种高级语言模型进行数据增强，无需人工标签。此外，他们利用音频编码模型有效地微调预训练的文本-到-图像生成模型，这样可以进行文本-到-音频生成。