Efficient Knowledge Infusion via KG-LLM Alignment-CSDN博客

本文链接：https://blog.csdn.net/weixin_43961909/article/details/142681014

文章目录

- 题目
- 摘要
- 引言
- 相关作品
- 方法论
- 实验设置和结果
- 分析
- 结论
- 局限性
- 附录

题目

通过KG-LLM比对实现高效的知识注入
在这里插入图片描述

论文地址：https://aclanthology.org/2024.findings-acl.176.pdf

摘要

为了解决大型语言模型中特定领域知识匮乏的问题，知识图检索扩充方法被证明是一种有效的知识注入技术。然而，现有方法面临两个主要挑战:公共可用知识图和手头任务的特定领域之间的知识不匹配，以及LLM与知识图的信息一致性差。在本文中，我们利用一个小的标注样本集和一个大规模的语料库，通过LLM有效地构建特定领域的知识图，解决知识不匹配的问题。此外，我们提出了一个三阶段的KG-LLM对齐策略，以增强LLM利用知识图信息的能力。我们在两个生物医学问答数据集上进行了有限样本的实验，结果表明我们的方法优于现有的基线。

引言

大型语言模型(LLM)的最新进展，如ChatGPT，在通用内容创建方面展示了令人印象深刻的能力(OpenAI，2022；Touvron等人，2023年)。然而，他们在特定领域应用的熟练程度，特别是在医学领域，明显受到知识不足的限制(鲍等人，2023；张等，2023；韩等，2023b)。为了提高LLMs的特定领域性能，知识注入的主要策略包括两种主要方法:对特定领域语料库的持续预训练和检索增强方法，这涉及到将外部信息集成到模型中。

与持续的预训练相比，检索增强方法在以下领域越来越受欢迎知识密集型场景，因为其成本效率和增强的可追溯性(Lewis等人，2020；兰等，2023)。一些检索增强方法涉及通过监督微调将LLM与专业文献、新闻文章和表格等资源直接集成(Borgeaud等人，2022；胡等，2023)。然而，模型所需的知识可能分散在大量的数据中，直接从原始数据实例中检索将不可避免地引入噪声，从而妨碍模型有效地利用这些信息。为了缓解这一问题，利用结构化知识，特别是知识图(KGs)，是一种有效的方法(Moiseev等人，2022；拉纳德和乔希，2024；王等，2023)。然而，现有的KG检索增强方法仍然遇到两个主要挑战。

第一个挑战与知识错配有关。虽然许多现有的策略利用公开可用的KG来进行知识注入，但是特定领域任务所需的知识通常具有高度专业化的性质，这导致KG很可能不覆盖所有必需的信息，或者甚至可能存在缺口。第二个挑战是信息法规遵从性差。KGs中三元组的结构化格式偏离了自然语言的自由流动格式(李等，2021；Ke等人，2021)和目标文本往往包括额外的信息，没有发现在三元组。这种差异会导致LLMs内部的混乱，这可能导致来自训练模型的输出与来自KG的信息不一致，特别是在缺乏监督样本的情况下。

在这项工作中，我们通过LLMs有效地构建了一个基于语料库的特定领域知识图，并开发了一种知识注入方法来增强LLMs利用图信息的能力，使它们能够生成全面的，合乎逻辑的低幻觉反应。首先，我们使用少量的标记数据训练一个基于LLM的知识抽取模型。然后，我们得到一个领域知识图，通过在无监督的特定领域语料库上执行抽取并通过简单的后处理减少结果中的错误来解决知识不匹配。随后，我们提出了一个新的三阶段KG-LLM比对框架来优化LLM对KG内容的利用。

该框架由以下阶段组成:在初始的预学习阶段，我们从前面提到的提取结果中合成大量三元组到文本生成任务示例。然后，我们训练一个低阶适配器(LoRA)(胡等，2022)，命名为K-LoRA，以吸收KG灌输的过程，并获得在特定领域的语言模态的熟练程度。后续阶段涉及监督微调。对于训练集中的每个问答对，我们基于问题检索知识图，将结果子图连接到输入中，并继续训练附加的LoRA。该过程旨在细化模型的输出，使其符合给定任务的特定需求。最后一个阶段是与知识图反馈(AKGF)保持一致。在这个阶段，我们从生成的响应中提取知识三元组，并与KG进行比较，以提供关于知识正确性的评估性反馈。该反馈作为进一步微调模型的基础，以实现更全面、更符合逻辑和更少幻觉的内容。

为了模拟缺乏专门注释的现实环境，我们在基于两个公共生物医学问答数据集BioASQ (Nentidis等人，2022年)和CMedQA(崔和韩，2020年)构建的有限样本数据集上进行实验。综上所述，我们的主要贡献如下:1)我们提出了一个模块化的知识注入框架。基于高效构建的KG，我们的方法通过轻量级参数调整使LLM与KG一致，解决了知识不匹配和信息遵从性差的问题。实验结果表明，我们的方法明显优于基线。
我们引入了两种创新策略，即“预学习”和“AKGF ”,旨在加强知识管理和逻辑管理之间的联系。在预学习中，我们证明了三元组转文本任务可以作为一种简单有效的知识注入策略。在AKGF中，我们说明了KGs可以作为生成的响应的知识正确性的自动评估者。