给我们事实：通过知识图谱增强大型语言模型，实现事实感知的语言建模。(TKDE)-CSDN博客

本文链接：https://blog.csdn.net/weixin_51514032/article/details/146425540

发表在 IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 2024

基本信息

原英文标题： Give us the Facts: Enhancing Large Language Models With Knowledge Graphs for Fact-Aware Language Modeling

关键词： 大型语言模型，知识图谱，ChatGPT，知识推理，知识管理。

LLM具有增强知识提取准确度和改进知识图谱质量的能力，而知识图谱可以利用明确的知识来指导LLM的训练，提高它们回忆和应用知识的能力。

一、背景

1. PLMs（pre-trained language models）背景

plm是一种在大型语料库上通过无监督学习获得的语言模型。它们能够捕捉语言的结构和特征，并为单词生成通用表示。在预训练之后，可以针对特定的下游任务(如文本摘要、文本分类和文本生成)对plm进行微调。

只有编码器的框架利用双向转换器根据输入句子恢复被屏蔽的令牌，从而有效地利用上下文信息来学习更好的文本表示。然而，由于缺乏解码器，它不能直接应用于文本生成任务。
只有解码器的框架利用单向转换器以自回归的方式预测标记，使其适合文本生成任务。仅解码器框架不能利用上下文信息，不能很好地推广到其他任务。
编码器-解码器框架构建一个序列到序列模型，以基于带有掩码令牌的历史上下文预测当前令牌。该框架擅长于需要根据给定输入生成输出的任务，但与其他两个框架相比，其编码和解码速度较慢。

在这里插入图片描述
现有plm的主要框架，其中xi为输入句子的第i个令牌，[M]为掩码令牌，[S]为起始令牌。

在这里插入图片描述
大型语言模型的里程碑。开源模型用实心方块表示，闭源模型用空心方块表示

2. LLM优势（对比小型PLM）

零样本学习: 大型语言模型在大多数任务上优于其他具有零样本学习学习的模型，甚至在某些任务上优于微调模型。
上下文学习: 上下文学习(ICL)是一种范式，允许大型语言模型以演示的形式从几个实例中学习任务
逐步推理: 通过利用思维链提示策略，大型语言模型可以成功地完成一些复杂的任务，包括算术推理、常识推理和符号推理。
指令跟随: 指令调优是一种独特的调优方法，可以在一组自然语言格式的实例上对大型语言模型进行调优。通过这种方法，大型语言模型能够在不依赖显式示例的情况下，通过自然语言指令描述的以前未见过的任务上表现良好。
人类定位: 通过RLHF技术，大型语言模型可以被训练成产生高质量、无害的反应，这些反应与人类价值观一致，这涉及到使用精心设计的标签策略将人类纳入训练循环。RLHF包括三个步骤:
- 1)收集由输入提示和目标输出组成的标记数据集，以监督的方式微调大型语言模型;
- 2)在集合数据上训练奖励模型，
- 3)通过将其优化表述为强化学习问题来优化大型语言模型。
工具操作: 传统plm是在纯文本数据上进行训练的，这限制了它们解决非文本任务的能力。此外，他们的能力受到预训练语料库的限制，无法有效地解决需要实时知识的任务。为了应对这些限制，最近开发的大型语言模型具有操纵外部工具(如搜索引擎、计算器和编译器)的能力，以提高它们在特定领域的性能

3. LLM的挑战

非结构化生成： 大型语言模型通常依靠自然语言提示或指令在特定条件下生成文本。这种机制对根据细粒度或结构标准精确约束生成的输出提出了挑战。
- KGs提供结构化摘要，并强调相关概念的相关性，从而增强结构化文本生成的过程。
幻觉: 在生成事实或知识基础的文本时，大型语言模型可能会产生与现有来源相矛盾或缺乏支持证据的内容。这种挑战在现有的大型语言模型中广泛存在，被称为幻觉问题，
- KGs提供结构化和明确的知识表示，这些知识可以动态地加入到大型语言模型中，从而产生更多的事实依据和减少幻觉。
大型语言模型的预训练过程有助于他们记忆事实，但它未能灌输他们概括观察到的事实的能力，导致推理能力差。
- 通过在大型语言模型推理中引入外部KGs来部分解决。通过交互地探索KGs上的相关实体和关系，并基于检索到的知识进行推理，llms可以具有更好的知识可追溯性和知识可纠正性。
有限的推理能力: 当提供问答示例时，大型语言模型在一些基本的逻辑推理任务上表现不错。然而，他们在需要理解和利用支持证据得出结论的能力的任务中表现不佳。
- KGs明确地捕获了概念之间的关系，这对推理至关重要，可以用来增强具有结构推理能力的大型语言模型。
领域知识不足: 由于领域特定语料库的可用性有限，大型语言模型在领域特定任务上的表现可能不如一般任务好。
- 领域知识库是有效的、标准化的特定领域知识库，为统一的领域知识提供了可行的来源。
知识过时: 大型语言模型在先前的文本上进行预训练，从而限制了他们学习训练语料库之外的能力。这通常会导致在处理需要最新知识的任务时性能不佳。
- KGs提供了一个更直接的更新过程，不需要额外的训练。更新的知识可以以提示的形式纳入输入，大型语言模型随后利用这些提示生成准确的响应。
偏见、隐私和毒性: 虽然大型语言模型受过训练，符合人类的期望，但他们有时会产生有害的、完全偏见的、冒犯性的和私人的内容。
- KGs通常由权威和可靠的数据源构建，能够生成符合人类价值观的高质量训练数据，这有望提高大型语言模型的安全性和可靠性。
计算密集型: 训练大型语言模型的计算成本很高，训练过程通常需要数千个gpu和几个星期才能完成。此外，大型语言模型非常需要计算和数据，这使得它们很难部署。
- 通过集成KGs，小型大型语言模型有可能优于大型llm，从而降低与llm部署和应用相关的成本
解释性不足： 解释性指的是人类能够轻松理解模型预测的能力，这是评估模型可信度的关键指标。LLMs被广泛认为是黑匣子，其决策过程不透明，因此很难解释。
- 知识图可以被用来理解LLMs学到的知识和解释LLMs的推理过程，从而增强LLMs的解释性。

二、KGPLMS（knowledge graph enhanced pre-trained language models）

在这里插入图片描述
根据知识图谱参与预训练的阶段划分了三种类型的kgplm。

1. 训练前增强KGPLMs

将知识库中的知识集成到plm中存在两个挑战:异构嵌入空间和知识噪声。第一个挑战来自文本和KG之间的异质性。第二个挑战发生在不相关的知识使句子偏离其正确含义的时候。训练前增强方法通过将文本和KG三元组统一为相同的输入格式来解决这些问题
在这里插入图片描述
训练前增强KGPLMs的主要框架。

a. 扩展输入结构：

将输入文本扩展成图结构，合并KGs的结构化知识，然后将合并后的图转换成文本进行plm训练。

b. 丰富输入信息：：

将实体嵌入与文本嵌入相结合，将实体作为辅助信息，而不是合并文本和kg的数据。

c. 生成新数据：

通过生成基于kgs的人工文本将知识注入到plm中

d. 优化自掩码：

随机掩蔽方法可能会破坏连续单词之间的相关性，给plm学习语义信息带来困难。
为了解决这一问题，一些研究提出用知识屏蔽策略取代随机屏蔽策略，该策略根据KGs的知识选择屏蔽目标，迫使模型学习足够的知识来准确预测被屏蔽的内容。

优点

训练前增强方法可以提高语料库的语义标准化和结构水平，这有助于在不增加模型大小和训练时间的情况下提高plm的推理能力
KGs增强的训练数据可以更好地描述常识知识，有助于提高大型语言模型的常识知识建模能力。
这些方法更适用于没有足够训练语料库的领域，可以有效地提高机器学习在这些领域的性能和泛化能力。

缺点

训练前增强处理需要额外的计算资源和时间，使得预训练过程更加复杂和繁琐。
可能会引入噪声，对大型语言模型的训练产生负面影响。

2. 训练间增强KGPLMs

训练期间增强方法通过改进编码器和训练任务，使PLMs能够在训练期间直接学习知识。由于纯plm不能同时处理文本序列和结构化KG，一些研究提出加入知识编码器或外部知识模块，以同时从文本和KG中学习。

在这里插入图片描述
在训练期间增强KGPLM的主要框架。

a. 合并知识编码器：

QA- gnn使用plm来估计节点的重要性，从大型KG中识别相关知识，并将QA上下文与KG结合形成联合图。然后，通过基于图的消息传递相互更新QA上下文和KG的表示，进行联合推理。
KLMo使用一种新的知识聚合器显式地模拟了文本中的实体跨度与上下文KG中的所有实体和关系之间的交互。

b. 插入知识编码层：

在plm中间插入额外的知识编码层或调整编码机制以使plm能够处理知识。
KnowBERT集成了一个知识关注重新语境化模块，将多个kg集成到一个PLM中。它显式地对输入文本中的实体跨进行建模，并使用实体链接器从KG检索相关的实体嵌入。然后利用这些检索到的嵌入来创建知识增强的实体-跨嵌入。

c. 添加独立适配器：

在过程知识中添加独立适配器，这样易于训练，并且训练过程不影响原PLM的参数。
DAKI-ALBERT提出了针对特定领域知识来源的预训练知识适配器，并通过基于注意力的知识控制器对它们进行集成，以丰富知识增强plm。

d. 修改预训练任务：

通过修改预训练任务将知识整合到plm中。最常用的方法是将掩码语言建模MLM改为基于文本中标记的实体的掩码实体建模(MEM)。

其他方法：

利用多任务学习机制将知识表示学习与plm的训练相结合，同时优化知识表示和模型参数。
DRAGON使用跨模态编码器，该编码器在文本令牌和KG节点之间双向交换信息以产生融合表示，并通过统一两个自监督推理任务:MLM和KG链路预测来训练该编码器。

优点

在训练过程中，增强方法可以在学习参数的同时自适应地吸收外部知识，通常可以提高各种下游任务的性能。
允许通过引入特殊信息或模块来定制特定的域或任务。
训练期间增强方法更适合那些需要处理多个复杂任务的场景，并且它们通常比其他方法在基于知识的任务上表现得更好。

缺点

可能会增加训练时间，因为它们通常会提高参数大小，并且可能受到训练数据中包含的知识范围的限制。
由于结构更复杂，参数更多，大型语言模型更容易出现过拟合，需要更多的训练来保持泛化。

3. 训练后提升KGPLMs

训练后增强方法通常通过在附加数据和任务上对plms进行微调，从而将特定领域的知识注入到plms中，从而提高模型在特定领域任务上的性能。

在这里插入图片描述
训练后增强KGPLMs的主要框架。

a. 带知识的微调plm:

KALA用领域知识调制plm的中间隐藏表示，这在很大程度上优于自适应预训练模型，同时仍然具有计算效率。
KeBioSum研究了生成和判别训练技术的整合，将知识融合到知识适配器中。它应用适配器融合将这些知识适配器有效地合并到plm中，以微调生物医学文本摘要任务。

a. 生成基于知识的提示:

KP-PLM从KGs中为每个上下文构建知识子图，并采用多个连续提示规则将知识子图转化为自然语言提示。此外，它还利用两种新颖的知识感知自监督任务:提示相关性检查和屏蔽提示建模来优化模型。

优点

培训后增强方法成本低，易于实施，可以有效提高大型语言模型在特定任务上的表现。
这些方法可以指导大型语言模型生成特定风格的文本，提高模型输出的质量和安全性。
训练后增强方法更适用于需要敏感信息过滤和风险控制的特定领域任务和文本生成场景。

缺点

微调数据的标注和提示符的设计依赖于先验知识和外部资源。如果缺乏相关的先验知识，优化效果可能会受到限制。
这些方法可能会对大型语言模型代的灵活性造成一定的限制。生成的文本可能受到提示的限制，可能无法完全自由地创建。

4. kgplms的有效性和效率

kgplms模型在所有任务上的表现都高于BERT，说明kg增强了他们的知识建模能力。
随着外部知识的整合，kgplm更容易被训练并获得更高的效率。

三、 KGPLMs的应用

kgplm在获取事实和关系信息方面优于传统plm，表现出更强的语言理解和生成能力。这些优势提高了一系列下游应用程序的性能。

在这里插入图片描述
kgplm实现各种应用的框架。

a. 命名实体识别:

命名实体识别(NER)旨在从文本中识别具有特定含义的实体，如人名、地名、组织名称等。plm模型被训练来预测标记之间的相关性，忽略了它们背后的潜在含义和由多个标记组成的实体的完整语义。
NER被视为知识密集型任务，并通过将外部知识纳入plm来提高plm的NER效果。
研究人员已经为NER开发了kgplm，它可以利用训练语料库之外的额外信息来获得更好的性能，特别是在训练样本通常不足的特定领域任务中。

b. 关系抽取:

关系抽取包括区分实体之间的语义关系，并将它们分类为预定义的关系类型。
plm应用于小规模和特定领域的文本时，仍然缺乏信息学习。
为了解决这一限制，一些研究建议将kg的先验知识注入plm。在关系提取方面，kgplm已被证明比普通plm更有效。

c. 情感分析:

情感分析的目的是分析文本中表达的情感是积极的、消极的还是中性的。
目前的PLMs侧重于通过自我监督技术获取语义信息，在整个预训练过程中忽略了与情感相关的知识。
通过将不同类型的情感知识整合到预训练过程中，学习到的语义表示将更加合适。因此，一些kgplm已经被应用于情感分析。

d. 知识图谱补全:

由于数据质量和自动提取技术的限制，知识图谱往往是不完整的，实体之间的一些关系缺失。因此，以推断知识图谱缺失关系和提高知识图谱完备性为目标的知识图谱补全任务得到了广泛的研究。
基于plm的知识图谱补全方法大多集中在对事实三元组的文本表示进行建模，而忽略了对KG建模至关重要的底层拓扑上下文和逻辑规则。
为了应对这一挑战，一些研究建议将拓扑上下文和逻辑规则与plm中的文本语义结合起来，以完成KG。
通过整合来自KG的结构信息和来自文本的上下文信息，kgplm优于专为KG补全任务设计的plm。我们还可以提取知识增强的嵌入来预测给定三元组的合理性。

e. 问题回答:

问题回答系统需要为给定的问题选择正确的答案，它必须能够访问相关知识并对此进行推理。
plm在结构化推理上的经验表现并不好，而KGs更适合结构化推理，并能够进行可解释的预测。
一些研究提出将plm与KGs集成以进行结构化推理并实现可解释的预测。
- 在训练KGs的同时将其纳入plm。
- 在答案推理过程中使用KGs来增强plm。

f. 自然语言生成:

自然语言生成(NLG)是NLP中各种应用的基本构建块.
plm只能捕获数据的平均语义，并且大多数都没有明确地意识到特定于领域的知识。
当需要特定知识时，由plm生成的内容可能是不合适的。
知识库存储实体属性及其关系，包含丰富的语义上下文信息。

四、大语言模型可以代替KGs吗?

在这里插入图片描述

在KGs和plm中查询事实知识，其中左侧表示直接从KGs中查询事实知识，右侧表示通过要求plm按顺序填写掩码令牌来查询事实知识。

LLM VS KGs

KGs缺乏大型语言模型提供的灵活性，因为KGs需要大量的人力来构建和维护，而大型语言模型通过在大型语料库上进行无监督训练提供了更大的灵活性。
KGs更容易访问和编辑，并且具有更好的一致性，推理能力和可解释性。
KGs中的事实知识通常很容易通过手动查询指令获得。
大型语言模型不能显式地查询，因为知识隐式地编码在其参数中。
KGs中的三元组可以直接添加、修改和删除。然而，在大型语言模型中编辑特定的事实并不简单，因为大型语言模型中的事实不能直接访问。
为了使大型语言模型能够学习最新的、正确的和无偏的知识，整个模型需要在更新的数据上进行重新训练，这是昂贵且不灵活的。
构建KGs时考虑到一致性，并且已经提出了各种算法来消除KGs中出现的冲突。另一方面，大型语言模型可能不一致，因为它们可能对相同的潜在事实问题产生不同的答案。
在KGs中遵循推理路径可能很简单，而大型语言模型在关系推理任务上表现不佳。
KGs有一个清晰的推理路径，所以它们的输出很容易解释。然而，作为典型的黑盒模型，知识很难通过简单地查看大型语言模型的输出来识别。

虽然目前的大型语言模型在直接作为知识库方面面临限制，但它们有助于构建明确表达其存储知识的知识库。一种方法是利用大型语言模型作为信息提取工具来提高ner和关系提取的准确性。另一种方法是使用提示符从大型语言模型中提取符号KGs。

五、 KGs增强LLM

基于现有技术的kgllm开发框架如下图所示。由于大型语言模型主要是缩放来自plm的参数和训练数据的大小，因此它们的模型架构和训练方法基本保持不变。
在这里插入图片描述

1. 采用KGPLMs的方法增强LLM

训练前增强方法可用于构建kg扩展文本，提高输入质量并将事实信息整合到输入中。
训练过程增强方法可以自适应地融合文本知识和结构知识，学习知识增强的词表示。
图编码器可以作为知识编码器，如gnn，利用注意机制设计知识融合模块。多任务学习，包括知识引导的预训练任务，有助于提高大型语言模型对事实知识的学习。
训练后增强方法可以通过对知识扩展数据或基于知识的任务进行微调，进一步提高大型语言模型在某些特定领域任务上的性能。
此外，大型语言模型最近最重要的进步之一是快速学习，它通过在输入中插入文本片段，有效地提高了生成文本的质量，增强了大型语言模型的泛化能力。
在提示学习中，为特定任务选择合适的提示模板对于提高模型性能至关重要，这需要领域专业知识。因此，可以将KGs集成到构建提示模板中，以利用领域知识，通过知识提示指导大型语言模型，提高模型对领域事实知识的理解。

2. 未来研究方向

a. 传统增强方法:

数据增强包括在预训练过程中对训练数据进行细化，强调信息词，强调训练语料库在为模型配备事实知识方面的重要性。与知识图谱增强方法相比，这些方法利用隐性知识对文本中的事实知识进行建模，而忽略了实体之间的关系。
检索增强已经成为一种被广泛采用的方法，它允许大型语言模型从数据库或工具中检索外部数据，并以提示或嵌入的形式将其传递给大型语言模型，以改进大型语言模型的生成。
这些方法可以解决普通大型语言模型面临的一些挑战，例如过时的信息和无法记忆。但由于没有改变大型语言模型的参数，不能从根本上提高法学硕士的知识建模能力。

b. 未来研究方向

提高kgllm的效率: 先前对kgplm的研究表明，较小的kgplm甚至可以优于较大的plm。因此，有必要对KGLLMs的标度规律进行全面研究，以确定其开发的最佳参数尺寸。在此基础上，我们可以潜在地实现满足性能需求的更小的模型，从而减少计算资源和时间。
以不同的方式合并不同的知识: 一些常见的和定义良好的知识可以存储在kg中，以便于访问，而很少使用或不能通过三元组表示的隐性知识应纳入大型语言模型的参数中。
结合更多类型的知识: 将多模态和时序KGs整合到大型语言模型中有可能改善其性能，这值得研究。为了实现这一目标，我们需要对齐多模态实体，设计能够处理和融合多模态时间数据的编码器，并建立多模态时间学习任务来提取有用的信息。
提高知识整合的有效性: 通过修改输入、模型架构和微调过程，已经提出了多种方法来将关系三元组整合到plm中。有效的知识整合方法仍有很大的研究空间。在面对海量、冲突的知识时，如何选择有价值的知识，避免灾难性遗忘，还有待进一步研究。
增强kgllm的可解释性
探索特定领域的kgllm: 与一般大型语言模型相比，特定领域的大型语言模型在整合领域知识方面需要更高的精确度和特异性。因此，构建精确的特定领域KGs并将其与大型语言模型相结合值得进一步探索。

总结

ChatGPT的巨大成功刺激了大型语言模型的快速发展。鉴于大型语言模型在各种NLP任务上令人印象深刻的表现，一些研究人员怀疑它们是否可以被视为一种参数化知识库并取代知识库。然而，大型语言模型在生成基于知识的文本时，在回忆和正确使用事实知识方面仍然存在不足。为了阐明大型语言模型时代kgplm的价值，本文对kgplm进行了全面的调查。我们首先考察了plm的背景和将kg纳入plm的动机。接下来，我们将现有的kgplm分为三类，并提供了每一类的详细信息。我们还回顾了kgplms的应用。之后，我们根据现有的研究分析了plm和最近的大型语言模型是否可以取代kg。最后，我们建议通过KGs增强大型语言模型进行事实感知语言建模，以提高他们对事实知识的学习。本文解决了三个问题:(1)在大型语言模型时代，KGs的价值是什么?(2)如何将KGs纳入大型语言模型课程以提高其效果?(3) KGLLM的未来发展需要做些什么?我们希望这项工作将促进大型语言模型和KG的进一步研究进展。