Retrieve-Rewrite-Answer: A KG-to-Text Enhanced LLMs Framework for Knowledge Graph Question Answering

最新推荐文章于 2024-10-20 21:16:19 发布

三月七꧁ ꧂

最新推荐文章于 2024-10-20 21:16:19 发布

阅读量1k

点赞数 23

分类专栏：论文合集文章标签：知识图谱人工智能语言模型 chatgpt python 开发语言

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140060041

版权

论文合集专栏收录该内容

84 篇文章 0 订阅

订阅专栏

文章目录

题目

检索-重写-回答：用于知识图谱问题解答的知识图谱到文本增强型 LLMs 框架

论文地址：https://arxiv.org/abs/2309.11206
项目地址：https://github.com/wuyike2000/Retrieve-Rewrite-Answer

摘要

尽管大型语言模型（LLMs）在知识密集型任务中表现出色，但在记忆所有世界知识尤其是长尾知识方面仍有局限性。本文研究了知识图谱问题解答（KGQA）任务中需要丰富世界知识的知识增强语言模型方法。现有工作表明，检索知识图谱知识来增强语言模型的提示功能，可以显著提高语言模型在知识图谱问题解答中的性能。然而，这些方法缺乏对幼稚园知识的良好口头表述，即忽略了幼稚园表述与文本表述之间的差距。为此，我们提出了一种对答案敏感的 "KG-to-Text "方法，它可以将 KG 知识转化为对 KGQA 最有参考价值的文本化语句。基于这种方法，我们提出了一种用于解决 KGQA 任务的 KG 到文本增强型 LLMs 框架。在多个 KGQA 基准上的实验表明，所提出的 KG 到文本增强 LLMs 方法在答案准确性和知识语句的有用性方面优于之前的 KG 增强 LLMs 方法。

方法

大型语言模型（LLM）因其在各种应用中的卓越能力，在自然语言处理领域越来越受欢迎。虽然 LLM 在零点场景中表现出了卓越的能力，但它们在多个知识密集型任务上的表现却不尽如人意。这揭示了 LLM 的巨大参数无法存储世界上所有的知识。一些研究表明，LLM 在回答问题时仍然存在幻觉和事实不准确等问题。具体来说，LLM 在知识密集型任务 KGQA 中表现不佳。

为了解决这个问题，最近的研究试图利用外部知识来增强 LLM。其中一项工作涉及在大量语料库上持续预训练 LLM。然而，这种方法需要大量的文本数据、计算资源和时间投入。之前的一些工作尝试利用外部知识（如知识图谱和网络内容）来明确提高 LLM 在下游任务中的性能。采用这种方法是为了解决模型在事实知识方面的不足。受此启发，其他工作通过在问题前添加与问题相关的事实信息来构建知识增强型提示，从而以更直接的方式丰富 LLM 的知识。虽然这种方法被证明是成功且经济有效的，但它忽视了知识表征的重要性。

在本文中，我们总结了以往工作中使用的两种知识表示格式：三重形式文本和自由形式文本。如下图所示，三重形式文本涉及简单的三元组线性连接，将其转换为结构化文本。自由格式文本则根据 KG-to-Text 方法将三元组转换为语义连贯的文本描述。此外，我们还提出了一种 KG-to-Text 增强框架–检索-重写-回答（Retrieve-Rewrite-Answer），以提高 LLM 在 KGQA 上的性能。如图下所示，与以往以 "检索-然后回答 "的方式回答问题的工作相比，我们的框架采用了 “重写”（Rewriter）模块，将检索到的三元组转换为文本描述。该框架的核心在于任务驱动的 "KG-to-Text "方法。我们设计的方法对答案敏感，可以将与问题相关的三元组转化为对 KGQA 最有参考价值的文本知识。与以往简单采用现成的 KG-to-Text 模型的工作相比，我们在 KG-to-Text 语料库上对开源 LLM 进行了微调，以生成对 KGQA 有益的知识描述。然而，主要的挑战在于现有的 KGQA 基准中缺乏 KGto-Text 注释数据。因此，我们提出了一种基于 LLMs 反馈的自动语料库生成方法，用于生成高质量的图-文对。

带有检索增强的任务可表示如下。给定一个知识密集型任务的数据集（如开放域 QA），D = {(x, y)i}, i = 0, 1, 2, . , N，x（如问题）是管道的输入，y 是预期输出（如正确答案）。我们的管道包括三个步骤。(i) 查询重写：根据原始输入 x 生成所需知识的查询 x˜；(ii) 检索：搜索相关上下文 doc；(iii) 阅读：理解输入和上下文 [doc, x]，并预测输出 yˆ。一种直接而有效的方法是要求 LLM 重写查询，以搜索可能需要的信息。我们使用一个短促的提示来鼓励 LLM 思考，输出可以是没有、一个或多个搜索查询。

我们为 KGQA 提出了一个从 KG 到文本的增强型 LLMs 框架–Retrieve-Rewrite-Answer。与之前的 KG 增强型 LLMs 框架相比，我们的框架最大的创新在于重写模块。该模块使用经过微调的 LLMs 作为 KG-to-Text 模型，将检索到的子图转换为对 KGQA 最有参考价值的文本化语句。为了解决 KG 到文本语料注释稀缺的问题，我们设计了一种自动生成 KG 到文本语料的方法。我们提取与问题相关的子图并利用 ChatGPT 作为语料库生成工具。根据问题解答 LLM 的反馈，我们生成了对答案敏感的知识描述，用于构建 KG-to-Text 标注数据。我们在生成的语料库上微调了几种开源 LLM，并研究了不同 LLM 生成的文本知识对 KGQA 的影响。我们在四个 KGQA 基准上评估了我们的框架。实验结果表明，在多种 LLMs 中，我们的框架优于之前的 KG 增强方法，这证明了它的有效性。此外，我们还研究了不同知识表示格式对 KGQA 的影响，并证明我们的框架所生成的知识是最有益的。

知识图谱（KG）是由主语𝑠、关系𝑟和客体𝑜组成的三元组（𝑠、𝑟、𝑜）的集合，表示为𝐺 = {(𝑠, 𝑟, 𝑜)|𝑠, 𝑜 ∈ 𝐸, 𝑟 ε 𝑅}，其中𝐸和𝑅表示实体集和关系集。KG-to-Text是一种基于KG的自然语言生成技术。给定 KG 𝐺 的子图 𝐺 ′ = {(𝑠, 𝑟, 𝑜)|𝑠, 𝑜 ε 𝐸, 𝑟 ε 𝑅}，KG-to-Text 的目标是生成文本序列 𝑋 = (𝑥1, 𝑥2, …, 𝑥𝑛) 与子图 𝐺 ′ 语义一致。知识图问答（KGQA）是基于知识图谱上的一组事实回答自然语言问题的任务。给定一个问题𝑞和一个主题实体𝑒ℎ，任务是生成一个可以正确回答该问题的答案𝑎。

我们提出的 Retrieve-Rewrite-Answer 框架包含三个步骤：子图检索、KG-to-Text 和知识文本增强推理。我们的检索模块由三个步骤组成：跳数预测、关系路径预测和三重采样，如下图所示。跳跃预测。这一步的目的是预测问题的跳数，用于预测下一步的关系路径。我们将跳跃预测建模为基于 PLM 的分类任务。

给定问题 𝑞，我们使用 PLM 对问题 𝑞 进行编码并获得向量表示，然后将表示 𝑞𝑣 输入线性分类层以预测潜在跳数 ℎ1, ℎ2, …, ℎ𝐻 的概率分布 𝐷 ′ ℎ ，其中 𝑑 ′ ℎ𝑐 是给定问题表示 𝑞𝑣 的跳数 ℎ𝑐 的概率，选择概率最高的跳数 ℎ 作为预测结果。在训练期间，地面真值分布 𝐷ℎ 表示为一个单热向量，其中真实跳数 ℎ𝑔𝑜𝑙𝑑 的概率为 1，其他跳数的概率为 0，使用交叉熵损失 𝐿𝐶𝐸，预测分布 𝐷 ′ ℎ 会因与地面真实分布 𝐷ℎ 不同而受到惩罚：𝐿𝐶𝐸 用于更新模型的参数。

给定问题 𝑞 和预测的跳数 ℎ，我们执行 ℎ 步预测，每一步对应一个跳关系。在步骤 𝑡 中，我们基于预测的 (𝑡 − 1) 跳关系路径和问题 𝑞 通过 PLM 作为分类任务来预测第 𝑡 跳关系。具体来说，对于每个预测的关系路径，我们对下一步的候选关系进行采样。在步骤 1 中，我们将问题 𝑞 编码为向量表示 𝑞𝑣 。然后该向量通过线性分类层来计算 KG 中 𝑅 关系的分布 𝐷 ′ 𝑟,1，其中 𝑑 ′ 𝑟𝑐 是给定问题表示 𝑞𝑣 的关系 𝑟𝑐 的概率，我们选择概率最高的顶级 𝐾 关系作为一跳关系路径 𝑝1。在接下来的步骤 𝑡 (𝑡 > 1) 中，(𝑡 − 1) 跳关系路径 𝑝𝑡−1 中的关系路径 𝑝𝑡−1,𝑖 ，我们用“|”连接问题 𝑞 和关系路径 𝑝𝑡−1,𝑖作为输入序列𝑄𝑡，𝑄𝑡 通过 PLM 编码为向量表示 𝑄𝑡,𝑣 并通过线性分类层来计算 KG 中 𝑅 关系的关系分布 𝐷 ′ 𝑟,𝑡，其中 𝑑 ′ 𝑟𝑐 是给定输入序列表示 𝑄𝑡,𝑣 的关系 𝑟𝑐 的概率，我们保留具有最高概率的顶部 𝐾 关系作为 (𝑡 − 1) 跳关系路径 𝑝𝑡−1,𝑖 的第 𝑡 跳关系。经过ℎ步预测，我们可以获得𝐾ℎ关系路径。关系路径 𝑝𝑡,𝑖 的得分是路径中所有关系的概率的乘积。三重采样。我们将预测的关系路径按分数降序排列，并从 KG 中顺序采样由三元组组成的推理路径，直到推理路径的数量达到 𝑀。这些推理路径被用作增强 KGQA 的相关知识。

我们重写模块的核心是基于 KG-toText 模型将结构化三元组转换为自由格式文本。我们首先基于与问题相关的图文本对训练开源法学硕士。给定图 𝐺 和相应的自由格式文本 𝑦。我们通过连接主语、关系和宾语将图𝐺中的三元组语言化为三元形式文本𝑥。然后，我们通过模板 𝑇1 将三元形式文本 𝑥 转换为图文转换提示 𝑝1：“你的任务是将知识图谱转换为一个句子或多个句子。知识图谱是：{三元文本𝑥}。句子是：”。我们分别以提示𝑝1和自由格式文本𝑦作为输入和输出，并在训练中采用教师强制策略。形式上，给定提示 𝑝1、真实输出序列 𝑦 = [𝑦1, 𝑦2, …, 𝑦𝑇 ] 和模型词汇 [𝑣1, 𝑣2, …, 𝑣𝑉 ]，模型预测概率分布 𝐷 ′ 𝑣,𝑡步骤 𝑡 中的标记基于提示 𝑝1 和之前的 (𝑡 − 1) 步骤正确标记𝑦1, 𝑦2, …, 𝑦𝑡−1，其中 𝑑 ′ 𝑣𝑐 是给定 𝑝1 和 𝑦1, 𝑦2, …, 𝑦𝑡−1 时 𝑣𝑐 的概率，地面实况分布 𝐷𝑣,𝑡 是一个单热向量，真正的下一个标记 𝑦𝑡 的概率为 1，交叉熵损失𝐿𝐶𝐸用于更新参数，在回答问题时，每个推理路径首先被线性化为三重形式文本，然后通过模板𝑇1转换为提示。提示被输入到微调的LLM中以获得相应的文本描述。这些描述被合并为一个段落，作为与问题相关的知识，以提高LLM的表现。

知识文本增强推理。为了将生成的知识𝑦与问题𝑞整合起来，我们设计了一个模板𝑇2：“以下是可能与回答问题相关的事实：{自由格式文本𝑦}问题：{问题𝑞}答案：”。我们使用模板𝑇2 将自由格式文本 𝑦 和问题 𝑞 映射到 KG 增强提示 𝑝2。然后，我们将提示 𝑝2 输入到问答模型中，并收集输出作为预测答案 𝑎。

现有的 KGQA 基准没有为问答任务提供图文对。因此，我们设计了一种KGQA任务驱动的语料生成方法。考虑到ChatGPT强大的自然语言理解和生成能力，我们采用ChatGPT作为语料生成器。该过程包含三个步骤：子图提取、文本生成和质量评估。对于提供关系路径或推理三元组的 KGQA 基准，我们通过基于注释查询 KG 来获取子图。对于用 SPARQL 注释的基准，我们修改 SPARQL 查询以检索中间实体并构造与问题相关的子图。给定问题𝑞，我们首先通过连接主语、关系和宾语将相关子图𝐺语言化为三元形式文本𝑥。然后，采用模板𝑇1将三元文本𝑥转换为图文转换提示𝑝1。最后，我们在ChatGPT中输入提示𝑝1，得到对应的自由格式文本𝑦。由于缺乏标注，无法采用BLEU、METEOR、ROUGE等常用评估指标。考虑到生成文本的目的是加强 LLM 在 KGQA 上的表现，我们根据问答模型的反馈评估自由格式文本𝑦的质量。我们通过模板 𝑇2 将自由格式文本 𝑦 和问题 𝑞 映射到 KG 增强提示 𝑝2。然后，我们将提示 𝑝2 输入到问答模型并得到预测答案 𝑎。鉴于LLM通常提供文本段落作为响应而不是单个答案实体，我们采用 hit@1 作为评估答案𝑎正确性的指标。简单来说，如果答案𝑎包含至少一个答案实体，则该问题被认为回答正确。在这种情况下，我们收集三重格式文本 𝑥 和自由格式文本 𝑦 作为图形文本对。

实验

MetaQA 是电影领域的大规模多跳 KGQA 基准。它提供了一个知识图，包括 135k 个三元组、43k 个实体和 9 个关系。它包含超过 400k 的问题，根据问题的跳数分为 MetaQA 1-hop、MetaQA 2-hop 和 MetaQA 3-hop。每个问题都注释有头部实体、答案以及推理路径中涉及的实体类别。在这个实验中，我们选择 MetaQA 2-hop 作为基准和“vanilla”版本的问题，总共 148,724 个问题（118,980 个训练问题，14,872 个开发问题，14,872 个测试问题）。我们根据提供的实体类别收集黄金关系路径，因为两类实体之间只有一种类型的关系。

WebQuestionsSP (WebQSP) 是一个较小规模的 KGQA 基准，具有较大规模的 KG。它为 WebQuestions提供 SPARQL 查询并过滤掉无法回答的问题。其余 4,737 个问题（3,098 个训练问题，1,639 个测试问题）是 1 跳或 2 跳问题，具有相应的主题实体、推理链和 SPARQL 查询。我们修剪 KG 以仅包含问题中提到的关系以及提到实体的 2 跳内的三元组。修剪后的 KG 包括 180 万个实体、627 个关系和 570 万个三元组。

WebQuestions (WebQ) 通过 Google Suggest API 从网页收集问题。我们使用该基准的一个子集。我们的方法需要关系路径或 SPARQL 查询的注释，但未提供这些注释。因此，我们选择WebQSP中SPARQL查询提供的问题进行训练和测试。结果是 4,737 个问题（3,098 个训练问题，1,639 个测试问题）。我们使用与 WebQSP 相同的 KG。

之江问答（ZJQA）是由之江实验室提供的包含 20,491 个问题的中文 KGQA 数据集。我们将这些问题分为训练集、开发集和测试集（14,999 个训练集、2,147 个开发集、3,345 个测试集）。这些问题主要是机器人领域的 1 跳或 2 跳问题。每个问题都提供一个头实体、答案和一条黄金关系路径。它还提供了一个包含超过 11k 个三元组、9k 个实体和 39 个关系的 KG。

我们提出的框架有两个基于 LLM 的模块：KG-toText 和问答。我们使用 Llama-2 (7B, 13B)、Flan-T5 (3B) 进行 KG-to-Text 和 Llama-2 (7B, 13B)、T5 (0.8B, 3B, 11B)、FlanT5 (80M, 3B, 11B) )、T0 (3B、11B)、ChatGPT 用于问答。 Llama-2是 Llama-1 的更新版本，它在广泛的公共在线数据源上进行了训练。在不同的变体中，我们采用 Llama-2-chat (7B, 13B) 作为我们的 KG-toText 和问答模型。对于ZJQA，我们采用该模型的中文版本，Chinese-Alpaca-2 (7B, 13B)。

上表显示了我们提出的框架的总体结果以及 WebQSP 和 WebQ 的基线。我们的 KG-to-Text 模型是基于 Llama-2-chat (13B) 实现的。对于问答模型，我们选择T5（0.8B，3B，11B），T0（3B，11B）和Flan-T5（80M，3B，11B），T0（3B，11B）作为WebQSP上的问答模型和 WebQ 分别。实验结果表明，我们的框架在各种法学硕士中大幅优于基线。值得注意的是，它在T5上展现出最显着的优势。这表明仅针对文本数据进行预训练的 T5 在理解结构化数据方面可能存在局限性。这证明，将三重格式文本转换为自由格式文本可以使LLM更好地理解所提供的事实知识，并增强他们在 KGQA 上的能力。

T5 是一种以文本到文本格式针对多个任务进行预训练的编码器-解码器模型。继之后，我们使用 T5 的 LM 适配版本作为 WebQSP 上的问答模型，以确保公平比较。Flan-T5 是 T5 的扩展，它是在从现有数据集中自动生成的指令的大规模集合上进行进一步指令调整的。我们使用 Flan-T5-XL (3B) 作为 MetaQA 的 KG-to-Text 模型，使用 Flan-T5-Small (80M)、Flan-T5-XL (3B)、FlanT5-XXL (11B) 作为 MetaQA 的问答模型网络Q。我们不将这个模型用于ZJQA，因为它不支持中文。T0 在T5 的基础上根据各种提示进行了微调，以提高零样本泛化性能。我们使用 T0 (3B, 11B) 作为问答模型，将我们提出的框架与之前在 WebQSP 和 WebQ 上的工作进行比较。ChatGPT4是OpenAI开发的基于GPT-3.5构建的大型语言模型。它经过了巨大的语料库和人类注释的预先训练，并且擅长理解和生成类似人类的文本。具体来说，我们在本实验中使用GPT-3.5 Turbo。我们无法微调 ChatGPT，因为它尚未开源。因此，我们通过API访问它，并将其用作问答模型。

遵循生成式KGQA之前工作中的评估设置，我们使用hit@1，它衡量生成的答案是否包含至少一个答案实体。预测答案和答案实体都转换为小写，以减轻因字母大小写差异引起的匹配问题。

WebQSP/WebQ 我们解析SPARQL 查询以提取每个问题的黄金关系路径。使用bert-base-uncased作为跳数预测和关系路径预测的分类模型。我们修改 SPARQL 查询并获取中间实体来构建每个问题的黄金子图。训练分割中的所有问题都用于语料库生成。生成超过 12k 个图形文本对并用于监督微调。此外，我们排除了11个没有答案的测试样本。

MetaQA 我们跳过跳数预测步骤并使用提供的真实跳数。使用bert-base-uncased作为关系路径预测的分类模型。我们从训练分割中随机抽取 17k 个问题用于语料库生成，并生成超过 13k 个图文本对用于 KG 到文本的微调。

ZJQA 我们使用 bert-base-chinese 进行跳数预测和关系路径预测。我们从训练分割中随机抽取 14k 个问题进行语料库生成，并获得超过 13k 个 KG-to-Text 注释。

对于WebQSP和WebQ，我们在子图检索过程中设置K=5（即样本5个关系作为每个预测关系路径的下一个可能关系）和M=5（即每个问题样本最多5个推理路径）。对于MetaQA和ZJQA，我们设置K=3和M=5。 ChatGPT 用作所有基准测试的语料库生成中的问答模型。我们的框架是使用 Pytorch6 、 Transformers7 和 Peft libaries8 实现的。为了高效训练，所有微调过程均采用 LoRA。我们在 4 个 NVIDIA Tesla V100 GPU 上训练 KG 到文本模型 10 个 epoch，总批量大小为 128，并在 1 个 NVIDIA Tesla V100 GPU 上对 KG 到文本模型和问答模型运行推理。我们使用 AdamW 优化器，初始化学习率为 1e-4。 LoRA 排名、LoRA alpha 和 LoRA dropout 分别为 64、128 和 0.05。

开放域质量保证基准是问题-答案对的集合，表示为 {(q，a)i}。我们将 ChatGPT 用于阅读器和冷冻改写器。评估指标是精确匹配（EM）和 F1 分数。对于 RL 中的奖励函数，我们使用一个指标，如果检索内容命中答案，则给予奖励；如果未命中答案，则给予惩罚，记为 Hit。总奖励是 EM、F1 和 Hit 的加权和。

上表说明了我们提出的框架基于不同 LLM 的不同性能。总体而言，与 Flan-T5-XL 相比，Llama-2-chat 在 KG-to-Text 方面表现更好。我们推测这种差异可能是由于模型参数的不同造成的。与 Llama-2-chat（7B、13B）相比，Flan-T5-XL（3B）的尺寸较小，这可能是其性能较差的原因。双参数版本的 Llama 性能相当。我们认为这是由于 KGto-Text 与其他 NLG 任务相比相对简单，7B 参数就足够了。在问答模型方面，Llama-2-chat（13B）在 MetaQA 上的表现最好，而 ChatGPT 的表现最差。值得注意的是，在不提供任何知识的情况下，ChatGPT 的表现优于 Llama-2-chat (7B、13B)。这一观察结果表明，由于 ChatGPT 的参数规模大得多，它保留知识的能力更强。但是，它并没有像 Llama-2chat 那样有效地利用相关知识。在 ZJQA 中，我们使用了 Llama-2-chat 的中文版–Chinese-Alpaca-2。它是在 Llama-2 的基础上，使用大量中文语料和教学数据进一步训练而成的。尽管模型参数有很大不同，但它在 ZJQA 上的表现却与 ChatGPT 不相上下，甚至超过了 ChatGPT。这强调了持续预训练的重要性。Chinese-Alpaca-2 (13B) 在几乎所有知识表示格式中都表现出色，但在行程中却落后于 ChatGPT。

生成知识的有用性/有害性我们进一步分析 MetaQA 的实验结果，研究不同方法生成的知识对问题解答模型的积极和消极影响。我们建立了两个基线： "无知识 "和 “三重知识”，并将其他知识格式与这两种基线进行比较。我们计算基线回答错误但其他知识格式回答正确（即有帮助）的问题数量，以及基线回答正确但其他知识格式回答错误（即有害）的问题数量。我们选择 Llama-2-chat (13B) 作为答题模型。与无知识基线的对比表明，我们的框架所采用的知识表示格式能更好地帮助 LLMs 完成 KGQA，而且不利影响较少。此外，在三重知识基线上的实验结果表明，我们的 KG-to-Text 方法可以为 KGQA 生成信息量最大的文本语句。这凸显了微调 KG-to-Text 模型的必要性。

相同检索到的三元组的不同表示对KGQA有显着影响。在不结合外部知识的情况下，问答模型的性能是最差的。这表明LLM无法在其庞大的参数范围内存储所有事实知识，从而导致事实不准确和知识缺失的问题。其他 KG 增强的 LLM 方法大大优于该基线，证明了整合与问题相关的 KG 知识的有效性。其中，MTL知识的进步最小。这是因为 MTL 仅在多个数据到文本数据集上进行预训练，其自然语言理解和生成能力不够强大。因此，从子图到文本的转换会丢失语义信息并导致增强有限。MVP 生成的知识和三元形式知识在问答任务中产生可比较的结果。原因是MVP在多个NLG任务上进行了预训练，并在数据到文本数据集上进行了进一步微调，与MTL相比，拥有更强的文本理解和生成能力。然而，它缺乏对特定领域的知识图谱到文本语料库的微调，导致与三元组知识相似的结果。三重形式知识是以往工作中最常见的方法。然而，实验结果表明LLM仍然难以从三元组中有效地提取语义。这表明法学硕士更喜欢接收文本知识，因为他们已经接受过大量语料库的预训练，而结构化三元组只是其中的一部分。我们的框架采用了多种 KG-to-Text 模型，超越了各种问答模型的所有基线。这不仅证明了我们的 KG-to-Text 方法可以生成答案敏感的文本知识，而且还强调了我们的框架对主流LLM的强大适用性。

消融

我们对不同的知识表示格式进行了比较分析，并利用 MetaQA 和 ZJQA 数据集上的一系列法学硕士来实现我们的框架。这项消融研究旨在调查知识表示格式和法学硕士对 KGQA 的影响。

具体来说，我们使用 Llama-2-chat (7B, 13B)、Flan-T5-XL (3B) 作为 KG-to-Text 模型，使用 Llama-2-chat (7B, 13B)、ChatGPT 作为问答模型。我们将我们的框架生成的知识与无知识、三重知识以及现成的 KG-to-Text 模型生成的知识进行比较：无知识问题直接输入 LLM，无需额外知识。我们设置这种知识表示格式是为了探索 KG 增强方法可以为 KGQA 上的LLM带来多大的改进。

三重知识是之前工作中最常用的策略。我们首先对检索到的三元组进行重复删除以减少语义冗余，然后通过连接主语、关系和宾语来简单地表达每个三元组。

MVP 知识为了验证微调过程的有效性，我们选择 MVP 作为现成的 KG-to-Text 模型。MVP 是一种文本生成LLM，首先以受监督的文本到文本格式对 11 个不同自然语言生成 (NLG) 任务的 77 个数据集进行预训练，然后进一步预训练特定于任务的软提示以增强模型的性能完成特定任务的能力。我们使用 MVP-data-to-text，这是 MVP 的一种变体，它在带标签的数据到文本数据集上进行了预训练，以在零样本场景中执行 KG 到文本。我们不为 ZJQA 使用这种知识表示格式，因为 MVP 不支持中文。

MTL 知识我们选择 MTL-data-to-text 作为另一个现成的 KG-to-Text 模型。该模型是 MVP 的不同变体，并且在标记数据到文本数据集的混合上进行了预训练。然而，与 MVP-data-to-text 相比，它缺乏其他 NLG 任务的训练以及特定于任务的软提示预训练。由于 ZJQA 缺乏对中文的支持，我们不使用该模型。显示了基于各种LLM作为问答模型的不同知识表示格式的实验结果。与其他知识表示格式相比，我们的框架生成的知识在 KGQA 上的多个 LLM 中显示出进一步的改进。