论文Knowledge-Augmented Language Model Prompting for翻译笔记(用于零点知识图谱问题解答的知识增强语言模型提示)



在这里插入图片描述

论文标题:用于零点知识图谱问题解答的知识增强语言模型提示

论文链接:https://arxiv.org/abs/2306.04136
arXiv:2306.04136v1 [cs.CL] 7 Jun 2023

摘要

大型语言模型(LLMs)能够利用其在预训练阶段存储在参数中的内部知识,执行零次封闭式问题回答任务。然而,这些内部知识可能不完整且存在错误,导致LLMs产生事实不准确的答案。另外,对LLMs进行微调以更新知识的成本很高。为此,我们提出了一种方法,即在LLMs(大型语言模型)的输入中直接增强知识。具体来说,我们首先从知识图谱中检索与输入问题相关的事实在基于问题与其相关事实之间的语义相似性。然后,我们将检索到的事实以提示的形式前置到输入问题中,然后将其转发给LLMs以生成答案。我们的框架,知识增强语言模型提示(KAP-ING),无需模型训练,因此完全零次射击。我们在知识图谱问答任务上验证了我们的KAPING框架的性能,该任务旨在根据知识图谱中的事实回答用户的问题,我们的结果在多个大小不同的LLM上平均超过了相关零次射击基线48%。


1 介绍

预训练语言模型(LMs)(Devlin等人,2019;Raffel等人,2020)是通过自监督学习在大量文本语料库上训练的,可以执行闭卷问答(QA)任务。这些任务的目标是仅基于模型内部参数中的知识来回答用户的问题,无需使用任何外部知识(Petroni等人,2019;Roberts等人,2020)。此外,当我们增加语言模型的大小时,大型语言模型(LLM)可以在没有任何额外微调步骤的情况下生成问题的答案,这被称为语言模型提示(Brown et al., 2020; Liu et al., 2021)。然而,由于大型语言模型中的知识可能不完整、不正确或过时,它们经常生成事实错误的答案,这被称为幻想(Rohrbach et al., 2018)(见图1a)。此外,通过参数更新来提炼LLMs的知识是昂贵的,特别是当知识不断变化时(例如,货币的汇率)。最后,LLMs是否为问答任务获取正确的知识尚不明确。
在这里插入图片描述

图1:(a) 对于提示中的输入问题,大型语言模型GPT-3(Brown等人,2020)可以根据其内部参数知识生成答案,但会出现虚幻的描述,用黄色高亮显示。 (b) 我们的知识增强语言模型提示框架KAP-ING首先从问题中的实体检索相关事实,然后将它们添加到提示中,以生成事实正确的答案。

为了解决这些限制,我们提出将相关知识直接作为输入(称为提示)注入到大型语言模型中(图1b)。作为知识来源,我们使用包含符号知识的三元组形式的知识图谱(KG):(头部实体,关系,尾部实体)。因此,为了提取与输入问题相关的事实,我们首先将问题中的实体与知识图谱(KG)中的实体进行匹配。然后,将KG中与实体相关的三元组(即符号关系知识)转化为文本字符串,并将其附加到输入问题的开头。之后,将问题和转化后的知识输入到大型语言模型(LLMs)中,以生成答案。因此,基于事实知识的LLM(大型语言模型)能够生成事实性的答案,减轻了虚假信息的问题,同时保持LLM的参数不变:知识更新不需要微调。我们将这个整体框架称为知识增强语言模型提示(KAPING),它完全零次射击,可以与任何现成的LLM一起使用,无需额外训练。
虽然上述方案看起来简单有效,但还存在一些挑战。首先,与问题实体相关检索到的大多数三元组与回答给定问题无关。例如,当我们在Wikidata KG(Vrandecic和Krötzsch,2014)中检索图1中的问题实体(例如,波塞冬)相关的三元组时,存在60个三元组,其中大多数(例如,类型、出版日期等)与回答问题无关。因此,它们可能会误导模型生成错误的答案。另一方面,问题实体的三元组数量有时很大(例如,WebQSP数据集(Yih等人,2016)中有27%的样本拥有超过1000个三元组),因此将所有三元组包括在内进行编码会产生高昂的计算成本,特别是在大型语言模型上。
为了解决这些挑战,我们进一步提出根据它们与输入问题的语义相似性来过滤掉不必要的三元组,受到了信息检索的启发(Bast等人,2016)。具体来说,我们首先将问题及其相关的口语化三元组表示在嵌入空间中。然后,我们检索那些嵌入式比其他嵌入式更接近输入问题嵌入式的少量三元组。通过这样做,我们可以在给定问题前只添加更相关的三元组,有效地防止LLMs生成与问题无关的答案,同时具有较高的计算效率,与那种将所有三元组进行增强的方法不同。请注意,我们的过滤方法使用现成的句子嵌入模型(Song等人,2020年;Hofstätter等人,2021年);因此,我们的整个流程不需要额外的训练。
然后,我们在知识图谱问答(KGQA)任务上验证了我们的KAPING框架。结果显示,我们的KAPING显著优于相关的零样本基准。此外,详细的分析证实了知识检索和增强策略的重要性。我们的工作有三个主要贡献:
• 我们提出了一种新的知识增强的语言模型提示框架,它利用了来自知识图谱(KGs)的事实知识,以实现零样本问答(QA)。
• 我们提出从知识图谱中检索和增强与问题相关联的事实,这是基于问题与其相关三元组之间的语义相似性。
• 我们在KGQA基准数据集上验证了我们的KAPING,我们的方法在零样本问答任务上显著优于相关基线。

2 相关工作

语言模型提示

语言模型预训练,通过在未经注释的文本语料库上训练Transformer(Vaswani等人,2017),采用自编码(Devlin等人,2019;Liu等人,2019)或自回归(Yang等人,2019;Radford等人,2018)的目标,已成为自然语言任务的重要方法。此外,大型语言模型(LLM)(Brown等人,2020;Raffel等人,2020;Chowdhery等人,2022;Soltan等人,2022)能够进行零样本学习,例如,根据存储在预训练参数中的知识,为输入文本提示生成答案(Petroni等人,2019;Roberts等人,2020;Sung等人,2021),无需额外的参数更新和标注数据集。为了进一步提高性能,一些工作(Rubin等人,2022;Liu等人,2022a)提出从训练数据集中检索与输入问题相关的样本,并在少量示例学习的情况下将它们附加到提示中。最近的一些工作(Sanh等人,2022;Wei等人,2022a)进一步表明,当大型语言模型在自然语言任务的指令集合上进行微调时,它们可以在未见过的零样本任务上具有较强的泛化性能。然而,语言模型内部的知识可能不足以处理事实性问题,这就产生了知识增强的语言模型。值得注意的是,我们的语言模型提示与提示调整文献(Lester et al., 2021a; Chen et al., 2022a)不同,后者在模型训练过程中还对语言模型进行调整(详见附录C)。

知识增强的语言模型(Knowledge-Augmented LMs)

最近的工作提出将知识(如来自非结构化语料库(例如维基百科)的文档和知识图谱(KGs)中的事实)整合到语言模型(LMs)中。其中一些方法,如REALM(Guu等人,2020年)和RAG(Lewis等人,2020年),学习检索文档并用它们增强语言模型。此外,知识图谱(KGs)可以是另一种知识来源,其中知识以最简洁的形式编码在最紧凑的形式中,一些方法将KGs中的这些事实增强到语言模型(Galetzka et al., 2021; Rony et al., 2022; Kang et al., 2022)中。然而,所有上述方法都需要大量的训练数据和下游任务的模型更新。虽然最近的研究(Izacard等人,2022)表明,检索增强的大型语言模型在少样本学习中可以有很强的性能,但它仍然需要额外的训练步骤,这与我们专注于大型语言模型提示以实现完全零样本学习的方法不同。
最近,关于语言模型(LM)提示方案的知识增强的研究并不多。最初,一些研究提出通过提示来从大型语言模型(LLMs)的参数中提取知识,然后利用提取的知识来回答问题(Kojima等,2022;Liu等,2022b;Wei等,2022b;Wang等,2022)。然而,由于LLM的参数可能不足以存储所有世界知识,因此提取的知识和生成的答案可能不准确。另一方面,最近,Lazaridou等人(2022)提出使用Google搜索来检索网页上的文档,然后将检索到的文档与输入问题以及少量示例一起附加,以便在少量示例的LLM提示方案下回答问题。然而,我们关注的是使用知识图谱(KGs)的零样本提示,这与之前研究使用少量样本提示的文档的研究是正交的,并且使用KGs可以带来额外的优势。具体来说,由于知识图谱可以简洁地将知识编码为紧凑的三元组形式,对于问答任务,我们的方法使大型语言模型的提示更加高效(即,与文档情况相比,减少输入序列长度),并且在零样本问答方案上更有效:大型语言模型需要在提示中选择一个包含答案实体的三元组,而不是浏览包含各种实体的长文档。

知识图谱问答系统

我们的目标知识图谱问答(KGQA)任务的目标是根据一组知识图谱(Chakraborty 等,2019;Fu 等,2020)中的事实来回答输入的问题。以前的方法大致分为神经语义解析方法(Yih等人,2015;Bao等人,2016;Luo等人,2018)、基于信息检索的方法(Sun等人,2018;Saxena等人,2020;Yasunaga等人,2021)和基于可微知识图谱的方法(Cohen等人,2020;Saffari等人,2021;Sen等人,2021)。然而,这些方法需要有标注数据和额外的模型训练。虽然周等人(2021)的目标是在没有针对目标语言领域进行任何训练数据的情况下将KGQA模型转移到目标语言领域,但本工作实际上需要在数据丰富的源领域上使用标记数据来训练模型,然后才能将模型转移到目标领域。与上述所有方法不同,我们探索了一种新颖的零样本知识图谱问答机制,该机制不需要任何注释的问答对和额外的训练,而是利用语言模型提示。

3 方法

我们现在介绍我们的知识增强语言模型PromptING(KAPING)框架。

3.1 零样本问答的语言模型提示

我们首先从零样本问答开始,然后解释语言模型的提示。

零次问答(Zero-Shot Question Answering)

给定一个输入问题x,问答(QA)系统返回一个答案y,其中x和y由一系列标记组成:x = [w1, w2, …, w|x|]。让P成为一个基于生成式语言模型(LM)(Raffel等人,2020;Brown等人,2020)的QA模型,它生成对于问题x的答案y的条件概率,如下所示:P(y|x)。然后,与使用一组标注的(x, y)对训练模型P的监督学习不同,零样本学习不使用任何标记的样本和模型训练。值得注意的是,我们对这种零样本问答感兴趣,因为收集数据集然后对现有语言模型进行微调以适应每个新领域被认为是非常昂贵且有时是不可行的(Houlsby等人,2019年;Lester等人,2021b)。

LM提示

语言模型(LMs)通常通过根据先前的标记预测下一个标记来进行预训练,这被称为自回归语言建模(Radford et al., 2018; Raffel et al., 2020)。然后,由于这个预训练目标,大型语言模型(LLMs)可以执行零样本指令学习。具体来说,当我们向大型语言模型(LLM)提供一个问题和指示(例如,“请回答这个问题:《淑女苏珊》的作者是谁?”)时,该LLM可以根据输入文本生成输出令牌的概率序列,这可能是一个答案,例如“简·奥斯汀”。
为了更正式地表达,对于每个输入问题x,我们首先使用特定的指令模板T将其转换为一个称为提示的文本字符串x’,如下所示:T:x 转换为 x’。例如,如果我们有之前的问题x = “《淑女苏珊》的作者是谁?” 和之前的指令模板 “请回答这个问题:”,那么由此生成的提示x’将是T(x) = “请回答这个问题:《淑女苏珊》的作者是谁?”。然后,我们将提示x’传递给大型语言模型(即P),它通过P(y|x’)生成回答(即y)。请注意,这种语言模型提示方法不需要在标注数据上进行任何额外的模型参数更新(即微调),因此适用于目标零样本问答任务。
然而,在这种天真的零次提示问答中存在多个挑战。首先,依赖于参数知识的大型语言模型(LLMs)容易生成事实错误的答案,因为LLMs的知识可能不准确且过时:知识可以随着时间的推移而出现和改变。此外,用额外的参数更新来提炼内化知识是昂贵的,而反映错误且不断增长的知识是必要的。最后,大型语言模型在生成问题答案时所记忆和利用的知识是不明确的,这限制了它们对输出的解释性。

3.2 知识增强的语言模型提示

为了解决现有语言模型提示方案的上述限制,我们提出从知识图谱(KG)中注入相关知识到输入问题,我们称之为知识增强语言模型提示(KAPING)。在本小节中,我们首先定义KAPING框架的主要目标,然后介绍将知识增强KGs应用于LM提示的成分。

知识图谱中的语言模型提示

我们提出不仅要依赖于参数内部化的知识,还要从外部知识图谱中获取并注入知识。知识图谱G包含了一组事实性的三元组{(s, r, o)},其中s和o分别表示主题和对象实体,r是它们之间的一种特定关系类型。例如,一种关系性知识“《淑女苏珊》是由简·奥斯汀创作的”可以表示为一个包含两个实体s = “淑女苏珊”和o = “简·奥斯汀”的三元组,以及一个关系r = “由…创作”。然后,对于从示例问题x = “《淑女苏珊》的作者是谁?”通过模板T转换得到的问题提示x’,我们还可以将其相关的三元组:(淑女苏珊,由…创作,简·奥斯汀)添加到语言模型提示方案中。通过这种方法,大型语言模型(LLMs)可以根据知识图谱(KGs)中的增强知识生成正确的答案,其形式化表示为P(y|x′, G)。请注意,由于我们可以在知识图谱中为LLMs提供具体有效的事实,只要这些事实存在,我们的框架可以减轻由LLMs中不准确和过时知识引起的幻觉问题,而无需昂贵地更新模型参数。此外,我们可以确认LLMs是否根据增强的事实生成答案,从而提高语言模型提示的可解释性。
接下来的问题是如何从输入问题中访问KG上的关系符号事实,将符号知识转化为文本字符串,并将转化后的知识注入到LM提示方案中。我们在接下来的段落中逐一解释这些问题。

知识访问

为了利用与输入问题相关的信息,我们首先从问题中提取实体。例如,对于问题"谁是《苏珊女士》的作者?“,我们提取出实体"苏珊女士”。然后,根据提取的实体,我们在知识图谱中找到其对应的实体,该实体所关联的三元组(incident triples)然后成为输入问题的相关事实。请注意,实体匹配可以通过现有的实体链接技术来实现(Wu 等,2020;Li 等,2020;Ayoola 等,2022)。

知识表述

LLM正在处理文本输入,而事实三元组则在符号图中表示。因此,在将符号事实从知识图谱注入到LLM之前,我们首先将由(s, r, o)组成的三元组转换为其文本字符串,称为口头化。尽管存在最近的方法(Oguz等人,2022;马等人,2022),这些方法特别设计甚至学习了图到文本的转换,但在这项工作中,我们使用线性表述:将三元组中的主题、关系和对象文本串联起来,我们观察到这种方法在语言模型提示中效果很好(参见附录B.5)。例如,一个三元组(《淑女苏珊》、作者、简·奥斯汀)直接作为大型语言模型的输入:“(《淑女苏珊》、作者、简·奥斯汀)”。

知识注入

根据与输入问题相关的口头化事实,剩下的步骤是实现知识注入机制,这使得大型语言模型能够基于外部知识生成答案。假设我们有一组N个相关三元组k = {(si, ri, oi)}N i=1,用于问题x。然后,类似于第3.1节中描述的指令模板T:x → x′,我们修改N个口头化的三元组k以及用于知识注入的指令,将其放入知识提示k′中,如下所示:T:k → k′。我们使用的一个特定模板是,首先逐行列举N个口语化的三元组,然后在提示的顶部添加具体指令:“以下是以下形式的事实,对回答问题有意义的三元组。”。在此之后,将知识提示字符串k’附加到问题提示x’的前面,然后在知识和问题提示下条件生成答案令牌的大型语言模型(LLMs)按顺序生成答案,形式如下:P(y|[k’, x’]),其中[·]表示连接。

3.3 问题相关知识检索

在第3.2节提出的KAPING框架,使LLMs能够利用KG的知识进行零次问答。然而,存在关键的挑战,即与问题相关联的三元组数量往往过大,无法在LLMs中进行前向传播。此外,其中大多数与问题无关,导致LLMs生成不相关的答案。

知识检索器

为了克服这些限制,我们进一步提出只检索和增强与问题相关联的三元组。请注意,存在一种文档检索方案(林等人,2021),其目标是根据嵌入相似性检索给定查询的相关文档,这激励我们在我们的案例中检索用户问题的三元组。特别是,由于在第3.2节中定义了 verbalizer,我们可以将来自符号知识图谱的三元组在文本空间中进行操作。因此,对于口头化的三元组和问题,我们首先使用现成的句子嵌入模型将它们嵌入到表示空间中,以便进行文本检索(Song等,2020;Karpukhin等,2020;Xiong等,2021),然后计算它们的相似性。之后,我们只使用与给定问题相关的前K个相似三元组,而不是使用所有N个三元组。请注意,与最近的一些研究(Oguz等人,2022;Ma等人,2022;Kang等人,2022)不同,这些研究旨在在监督训练下改进知识图谱检索器,我们关注的是使用知识图谱的零样本语言模型提示,因此我们将任何现成的检索器作为工具来过滤掉与问题无关的三元组。

4 实验设置

我们解释了数据集、模型、指标和实现。有关更多详细信息,请参阅附录A。

4.1 数据集

我们对我们的知识增强语言模型PromptING(KAPING)框架在两个知识图谱问答(KGQA)数据集上进行了评估,分别是WebQuestionsSP和Mintaka。

WebQuestionsSP(WebQSP)

这个数据集(Bertant等人,2013年;Yih等人,2016年)是基于Freebase知识图谱(Bollacker等人,2008年)设计的。它包含1,639个测试样本,我们将其用于零次评估。此外,由于Freebase已经过时,我们还使用了Wikidata知识图谱(Vrandecic和Krötzsch,2014年),通过使用从Freebase id到Wikidata的可用映射(Diefenbach等人,2017年)。这个额外的数据集包含1,466个样本。

Mintaka

这个数据集(Sen等人,2022)是最近为复杂的知识图谱问答任务设计的,使用了维基数据知识图谱。在8种不同的语言中,我们使用了由4000个样本组成的英语测试集。

4.2 大型语言模型

为了验证我们的KAPING框架在大型语言模型(LLMs)上的性能,以及在零样本知识图谱问答(KGQA)上的基准测试,我们使用了不同大小的各种LLM。具体来说,我们使用了T5(Raffel等人,2020)(0.8B,3B,11B),T0(Sanh等人,2022)(3B,11B),OPT(Zhang等人,2022)(2.7B,6.7B)和GPT-3(Brown等人,2020)(6.7B,175B)。我们在附录A.2中提供了详细信息。

4.3 基线模型和我们的模型

在这一部分,我们将解释四个零样本语言模型提示基线和我们的KAPING框架。

无知识

这是一个天真的语言模型提示基线,它从输入问题中生成答案,而不从知识图中增强知识。

随机知识

这是一个语言模型提示基线,它还另外将与问题中出现的实体相关的随机采样K个三元组添加到提示中。

流行知识

这是一个基于流行三元组的LM提示基准,它在问题实体的所有三元组中补充了K个最受欢迎的三元组,基于在KG中出现频率最高的关系。

生成知识

这是一个基于LLM自身的提示提取的LM提示基准,然后以提示的形式增强它们(Liu等人,2022b),类似于Kojima等人(2022)的方法。

KAPING(我们的)

这是我们的知识增强语言模型提示框架KAPING(KAPING),它首先通过知识检索器检索与问题最相关的前K个三元组,然后将它们以提示的形式进行增强。

4.4评估指标

生成

遵循生成式知识图谱问答(Yin等人,2016年;Sen等人,2022年;Mavi等人,2022年)的评估协议,我们使用准确度来衡量从给定提示中生成的标记是否包含一个答案实体。请注意,我们进一步考虑了答案实体在Freebase和Wikidata知识图谱中可用的别名——一组备选名称——来进行评估。

检索

我们还测量检索器的性能,以了解检索到的三元组对答案生成有多大的帮助。作为指标,我们使用平均互信息排名(MRR)和Top-K准确度(Top-K),它们是通过将正确检索到的包含答案实体的三元组在所有与问题实体关联的三元组中的排名来计算的。

4.5实现细节

对于知识注入,我们将检索到的事实数量设置为10(K=10),并且三元组检索的跳转次数设置为1。对于基于文本的检索器,我们使用MPNet(Song等人,2020)进行实验,它使用相同的编码器来嵌入问题和三元组。有关更多细节,请参阅附录A.4。

5 实验结果与分析

我们提供了KAPING框架的总体结果及其全面的分析。

主要结果

如表1所示,我们的KAP-ING框架在零样本知识图谱问答任务上显著优于所有语言模型提示的基线。特别是,与没有知识模型相比,生成的知识模型大多降低了性能,因为从大型语言模型本身提取的知识可能不准确。另一方面,随机和流行的 knowledge 基线带来了性能提升,因为有时从 KGs 中获取的增强 knowledge 对于回答问题是有用的。然而,我们的方法优于它们,这表明对于零次 LM prompting for QA,LLMs 内部化的 knowledge 不足以生成事实性的答案,使用相关事实是很重要的。
在这里插入图片描述

表1:语言模型提示的主要结果,其中我们报告了生成准确率。第一行括号中的数字表示语言模型的参数大小,最好的分数用粗体强调。

此外,我们还观察到当语言模型相对较小的时候,性能提升更大。换句话说,由于较小的模型在预训练期间没有足够的参数空间来记忆知识,它们更有可能产生事实错误的答案。然而,当给定适当的 knowledge 时,它们的性能有时会与较大的模型相似(例如,不同大小的 OPT 在我们的 KAPING 中具有类似的性能)。因此,在低资源设置下需要事实知识的任务(如生产)中,增强知识会更有益,而不是增加模型规模来处理大量知识。

检索结果

为了了解增强的知识的相关性,我们进一步测量检索性能。如表2所示,现有的检索模型(即MPNet)相较于随机和热门检索器等naive模型表现出优越的性能。这个结果表明,我们的简单图到文本表述与现有的检索器配合得很好,这进一步证实了我们的KAPING在LM提示中增加了有用的事实。关于候选三元组的跳转数量,我们观察到,当我们把跳转大小从1增加到2时,检索器更有可能检索到不包含答案实体的不相关三元组,如表2所示。因此,在我们的实验中,我们在问题实体的1-hop三元组之间检索知识。
在这里插入图片描述

表格2:检索器结果。我们比较了随机模型、流行模型和MPNet(Song等人,2020),在1-和2-hop检索上的表现。

此外,由于我们可以根据检索器中排名最高的三元组中的实体来回答输入问题,所以我们比较了LLMs的生成性能和检索性能。如图2所示,即使没有知识增强(即没有知识),LM提示方案也优于仅使用检索到的三元组中的实体来回答问题,除了WebQSP w/ Freebase数据集。此外,我们观察到我们的KAPING框架与所有数据集上的简单检索方案之间存在巨大差距。这些结果表明,对于零样本知识图谱问答,利用LLMs(大型语言模型)根据其内部化和外部事实生成答案,而不是直接在知识图谱上搜索答案实体,会更有帮助。
在这里插入图片描述

图2:检索和LM提示的比较。检索是MPNet(Song等人,2020)的Top-1结果。

正确与错误检索的影响

我们对正确检索到的包含答案实体的三元组对模型性能的提升程度以及错误检索到的不包含答案实体的三元组对模型性能的影响进行了分析。如图3所示,当检索到的三元组包含答案实体时,与没有知识增强的模型相比,LLMs的性能得到了显著提升。然而,当检索器失败时,性能低于没有知识增强的模型。这些结果表明,当相关知识被增强时,LLMs能够情境化并准确生成答案。同时,错误检索的知识使LLMs基于不相关的事实进行条件生成,从而产生错误的答案。
在这里插入图片描述

图3:GPT-3(6.7B)模型生成性能的正确和错误检索比较。

知识量的差异

我们改变事实的数量,以查看在提示中增加哪些三元组数量是最佳的,通过比较生成性能和实际时间之间的权衡。首先,如图5所示,大多数LLM在三元组数量为5或10时达到相对最高的性能。此外,当我们进一步将增强三元组的大小增加到15和30时,OPT模型的性能大幅度下降。这个结果表明,当三元组的数量较高时,一些语言模型可能会被无关的三元组分散注意力,因此无法选择和生成答案实体。
在这里插入图片描述

图5:随着知识量的变化,性能也会发生变化,这里我们改变检索到的三元组数量以增强。

然后,我们测量了答案生成的实墙时间,对于编码器-解码器(T0)和解码器-only(OPT)模型,随着提示中增强三元组数量的变化。如表3所示,关于编码器-解码器模型,我们的KAPING框架在使用少于10个三元组的情况下比没有知识增强的模型更快。我们观察到,当知识被添加到模型中时,模型倾向于生成更短的答案,这可以减少解码时间。更具体地说,带有10个三元组的T0模型生成的令牌长度为15,而没有知识的模型平均生成32个令牌。然而,对于解码器-only模型(OPT),我们增加的知识越多,模型的速度就会变得越慢,这是因为它具有自回归特性,需要消化输入。
在这里插入图片描述

表格3:在不同知识量下的效率,其中我们测量了每个模型在WebQSP w/ Wikidata数据集上生成答案的墙钟时间。

订单对检索三元组的影响

在少量样本语言模型提示中,大型语言模型还会观察到提示中的少量示例,已知它们对示例的顺序很敏感(Lu等人,2022),并且它们倾向于遵循最后一个示例的答案(Zhao等人,2021)。根据这些观察,我们还对检索到的三元组的顺序是否影响性能进行了分析。特别是,我们通过将更相似的三元组放在问题的不同位置来改变它们的位置,这些位置包括提示的顶部、底部或随机位置。如图4所示,我们的KAPING对检索到的三元组的位置不敏感,除了在WebQSP数据集上的OPT模型。换句话说,OPT模型倾向于生成位于提示输入第一部分的实体。同时,其他LLM可以将整个提示输入上下文化,并生成无论其位置如何的实体。
在这里插入图片描述

图4:随着知识顺序的变化,我们改变更相关三元组在LLMs提示中的位置-顶部、底部或随机,以展示不同表现。

实体链接的效果

按照传统的KGQA评估方法(Cohen等人,2020),我们使用数据集中标记的问题实体来检索KG中的事实。然而,为了观察通过实体链接(EL)技术识别的实体的表现,我们进一步使用EL模型ReFinED(Ayoola等人,2022)进行实验。如表5所示,虽然使用EL的KAPING模型的性能略低于使用标注实体的模型,这是由于EL的性能所致,但我们始终观察到与无知识模型相比有意义的性能提升。
在这里插入图片描述

表格5:使用实体链接的结果,其中模型带EL是使用从实体链接技术(Ayoola等人,2022)中提取的实体,而不是使用标记的实体,在Mintaka上。

案例研究

我们在表4中进行了一项案例研究。特别是,当知识没有提供给语言模型时,它会臆想出错误的事实答案。然而,当检索到相关事实并将其添加到提示中时,它能够生成正确的答案。此外,我们分析了我们的KAPING是否能够适应更新的知识,这是因为一些知识会随着时间的推移而改变,而语言模型中的知识却保持静态。为了实现这一目标,如表4的最后一行所示,我们替换了三元组中的对象实体,然后将修改后的事实传递给语言模型。结果表明,语言模型可以根据更新的事实生成输出,这表明了在不昂贵地更新其参数的情况下适应语言模型的潜力。
在这里插入图片描述

表格4:对于从检索器中提取的增强三元组输入问题,提示GPT-3的生成示例,在最后一行,我们更改增强事实的知识,以查看模型是否能够适应知识的变化。

附加结果

请注意,我们还在附录B中提供了更多的实验结果。具体来说,我们在附录B.1中比较了检索器的性能,对模板文本进行了灵敏度分析,参见附录B.2。在附录B.3中提供了包括人工评估在内的额外指标的结果,验证了我们的KAPING在少量样本情况下的性能,参见附录B.4。在附录B.5中提供了对表述的分析,并在附录B.6中提供了效率分析。

6 结论

在这项工作中,我们关注了现有语言模型提示方案的局限性,这些方案依赖于模型参数内部化的静态知识。因此,当这些知识不完整、不准确或过时时,大型语言模型可能会生成事实错误的答案。为了解决这个挑战,我们引入了一种新颖的知识增强语言模型PromptING(KAPING)框架,该框架直接从知识图谱中为输入问题增加知识,同时使用事实检索器只注入相关知识。所提出的框架是完全零次性的,并且适用于任何语言模型,无需额外的参数更新和训练数据集。我们验证了我们的KAPING在知识图谱问答任务上比依赖内部知识的语言模型有巨大的性能差距,特别是在使用较小的语言模型时。我们相信,我们这种从知识图谱中补充事实到语言模型提示的新机制将在生成基于知识的答案方面带来实质性的实际影响。

限制

在这部分,我们如实地讨论了当前的限制和未来研究的潜在途径。
首先,我们的知识增强框架的生成性能在很大程度上取决于检索器的有效性。换句话说,如果检索器无法检索到与输入问题相关的事实,那么提示的大型语言模型(根据不相关的事实)很可能生成错误的答案(见图3)。同样,如果检索器没有设计成从问题实体的2跳邻域中检索事实,那么LLMs(大型语言模型)不太可能生成需要2跳知识的答案。请注意,对于Mintaka数据集(Sen等人,2022),可以用1个事实回答的问题数量仅占总样本的40%。然而,当我们包含2跳三元组时,可回答的问题数量变为62%,这表明需要2跳检索,但这仍然是具有挑战性的(参见表2)。因此,未来的工作可能会改进检索方案本身,以提供更准确的多跳事实给LLM,或者开发防止LLM被不相关事实误导的机制。
另一方面,提示式LLMs生成性能的评估指标还有进一步提升的空间。具体来说,关于我们的目标KGQA任务,问题的答案是知识图谱中的实体。然而,没有经过额外训练的提示式大型语言模型(即零次射击)往往会产生与问题标签实体相同的答案。例如,表4中的问题(例如,亚历克斯·奇尔顿是在哪里去世的?)的标签实体是“新奥尔良”,但是,大型语言模型通常会产生句子级别的输出:“亚历克斯·奇尔顿于2010年3月17日在路易斯安那州新奥尔良因心肌梗死去世”。 我们目前通过测量生成的代币是否包含答案实体来评估模型性能;然而,值得开发额外的度量标准,以更有效地将LLMs的句子级输出与KGs中的单词级答案进行比较。请注意,我们还尝试了其他可用的指标(参见附录B.3),例如F1和精确匹配(EM)分数(Rajpurkar等人,2016)。然而,这些指标很大程度上会惩罚较长的句子(例如,表4中的正确示例的EM得分为0),因此可能不适合评估语言模型提示方案。
最后,由于我们关注的是改进知识注入在语言模型提示中的应用,因此在评估模型时,我们遵循现有的知识图谱问答(KGQA)评估设置,使用KGQA数据集中的标注实体(Cohen et al., 2020; Sen et al., 2021)。然而,在实际应用中,问题中的实体大多没有提供,我们首先需要使用现有的实体链接技术提取问题中的实体;因此,我们的模型性能取决于实体链接的有效性。特别是关于表5中实体链接的结果,从数据集中的标注实体得出的答案问题的比例为40%,然而,通过实体链接模型(Ayoola等人,2022)得出的实体问题的比例为22%。因此,由于改进的实体链接性能将有助于提高我们KAPING框架的性能,对于知识图谱问答任务,未来的工作可能会进一步发展这种实体链接方案。

伦理声明

对于用户的问题,我们的知识增强方案可以使提示的LMs生成一个基于提供的知识的事实正确答案,用于KGQA任务。然而,由于实体链接、事实检索和知识生成本身的潜在失败,我们的KAPING框架的性能仍远非完美。因此,我们应该关注LMs是否生成正确的答案,特别是在高风险领域。

致谢

我们感谢亚马逊Alexa AI的End-to-End Reasoning团队的成员和匿名审稿人提出的建设性意见。

参考文献

见论文,此处略。

A 附加实验设置

在这里,我们提供附加的实验设置。

A.1 数据集

我们为两个知识图谱问答(KGQA)数据集提供额外的详细信息,即WebQuestionsSP和Mintaka,我们用于评估基线和我们的模型。

WebQuestionsSP (WebQSP)

问题和相应的答案通过Freebase实体进行注释(Bollacker等,2008),并通过额外的清理步骤进行细化(Yih等,2016):从原始的WebQuestions数据集中过滤掉具有无效注释的样本(Berant等,2013)。

Mintaka

这个数据集(Sen et al., 2022)旨在解决复杂的知识图谱问答任务,包括最高级和比较级问题。问题和答案对从众包中收集,使用的是Wikidata实体(Vrandecic and Krötzsch, 2014)。

A.2大型语言模型

我们描述了用于语言模型提示的大型语言模型(LLMs)的具体细节。

T5

该模型(Raffel等人,2020)是一种编码器-解码器模型,我们使用了不同变体中的LM适应版本,该版本还使用自回归语言建模目标(Radford等人,2018)进行了额外的预训练,以进行语言模型提示。

T0

这个模型(Sanh et al., 2022)是在T5(Raffel et al., 2020)的基础上进一步微调的,通过提示文本到文本的任务,以提高零样本泛化性能。

GPT-3

这个模型(Brown et al., 2020)是一个只包含解码器的模型,我们通过API访问它。

OPT

这个模型(Zhang et al., 2022)是一个只包含解码器的模型,免费提供给研究人员使用。

AlexaTM

这个模型(Soltan等人,2022年)是一个编码器-解码器模型,通过降噪进行预训练,它能够重建15%被删除的令牌的上下文,以及自回归预测,根据之前的令牌预测下一个令牌。

A.3评估指标

我们提供了更多关于评估指标的详细信息。

别名

对于生成式问答任务,实体可以有其他名称,称为别名,并在评估中考虑它们。例如,一个维基数据实体,“威廉·莎士比亚”(Q692)有其他名称,如“莎士比亚”和“吟游诗人”,在衡量生成性能时考虑它们。

过滤无名实体

在评估生成模型时,需要实体的名称。然而,有时我们无法从Freebase和Wikipedia KGs上的实体ID中找到答案实体的名称。这是因为标注的答案实体有时不是实体,而是类别,而KGs中的实体ID可能会发生变化,但我们无法找到用于标注数据集的KGs的备份。因此,我们过滤掉那些答案实体没有文字名称的样本。这个过滤步骤使得WebQSP w/ Freebase数据集有1,582个测试样本,WebQSP w/ Wikidata数据集有1,466个测试样本,Mintaka数据集有2,814个测试样本。

A.4实现细节

在本小节中,我们提供了实现KAPING框架的更多细节。

知识注入方案

在知识注入方案中,有多种选择,从要检索的事实数量,到候选三元组的跳转次数,到检索事实的顺序(即在提示中最有相关性的知识应该位于何处),再到提示模板及其指导文本。尽管它们的搜索空间极其庞大,我们的目标是找到最优的设置(请参阅第5节的分析)。具体来说,如第4.5节所报告的,我们找到的最佳设置是:检索的事实数量为10,从问题实体中检索三元组的跳数为1。此外,我们受以下观察启发,将与输入问题更相关的三元组放在问题文本附近的提示中:模型倾向于重写出现在提示末尾的答案(Zhao et al., 2021)。此外,我们还研究了不同的回答指令模板,例如“问题:{x} 答案: ”或“请回答以下问题:{x}”,其中x是实际问题。关于指令模板,我们发现LLMs在不同指令之间的性能很敏感(参见附录B.2),因此我们尝试了两种指令,并报告了最好的结果。

检索模型

为了在零样本设置下只增强与输入问题相关联的三元组,我们使用现成的文本检索器模型。具体来说,我们尝试了两种不同类型的检索器:对称检索器,它为问题和三元组使用相同的编码器;不对称检索器,它为它们使用单独的编码器。对于对称检索器,我们使用MPNet(Song等人,2020),它是在1B句子对上进行训练的。同时,对于不对称检索器,我们使用TAS-B(Hofstätter等人,2021),它是在MS-MARCO数据集(Nguyen等人,2016)上进行训练的。除非另有说明,我们主要报告MPNet的结果,因为它们的性能相似(参见附录B.1)。

A.5超参数和资源

我们使用PyTorch(Paszke等人,2019)和Transformers(Wolf等人,2020)库来评估所有模型。对于编码器-解码器模型,我们设置最大输入标记长度为1,024,最大输出标记长度为128。对于解码器-only模型,我们将最大标记长度设置为1,152(1,024 + 128)。关于计算资源,我们使用8个V100 GPU运行所有模型,拥有8 × 32GB的GPU内存,确保每个模型在一天内可运行完成。请注意,由于使用大型语言模型进行模型提示的计算成本昂贵,我们只运行每个模型一次,然后报告结果,除非另有说明,不进行额外的超参数调整。

B 额外的实验结果

在本节中,我们提供了关于可用文本检索模型的比较的额外实验结果(在B.1节中)、关于提示模板文本的敏感性分析(在B.2节中)以及额外的评估指标(在B.3节中)。

B.1 检索器性能的比较

在表6中,我们比较了现有对称和非对称检索器,分别为MPNet(Song等人,2020年)和TAS-B(Hofstätter等人,2021年),这些在A.4节中已解释。如表6所示,我们观察到对称(MPNet)和非对称(TAS-B)检索器之间的性能相似,这表明我们的简单图到文本的表述在不同的文本检索方案中具有鲁棒性。请注意,由于两者检索性能相似,我们主要使用MPNet进行实验,以降低GPU使用的昂贵计算成本。
在这里插入图片描述

表6:两种不同的检索器的结果,即MP-Net(Song等人,2020年)和TAS-B(Hofstätter等人,2021年)。

在这里插入图片描述

表7:在WebQSP和Mintaka数据集上,使用不同指令模板的各种LLM的结果。

B.2 模板文本的敏感性分析

根据赵等人(2021)的观察,大型语言模型(LLMs)在不同的提示模板中的表现各不相同。在我们的实验中,由于在各种LLMs上尝试所有不同的提示模板在计算上是不现实的,我们考虑了两种类型的提示模板,详见附录A.4。特别是对于问题x,我们使用"问题:{x}答案:"或"请回答以下问题:{x}"这两个模板。如表7所示,对于T5模型,默认模板比"请"模板更优秀。同时,对于OPT模型,"请"模板优于其他模板。然而,在T0和GPT-3模型中,使用默认模板和"请"模板的性能差异微乎其微。因此,这些结果表明,在不同大型语言模型中,我们可能需要精心选择指令模板以获得最佳性能。
此外,关于第3.2节中描述的知识注入模板,我们还发现GPT-3的生成性能取决于模板中的指令文本。特别是,我们主要使用以下模板进行实验:“以下是与回答问题相关的事实,以三元组的形式给出。”;然而,我们观察到当增强的三元组与给定问题不相关时,性能会退化,如图3所示。因此,为了提高错误检索的性能,我们进一步尝试了以下模板:“以下是可能对回答问题有意义的事实,以三元组的形式呈现。”。然后,使用先前模板的GPT-3(175B)模型在正确和错误检索方面的准确度分别为74.16和42.80。同时,使用包含“可能”的指令模板的同一模型在正确和错误检索方面的准确度分别为72.91和51.38。因此,这些结果表明,使用“可能”陈述的知识注入模板使模型在增强的三元组上不那么选择性,而更关注参数中的内部知识,从而提高了错误检索性能,同时降低了正确检索的性能。

B.3 额外的评估指标

如第4.4节所述,我们根据生成的输入问题标记是否包含答案实体来评估LLMs的性能。这是因为,如第6节所述,未经过进一步微调的预训练LLMs倾向于以句子形式生成答案,而KGQA任务的答案是由几个标记组成的实体。在本小节中,我们进一步提供了使用其他评估指标(Rajpurkar等,2016)的实验结果,即F1和精确匹配(EM)分数。请注意,它们经常用于评估提取式问答模型,其目标是在给定上下文中分类答案跨度,而无需生成。如表8所示,由于F1分数对较长句子的惩罚过于严重,因此LLMs根据F1分数评估的性能大幅度下降,除了T0模型。T0模型通过提示文本到文本任务(包括问答)进行进一步微调,因此能够生成实体级别的输出。同样,除了T0,使用EM分数来评估提示式LMS的性能也是非常不理想的,因为输出长度存在差异。因此,进一步开发更好的用于提示式LMS在知识图谱问答任务下的评估指标是一个有前途的研究方向,我们将其作为未来的工作。
在这里插入图片描述

表8:使用额外指标(F1和精确匹配(EM))的LM提示结果,以及准确度(Acc.)分数。

虽然用于抽取式问答任务的F1和EM分数可能不太适合评估生成式语言模型提示方案,但我们的KAPING框架在基于平均F1和EM分数的基础上,仍然持续优于所有其他基线,且优势明显。请注意,尽管生成的知识库在某些情况下具有较高的EM和F1分数,但这种情况很少发生。这是因为,与我们的句子级输出不同,GPT-3模型生成的是实体级输出。换句话说,我们KAP-ING的句子级输出通常比答案实体要长,因为我们的模型是基于从知识图谱中检索到的事实建立的,如表15所示;然而,较长的句子会降低F1和EM分数。更具体地说,生成的知识模型的输出序列长度的平均值为67.77,而我们的平均值为74.92。然而,当我们比较生成的知识基线与其他大型语言模型以及其他指标时,我们的KAPING显著优于这个基线。
在这里插入图片描述

表格9:人类评估结果,其中我们随机从WebQSP w/ Freebase数据集中抽取了30个示例。

在这里插入图片描述

表10:带有少量学习的KGQA结果。我们改变了提示中的示例数量(即射击次数),并报告了在WebQSP w/ Wikidata数据集上的性能。

在这里插入图片描述

表11:使用不同 verbalizer 的检索结果。我们使用 Ma 等人(2022)提出的图到文本转换模型来获取自由形式的文本。对于三元组形式的文本,我们使用第3.2节中描述的 verbalization 技术。MPNet(Song 等人,2020)用作检索器,性能在 WebQSP w/ Wikidata 上报告。

在这里插入图片描述

表格12:使用不同口头表达的KGQA结果。我们使用Ma等人(2022)提出的图到文本转换模型来获取自由文本。对于三元组形式的文本,我们使用第3.2节中描述的口头表达技术。然后,我们将口头表达的三元组注入到输入提示中。我们在WebQSP w/ Wikidata上报告生成准确率。

人类评估

此外,与之前的生成式问答工作类似(Roberts 等,2020),我们手动检查了WebQSP w/ Freebase数据集中的30个样本,以查看生成的句子是否在事实层面上正确回答了输入问题。对于这个实验,我们评估了四个大型语言模型:T0(3B)、T0(11B)、GPT-3(6.7B)和GPT-3(175B),以及无知识基线和我们的KAPING。此外,我们对每个生成示例使用三种不同的评分:1)如果生成句子中的所有信息在事实层面上都是正确的,我们将其标记为正确;2)如果生成句子中的一些信息在事实层面上是不正确的,但至少包含一个答案实体,我们将其标记为半正确;3)对于所有其他情况,我们将其标记为不正确。如表9所示,我们发现与没有知识的基线相比,我们的KAPING框架更能生成事实正确的答案,这与表1和表8中的可用评估指标结果一致。我们在表15和表16中提供了用于人类评估的生成答案,适用于GPT-3(175B)和T0(3B)模型。

B.4 少样本学习的性能

在我们的工作中,重点是如主论文中所概述的零次射击。然而,在本节中,我们还将这个零次射击设置扩展到了少数射击设置,即我们在LLMs的提示中预置了关于输入-输出对的几个示例。如表10所示,对于KGQA任务,随着我们在输入提示中增加样本数量(即射击次数),性能有所下降,但OPT模型除外。我们建议这可能是因为,在提示中注入的示例与给定的事实问题的相关性较低,误导模型关注注入示例中的无关上下文。这种现象在我们的KAPING框架中更为严重;这同样是因为我们的KAPING增强了检索到的事实,如果在输入提示中进一步注入其他几个示例的事实,模型更容易被那些不相关事实所迷惑。对于OPT模型,我们观察到No Knowledge模型的性能略有提高,因为注入的少数例子提供了一些关于输出格式的提示。我们将进一步扩展我们的零样本KAPING框架以适用于少量样本学习机制作为未来的工作。

B.5知识表述分析

如3.2节的知识表达部分所述,我们使用了线性三元组表达技术,该技术简单地将三元组的主语、关系和宾语的标记串联起来,而不是使用复杂的利用特定图到文本转换方法的技术(Oguz等人,2022;Ma等人,2022)。这是因为,我们观察到我们的简单表达技术效果很好,并且在这个小节中,我们具体展示了在知识检索和注入步骤中,我们的表达技术与现有表达技术之间的性能差异。请注意,为了进行比较,我们使用了Ma等人(2022)提出的训练知识表达器。
在这里插入图片描述

表13:效率结果,我们测量了每个模型在WebQSP w/ Wikidata数据集上生成答案的墙钟时间。文档增强模型(Lazaridou等,2022)增强了他们论文中列出的文档,而我们的模型则增强了从知识图谱中检索到的与问题相关的三元组。我们为T5和T0模型设置最大输入序列数为1,024,对于OPT设置为2,048。OOL表示输入提示长度超过最大输入标记长度的超出长度错误。OOM表示在具有八个V100 GPU的机器上出现的内存不足错误。

我们首先在表11中提供了不同知识表述方法的事实检索性能。如表11所示,我们观察到我们的简单三元组形式文本表述在事实检索方面优于自由形式文本表述。这段内容可能是因为自由形式的表达模型,将图表转换为文本,可能会生成与原始三元组在语义上不同的错误输出,导致检索性能下降。
另一方面,我们还在我们的KAPING框架上报告了使用两种不同知识口头表达器的KGQA生成结果,如表12所示。从表12中我们可以观察到,在使用我们的KAPING框架增强LLMs时,自由文本和三元组文本的表现是相当的。更具体地说,对于T5模型,它是在无标签语料库上进行预训练的,没有额外的指令调整,自由文本表现良好。同时,对于T0模型,它是在自然语言指令任务上进一步微调的,使用我们的线性三元组表达方案是有益的。

B.6额外的效率比较

在本小节中,我们进一步提供了我们在主实验中使用的所有LLM的效率结果,这些结果来自于三个不同的模型:无知识模型、文档增强(即网络增强)模型(Lazaridou等人,2022年)和我们的KAPING框架。我们注意到,正如在第2节的知识增强LMs段落中讨论的那样,网络增强方法通过使用Google搜索的文档和少量样本学习设置来增强文档。然而,正如我们在那里讨论的那样,这种网络增强与我们的正交,因为我们将完全不同的知识来源(即知识图谱)用于零样本学习设置;从这个角度来看,我们如何检索和增强相关知识的核心机制与语言模型提示明显不同且新颖。此外,如第2节所述,这种网页增强方法在实验上也无法进行比较,因为个别研究人员无法自由访问谷歌搜索API来为世界上每一个问题检索文档。而且,与我们的三元组案例(由少量标记组成)不同,增强包含数百到数千个标记的文档在计算上是昂贵的(Lazaridou等,2022)。在这部分中,为了实验性地验证这个问题,我们进一步比较了文档扩充和我们的事实扩充之间的计算成本。特别是,如表13所示,网页扩充机制的回答生成速度明显慢于我们的三元组扩充机制,因为它需要更多的时间来编码和处理输入提示中的文档,而与三元组相比。此外,根据原始论文(Lazaridou等人,2022),建议增加的文档数量为15,然而,在大多数情况下,我们观察到超出长度(OOL)错误,因为包含15个文档的输入提示的长度超过了LLMs的最大输入序列长度。虽然我们的事实增强方案比没有增强的模型慢,但我们相信,考虑到表1中的性能显著提高,以及与文档增强相比的高效率(见表13),KAPING是非常有益的。

B.7结果分析跨问题类型

对于Mintaka数据集(Sen等人,2022),每个问题都属于以下类别之一:通用、多跳、交集、差异、比较、最高级、序数、计数和是/否,这些类别定义了问题的复杂性。因此,为了了解我们的知识增强框架在哪些复杂性类别中有帮助,以及我们在哪些类别上需要进一步改进,我们在表14中根据问题类型分解了LLMs的性能。请注意,根据在A.3节中描述的评估协议,我们过滤掉了那些没有答案名称的问题,因此不考虑是/否类型的问题。
如表14最后一行所示,我们对所有LLMs在每个类别上的性能进行平均,我们的KAPING框架在所有类别上(除了比较型)都带来了显著的性能提升。一个特定的比较型问题就是“勒布朗·詹姆斯和斯蒂芬·库里谁赢得的NBA赛季MVP更多”,由于这类比较型问题很难检索和关联到相关的三元组,我们的KAPING在性能上不如简单的知识注入基线:随机知识和流行知识。然而,KG增强模型(例如,随机知识、流行知识和我们的KAPING)在性能上超过了其他基线模型,这表明知识增强机制对于解决比较性问题是有意义的。人们可以进一步改进检索策略或输入提示本身,我们将这作为未来的研究工作。
在另一点上,我们想提一下,对于计数类别,T0模型的性能与其他大型语言模型相比明显较低。这令人惊讶,因为T0模型在提示文本到文本任务上进行了进一步的微调,并且在其他类别上由于微调而具有强大的性能。我们相信,在T0模型微调过程中,由于没有与计数相关的提示任务,导致其在计数类别中的性能较低,这使得T0模型很难对特定实例进行计数。因此,为了进一步提高T0模型的泛化性能,可以在微调过程中增加更多多样化的提示任务,包括计数任务。

B.8 生成示例

我们提供生成示例以便比较无知识基线和我们的KAPING框架在GPT-3和T0语言模型中的表现,分别如表15和表16所示。我们还提供了我们的KAPING框架在四个不同LLM(T5(11B)、OPT(13B)、T0(11B)和GPT-3(175B))上的WebQSP w/ Wikidata数据集的检索和生成示例,如表17所示。

C 讨论提示设计/调整

我们讨论了提示设计和提示调优之间的差异,以及在提示调优文献中的其他相关工作。如第3.1节所述,给定一个输入问题,大型语言模型可以生成答案文本,这被称为LM提示(Brown et al., 2020; Liu et al., 2021)。然而,为了进一步提高基于语言模型提示的模型性能,以往的研究特别设计了提示的内容,这被称为提示设计(Shin et al.,2020;Lu et al.,2022)。更具体地说,Shin et al.(2020)在提示中额外包含对下游任务有意义的特定触发词,而Lu et al.(2022)在少样本语言模型提示设置下改变了提示中示例的顺序。我们的方法符合这样的提示设计文献,我们引入了在输入提示中使用知识图谱(KGs)事实的知识增强方法,以允许LLMs在零样本问答任务中基于事实知识进行条件判断。
另一方面,有提示调优的文献(Lester等人,2021a),它还使用监督学习目标对与提示相关的参数进行额外的训练,同时保持大型语言模型的参数不变。虽然这种提示调优方法在少量样本训练的情况下可以提高模型的学习效果,但并不适用于我们的零样本学习。此外,与提示设计方法不同,很难解释和操作嵌入空间中表示的提示。
请注意,最近很少有关于知识感知提示调优的工作(陈等人,2022b;胡等人,2022;陈等人,2022a),虽然它们与我们的语言模型提示(即提示设计)有根本区别,但我们还额外讨论了它们。首先,陈等人(2022b)通过提示调优来解决关系提取问题,他们提出将与关系类别相关的特定词语嵌入到嵌入空间中。例如,对于要分类的关系类型:“出生地县”,他们将人物和国家信息嵌入到表示空间中,通过监督学习的训练信号来提高关系分类性能。此外,Hu等人(2022)通过提示调整来解决文本分类任务,他们提出不仅要考虑分类标签词本身,还要考虑标签词的相关词。例如,对于句子标签"科学",他们进一步考虑与其相关的词汇:“物理学"和"数学”,这些词汇在特定的知识库中定义,如WordNet(Pedersen等人,2004)和ConceptNet(Speer等人,2017)。最后,陈等人(2022a)使用提示调整来处理类似的文本分类任务,其中他们提出在训练数据集中根据检索器的监督分类目标训练来检索数据实例(即一个句子及其标签)。
然而,所有上述的知识感知提示调整方法都明显不同于我们提出的KAPING框架。首先,它们仅限于完形填空式的预测,其中它们首先在输入提示中包含特定的遮盖标记,然后分类该遮盖标记的标签(例如,句子的情感或给定句子中的关系),类似于受遮盖语言建模目标(Devlin等,2019;Liu等,2019)。因此,他们的填空式预测方案不能用于问答任务,因为用户问题的答案不是单个词汇,而且从预测的标签词汇中很难转换为世界上所有不同的答案。与他们不同的是,我们的KAPING不依赖于遮盖词汇分类方案,因此我们的方法更灵活,不仅限于填空式分类;适合回答任何用户的问题。此外,其中一些方法(陈等,2022a,b)依赖于监督学习的训练数据集中的训练信号,而我们的方法完全是零样本的。虽然陈等人(2022a)展示了模型的零样本能力,但他们在论文中也提到需要训练数据集,因此也不适合我们的零样本问答。最后,我们通过将问题中的实体与其在知识图谱中的相关三元组进行匹配,来扩展事实知识。然而,之前的工作考虑了不同的知识来源,这些来源可能对问答任务没有帮助,例如词语之间的关系(Hu等人,2022),关系类与特定词语之间的关系(Chen等人,2022b),以及训练数据中句子及其标签的对(Chen等人,2022a)。
在这里插入图片描述

表格14:在Mintaka数据集中的各种LLM(大型语言模型)下,不同类型问题的结果,包括通用、多跳、交集、差异、比较、最高级、序数和计数。我们在第一行括号中报告了每个类别的数据实例数量。我们在最后一行提供了平均结果,即平均值。

在这里插入图片描述
在这里插入图片描述

表15:GPT-3(6.7B)在WebQSP w/ Freebase数据集上的生成示例,其中我们随机采样了30个示例。

在这里插入图片描述
在这里插入图片描述

表16:在WebQSP w/ Freebase数据集上,T0(3B)的生成示例,其中我们随机采样了30个示例。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

表17:我们的KAPING框架在WebQSP w/ Wikidata数据集上使用四种不同模型(T5(11B)、OPT(13B)、T0(11B)和GPT-3(175B))生成的示例。请注意,答案实体是测试数据集中的标注实体。

  • 31
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值