论文:Open Domain Question Answering with A Unified Knowledge Interface翻译笔记(开放领域问答与统一知识接口)


在这里插入图片描述

论文标题:开放领域问答与统一知识接口

论文链接:https://arxiv.org/abs/2110.08417
arXiv:2110.08417v2 [cs.CL] 19 Mar 2022

摘要

检索阅读器框架在开放领域问答(ODQA)中非常受欢迎,因为它能够利用显式知识。尽管之前的研究试图通过将结构化的知识扩展到文本之外来增加知识覆盖范围,但通过统一接口访问异构的知识源仍然是一个未解决的问题。虽然数据到文本生成有潜力作为数据和文本的通用接口,但它在下游任务中的可行性仍然很大程度上未知。在这项工作中,我们填补了这个差距,并将数据到文本方法作为一种为ODQA编码结构化知识的手段。具体来说,我们提出了一种在数据和文本上进行开放领域问答(ODQA)的口语化-检索器-阅读器框架,其中使用了来自维基百科的表格口语化和来自维基数据的图表作为增强知识源。我们证明了我们的统一数据和文本问答系统(UDT-QA)可以有效地从扩展的知识索引中受益,从而在文本基础线上获得巨大优势。值得注意的是,我们的方法在自然问题上设立了单一模型的最先进水平。此外,我们的分析表明,在适应和热交换设置下,用于答案推理的口头知识更受欢迎。

1 简介

预训练语言模型(Devlin等人,2019;Brown等人,2020)已被证明在参数中隐式存储某些知识(语言学或事实),部分解释了其在下游任务中的卓越泛化能力。(Manning等人,2020;Petroni等人,2019;Roberts等人,2020)。然而,除了众所周知的幻觉问题外,通过文本的语言建模目标学到的隐含知识在回答开放领域问题时,很难反映出文本和结构化数据中的最新知识。为了克服这个问题,最近关于开放领域问答(ODQA)的研究主要集中在半参数方法(Karpukhin等人,2020年;Guu等人,2020年)。在这种方法中,预训练的语言模型可以利用外部明确的知识来源进行推理。例如,在检索器-阅读器框架(闵等,2021年等人)中,阅读器通过依据检索器提供的相关证据来生成答案,而检索器则是与显式知识源(维基百科文本段落)的接口。在这项工作中,我们关注的是超越文本知识的半参数化方法。具体来说,我们感兴趣的问题是:我们能否在一个包含数据和文本的真实异构知识源上开发一个实用的统一接口?

最近的检索器-阅读器模型(Oguz等人,2020;Agarwal等人,2021)已经证明,通过在文本知识源中加入更多结构化数据是有益的。然而,在Agarwal等人(2021)的研究中只考虑了知识库(KB),这限制了他们的方法应用于其他结构化数据的能力。 在(Oguz等人,2020)中,表格和KB三元组都被简单地序列化为阅读器的输入,但是针对不同情况需要使用不同的检索器。在此,我们提出了一种半参数化框架——UDT-QA,它提供了一个数据和文本的ODQA(开放领域的问答)的统一表示和模型。其主要思想是在检索器中增加一个数据到文本的转换器(verbalizer),以便访问异构的知识源,即从WikiData获取KB图形,以及从Wikipedia获取表格和段落。

鉴于其在为数据和文本提供通用接口方面的潜力,数据到文本生成越来越受欢迎(Gardent等,2017;Parikh等,2020;Nan等,2021),并开发了各种方法来将结构化知识转换成自然语言(Wang等,2020;Ribeiro等,2020;Chen等,2020b)。尽管如此,大多数现有工作只关注内在评估,即通过诸如BLEU(Papineni等人,2002)等指标来衡量生成文本的质量,而对其在下游任务中的实用性了解甚少。此外,目前尚不清楚单一的数据到文本模型是否能够有效地对异构结构化数据进行口头表达。为了解决这个问题,我们开发了一种新颖的数据到文本生成范式。我们引入了数据过滤和束选择来最大化输入信息的忠实度。为了弥补目标领域内缺乏数据的问题,我们进一步提出了一种迭代训练方法,通过从目标领域中选择高质量输出来扩充现有的数据到文本训练集。通过这个 verbalizer,我们把来自维基百科的所有表格(比 Oguz 等人于2020年提供的多10倍)以及从维基数据提取的子图和维基百科文本段落作为开放领域的问答模型的知识来源。

我们首先使用内在指标在DART(Nan等人,2021)上验证我们的数据到文本方法,并在目标开放领域问答数据上进行额外的忠实度评估。我们证明,我们的数据到文本方法可以在不牺牲太多内在指标的情况下有效提高目标领域的忠实度指标。为了进一步评估端到端的有效性,我们使用最近的最先进的(SOTA)检索器-阅读器流水线在ODQA任务上对UDT-QA进行实验,包括DPR(Karpukhin等人,2020年)和UnitedQA(Cheng等人,2021b)。与以前的工作一致,我们的结果也表明,额外的知识源对ODQA有益。值得注意的是,我们发现与原始格式(线性化)相比,读者更喜欢口头化的知识,特别是当结构化数据大小与文本相当时,这会导致更显著的改进。总的来说,UDT-QA比纯文本基线有显著的提升,并且在自然问题(NQ)(Kwiatkowski等人,2019年)和网络问题(WebQ)(Berant等人,2013年)上与更复杂的方法具有竞争力。特别是UDT-QA在NQ的单模型开放书本设置下取得了新的SOTA。

2 UDT-QA概述

本节介绍了我们用于数据和文本ODQA的UDT-QA框架的整体流程(图1)。我们的方法与流行的检索器-阅读器ODQA系统(Min等,2021年及其他人)的主要区别在于使用数据到文本的口头化器(第3部分)将结构化数据转换为自然语言文本,即虚拟文档,作为通用知识源。在这里,我们考虑两种类型的结构化知识(第4.2节)——表格和KB子图。在对结构化知识进行表述后,后续的流程包括一个DPR检索器和一个UnitedQA-E阅读器用于答案推断。由于检索器和阅读器不是本工作的主要关注点,我们仅简要介绍它们如下。
在这里插入图片描述

图1:基于口头表达-检索-阅读器流程的UDT-QA概述。

DPR检索器(Karpukhin等人,2020年)是一个双编码模型,包括问题编码器和上下文编码器,用于数据和文本检索。按照以前的研究(Karpukhin 等人,2020年;Oguz 等人,2020年),我们使用无大小写的BERT-base(Devlin 等人,2019年)模型作为编码器,其中[CLS]标记表示被用作文档/问题向量。在训练过程中,使用正负两对(问题,上下文)来更新模型。在推理时,整个文档索引通过上下文编码器进行编码,然后利用编码后的问题向量检索与之相关性最高的文档。

UnitedQA-E(Cheng等,2021b)是一个基于ELECTRA(Clark等,2020)的提取式阅读器,通过增强目标(Cheng等,2021a,2020)进行答案推断。在这里,一个问题和一个支持段落对被联合编码为神经文本表示。这些表示被用来计算可能的答案开始和结束位置的分数,然后用于计算可能答案跨度的概率。最后,根据从整个支持段落集中所有可能的答案跨度的聚合来计算答案字符串的概率。

3 Verbalizer:数据到文本生成

在这里,我们正式描述了本文开发的数据到文本模型,包括输入格式(第3.1节)和适应性问答(第3.2节)。

3.1 输入格式

给定一个结构化数据输入D,数据到文本生成器G的目标是生成一个自然语言段落P,该段落真实地描述了D中呈现的信息。在文献中,结构化数据输入可以是三元组的形式(Nan等人,2021),是从表格中提取的一些突出显示的单元格(Parikh等人,2020)或整个表格(Chen等人,2020a)。相应地,P可以是D的一个简单的表面形式的表达(例如,当D是一个三元组集)或者在完整表格或大型知识图谱的情况下进行高级总结。由于本文考虑了任意大小的(嘈杂的)表格/知识图谱子图,因此直接将整个输入喂入生成器是不可行的,这可能会导致显著的计算挑战。此外,我们还希望最大化P的信息覆盖范围,以便下游问答检索器和阅读器可以利用D中的大多数相关信息。基于此,我们在细粒度级别上对表格和知识图进行表述。

在这项工作中,我们逐行口头表达表格,即分别将每行表格输入到G中,其中每一行是一个由r = {ci}i=1k表示的单元格集合,k是相应行中的单元格数量。与我们的设置最相关的是最近的研究(Nan等人,2021),该研究将每个单元格表示为一个三元组。为了形成这样的三元组,他们手动注释列标题的树形本体,然后使用表格标题、标题、单元格值和标题关系创建三元组,例如([TABLECONTEXT],[title],勒布朗·詹姆斯),(勒布朗·詹姆斯,联盟,NBA),其中勒布朗·詹姆斯是父单元格。尽管具有细粒度排序的此类三元组可能有助于引导生成器,但直接将此类生成器应用于没有本体注释的目标领域(我们的案例)可能会导致性能下降。为了解决这个问题,我们提出将三元组集转换为对,例如([标题],勒布朗·詹姆斯),(联盟,NBA)。我们发现这种转换对内在评估(第5节)几乎没有影响。在所有行都被口头化后,我们将文本输出重新组合以形成口头化的表格。

对于知识库(KB),我们遵循之前的研究(Agarwal等人,2021),将知识库划分为基于主题实体的小型子图。在这里,每个子图包含一个中心实体及其邻居。尽管这种转换不可避免地会产生不良影响(例如,在子图之间进行多跳推理时的障碍),但这个预处理步骤使我们能够统一表格和知识库图形的输入表示,从而使单一 verbalizer 可以将结构化知识转换为文本格式。具体来说,我们将所有KB子图转换为与上述表格单元格相同的格式,其中主题实体被视为标题,所有边都表示为对的形式(关系,对象)。然后我们使用生成器G将每个子图进行口头表达。在图1中展示了表格行和KB子图的输入和输出示例。

3.2 改进的数据到文本模型训练

在数据到文本生成中已知的一个问题是,模型往往会虚构信息或者忽略输入中的信息(王等,2020;阿加瓦尔等,2021)。当我们将口头化的输出应用于知识密集型的下游任务如开放领域的问答(ODQA)时,忠实度和信息覆盖范围尤其重要。为了解决这个问题,我们对训练数据T进行子采样,以便过滤掉那些可能导致模型倾向于获取缺失信息的实例。具体来说,我们计算输入和目标之间的ROUGE-1(林,2004)得分,并将低于一定阈值的实例过滤掉。我们将过滤后的版本表示为T-F。关于过滤实例的例子可以在表11中找到,我们将在附录F中有更详细的讨论,这些实例可能会使模型偏向于不想要的行为。

我们面临的另一个挑战是,大多数数据到文本的训练示例具有简洁的结构化输入。换句话说,结构化输入中的单元格通常是单个单词或短语,对应着简短的目标句子。然而在我们的案例中,许多表格包含带有数十个单词的大单元格。使用现有数据训练的模型可能很难忠实地表达这些输入。为了解决这个领域不匹配的问题,我们提出了一个迭代式训练设置。在第一轮迭代中,我们在T-F上训练一个生成器。然后我们将生成器应用于我们的数据。然后,我们根据模型输入和模型输出之间的ROUGE-1得分找到高质量的口头化输出,并在下一轮训练中采样得分高于某个阈值的实例。我们最多采样与T-F相同数量的实例,并将这个集合表示为ID-T(示例如表11所示)。最后,我们将ID-T与T-F混合在一起,训练第二个生成器进行口头化。

根据最近的研究(Nan等人,2021),我们使用预训练的T5-Large(Raffel等人,2020)模型作为我们的生成器。给定由结构化数据输入和目标句子组成的配对训练示例,我们微调T5模型以最大化生成相应目标句子的概率。在这里,我们遵循与(Ribeiro等人,2020)相同的实验设置。

4 实验设置

在这一部分,我们描述了用于实验的数据以及结构化知识的来源。

4.1 数据集

在这篇论文中,我们使用DART(Nan等人,2021)来训练我们的口头化器(数据到文本),以及两个ODQA数据集——NQ和WebQ,来训练和评估我们的流程。这些数据集的划分与(Lee等人,2019)中提供的相同,并由(Karpukhin等人,2020)提供。以下是我们对每个数据集的简要描述,并建议读者查阅他们的论文以获取详细信息。

DART是一个数据到文本的数据集,包含从WebNLG(Gardent等人,2017年),E2E(Novikova等人,2017年)以及基于表格的众包(如WikiSQL(Zhong等人,2017年)和WikiTableQuestions(Pasupat和Liang,2015年)中收集的三元组集和句子对。

自然问题包含从谷歌搜索查询中挖掘的问题,答案由众包工作者在维基百科文章中标注。

WebQuestions 包含来自谷歌建议API的问题,答案以实体形式标注在Freebase中。

我们从NQ和WebQ中收集可以获取知识答案的问题,以便评估我们的表达化工具并构建检索训练数据。具体来说,我们在原始的NQ训练集中找到可以通过表格回答的问题。对于每个问题,我们会在其关联的HTML页面中的表格里搜索以找到精确的答案匹配。总共,我们从NQ训练集和开发集中收集了14,164组(问题、答案、黄金表格)作为NQ-table-Q。在WebQ上,我们通过从问题实体扩展并搜索它们的1跳邻居,找到可以通过KB回答的问题。如果匹配到一个答案实体,我们将保留这个子图。总共,我们从WebQ训练集和开发集中收集了2,397个(问题,答案,子图)三元组,作为WebQ-KB-Q。

4.2 结构化知识源

除了常规的维基百科文本段落外,我们考虑两种类型的结构化知识——来自维基百科的表格和来自维基数据的知识图谱。

对于来自维基百科的表格,我们遵循OTT-QA(陈等,2021b)的方法并进行了一些修改。陈等人(2021b)只考虑格式良好的表格,即没有空格、多列或多行的表格,并限制表格最多不超过20行或列。相反,我们删除这些限制,并保留与

标签相关的一切,从而得到一个更大、更嘈杂的表格集。我们将这个更为现实的表格集称为 OTT 表格。

请注意,Oguz 等人(2020)只考虑了原始 NQ HTML 中的表格。除了大小差异外,OTT 表格是从比 NQ 版本更新的维基百科数据集中爬取的。为了研究知识源大小的影响,我们还使用(Herzig等人,2021)提出的启发式方法处理NQ HTML页面中的表格,以去重表格并过滤长度超过80个词的单元格。我们将这套表格称为NQ表格。为了避免重复,我们从OTT表格中删除那些页面标题在NQ表格集中的表格。总的来说,我们有一个包含来自OTT表格的220万个表格和来自NQ表格的21万个表格的All表格集。

对于知识图谱,我们考虑使用英文版的维基数据(Vrandeˇci´ci和Krötzsch,2014)作为我们的知识库,因为它具有广泛的覆盖范围和高质量,值得注意的是,尽管在研究中很受欢迎,但它的前身Freebase已经不再维护。为了与最近的工作(Agarwal等,2021)进行比较,我们在实验中直接使用他们在维基数据上分区的知识图谱,这被称为WD-Graphs。

5 实验:数据转文本

在本节中,我们使用内在和外在指标来评估我们的数据转文本模型。由于内在指标可能与下游性能的相关性较低,我们仅将其作为生成质量的合理性检查,并关注使用外在指标来选择模型。
内在评估:由于我们的模型主要基于DART进行开发,我们首先在DART测试集上进行内在评估,以衡量我们改进的数据到文本方法(即数据过滤和迭代训练)的影响。遵循(Nan等,2021),我们使用官方评估指标,包括BLEU、METEOR(Banerjee和Lavie,2005)、TER、MoverScore(Zhao等,2019)、BERTScore(Zhang等,2020)和BLEURT(Sel-lam等,2020)。表格1总结了DART测试中的不同数据到文本模型。如我们所见,使用我们的数据转换(行2)训练的最终模型表现与使用原始格式(行1)的模型相当。更有趣的是,过滤短样本对口头表达器的性能几乎没有影响(行3)。最后,使用额外的目标领域数据进行迭代训练(第4行)在BLEU和TER上稍微降低了性能,并在其他指标上实现了类似的性能。总的来说,我们的口头表达方法通过提出的数据转换和改进的训练,在DART上仍然非常有效。
在这里插入图片描述

表1:在DART测试和NQ-table-Q(第4.1节)上对口头表达方法的内在和外在评估,分别为“Ans Cov”指的是答案覆盖范围。除了TER以外,所有指标都是越高越好。

外在评估:由于我们关注的是将表达出来的知识应用于ODQA(开放领域的问答),只有当答案在表述后仍然存在时,QA模型才更有可能预测正确的答案。因此,我们还使用与下游任务性能更相关的指标来评估每个生成器:答案覆盖范围。具体来说,我们将答案覆盖率计算为原始结构化知识中出现的答案仍然保留在相应口语化输出中的示例百分比。

首先,我们计算上一节讨论的不同生成器在NQ表格问题中的答案覆盖率,已知这些表格包含触发问题的内容。这些分数在表1的最后一列中报告。由于NQ-table-Q中的更长的表格,数据过滤如预期般提高了答案覆盖范围。此外,通过我们的迭代训练训练的模型在答案覆盖范围内显示了显著的改进,表明我们的方法对于将表格转换为文本非常有效。示例用于比较不同语言生成器的输出,请参阅附录F中的表12。稍后,我们使用这个最佳生成器来对所有表格进行语言表达。我们使用大小为10的束搜索,并保存所有束。为了尽可能保留输入信息,我们根据模型输入和输出之间的ROUGE-1得分,在这些预测结果上进行重新排序。然后使用排名最高的预测作为最终输出。

最后,我们将最好的生成器(DART T-F + ID-T)直接应用于口语化知识图谱。为了评估性能,我们比较了我们的模型和最近的方法KELM-verbalizer(Agarwal等人,2021),在WebQ-KB-Q集合上使用答案覆盖,其中KB子图被知道包含答案实体。尽管我们的模型从未针对KB图输入进行调优,但其在答案覆盖面上达到了99.6的高分,远超KELM- verbalizer(答案覆盖率为97.8)。这表明我们的数据到文本的方法对于表格和KB子图都非常有效。

6 实验:数据和文本上的问答

在此,我们展示了在数据和文本上进行的主要ODQA实验。对于常规的维基百科文本,我们使用与(Karpukhin等人,2020)相同的包含2100万个段落的索引。为了增强文本,考虑了两种设置,即单数据设置和混合数据设置。

在NQ的单一数据设置中,我们通过将All-tables集中的表格添加到文本索引中来进行增强(第4.2节)。为了进行比较,我们还尝试使用类似于(Oguz等人,2020)的简单线性化表格的原始表示。在WebQ的单一数据设置中,我们考虑在单一数据设置中将文本与WD图形集中的KB图相结合。与Oguz等人(2020)的方法不同,他们使用了一个独立的实体链接基于检索器来处理知识库,而我们则在文本索引上使用一个单一模型,采用原始KB图的线性化或者我们的口头化KB图。因此,在我们的情况下,文本和数据(表格和KB图)都可以由一个统一的检索器-阅读器流程来处理。在NQ和WebQ的混合数据设置中,我们使用文本、所有表格和WD图进行检索。我们的文档索引的统计数据如附录A中的表7所示。

我们以类似于纯文本设置的方式从NQ-Table-Q和WebQ-KB-Q创建额外的检索器训练数据,以便DPR更好地处理额外的知识。根据(Oguz等人,2020),我们也为检索器训练使用迭代训练设置。更多训练细节可以在附录B中找到。

为了评估我们的UDT-QA在开放领域问答(ODQA)中的有效性,我们首先包括了最近使用文本作为唯一知识来源的最先进的ODQA模型,即DPR和UnitedQA。我们还将我们的UDT-QA与最近使用额外结构化知识的模型进行比较,包括KEALM和UnitK-QA。按照文献报道,我们将精确匹配(EM)得分作为评估指标。结果如表2所示。
在这里插入图片描述

表2:UDT-QA与最近的最先进的模型在NQ和WebQ测试集上的端到端开放领域问答评估。报告了精确匹配分数(最高分数以粗体显示)。

如我们所见,具有额外结构化知识的模型比仅使用文本的模型获得更好的性能。这表明,知识图和表格都包含了互补的知识,这些知识在文本中要么不存在,要么难以进行推理。对于NQ,尽管我们考虑了一个显著更大的结构化知识源,它可能更具挑战性,但我们的所有模型都大幅度超越了UnitK-QA。关于WebQ,我们的模型虽然没有UnitK-QA表现好,但也有竞争力。我们认为这个差距可能有两个原因。首先,UnitK-QA使用了一个独立的基于实体链接的检索器来搜索知识库,这可能会导致更高的检索召回率。其次,由于WebQ完全基于Free-BASE,仅在我们的模型中使用WikiData可能受到不匹配的影响(Pellissier Tanon等人,2016)。尽管如此,我们的基于口头表达的模型在两个数据集上的表现都比相应的原始格式模型更好,这表明所提出的口头表达对于表格和KB图形非常有效。

7 分析

在这部分,我们展示了关于文档索引大小、在热插拔设置中使用额外的结构化知识、与最近一种基于知识库的数据到文本方法的端到端比较以及对口头化/原始表格的手动检查以分析它们对ODQA的影响。**文档索引的大小如何影响检索器和阅读器的性能?**更丰富的知识可以更好地覆盖相关信息。另一方面,更大、更嘈杂的索引也会增加推理复杂度。为了了解文档索引大小增长的影响,我们进行了一个限制性实验,只使用与相应数据集(先验)相关的知识子集进行检索。类似于(Oguz等人,2020年),我们为NQ实验了文本和NQ表格的联合文档索引。对于WebQ,我们从包含WebQ问题实体的WD图形中保留文档,以构建WD图形-WebQ,并使用文本+ WD图形-WebQ进行实验。除了EM外,我们还报告了R20和R100,分别评估了在前20名和前100名文档中黄金段落的检索准确性。结果如表3所示。
在这里插入图片描述

表3:分别训练的检索器-阅读器模型中文档索引大小的影响(顶部为NQ,底部为WebQ)。所有指标都在对应的开发集上计算。V表示口语化,并且以后也会这样表示。

对于NQ,尽管更具挑战性,我们发现使用所有表格相较于使用NQ表格在召回率和答案精确匹配方面都有显著的提升。这表明,通过适当的训练,ODQA模型可能会从丰富的知识中受益。尽管较大的原始形式索引在读者性能方面带来了不错的改进(+1 EM)(+All-tables与NQ-tables),我们的口语化知识对于答案推理更加友好,从而导致问答方面更显著的改进(+1.3 EM)。与NQ不同的是,我们发现在WebQ上,受限设置(WD-graphs-WebQ)取得了更好的结果。我们假设这可能是由于WebQ数据集的规模导致的。WebQ训练量的小规模使得检索器不足以处理大规模的文档索引。我们将验证这一假设的工作留待未来进行。
**在只使用文本检索器-阅读器模型的情况下,与原始格式(热插拔)相比,口头知识的收益是否更大?**由于检索器和阅读器都基于预训练的语言模型,我们假设它们可能更受益于口头知识,因为它的风格与文本相似。这在热插拔设置中特别有用,因为在该设置下,检索器和阅读器在训练过程中仅见过文本知识。为了验证口头化的知识更容易接受,我们在这里进行了一次热插拔实验。具体来说,我们直接使用一个在NQ文本数据上训练的DPR模型来同时索引NQ表格和所有表格。然后,在增强的文档索引上对输入问题进行推理检索,并在之后应用在NQ上训练的文本版United-QA-E阅读器进行答案推断。结果总结在表4中。与之前完全微调的设置类似,我们发现额外的知识仍然可以为仅使用文本检索器(无论是使用原始知识还是口头化知识)提供显著的改进。然而,在原始格式中,读者的后续表现并没有反映出召回率的提高,而热插拔答案推理性能在使用口头知识的情况下明显提高。这一观察进一步证实了我们的假设,即口头知识更有益,特别是对于读者而言。
在这里插入图片描述

表4:使用文本仅检索器-阅读器模型在NQ测试上对原始与口头化表的热插拔评估。

**拟议的口头表达者与最近的数据到文本模型相比如何?**最后,我们将我们的口头表达者与最近提出的数据到文本生成器进行比较,该生成器仅用于转换知识库图,即KELM(Agarwal等,2021)。由于KELM生成器和我们的口头表达者都基于相同的分块维基数据,因此这次评估可以全面反映它们在端到端方式下的相应生成对ODQA的影响。在这里,我们使用我们的口头化的WD图和KELM语料库作为额外的知识来评估WebQ。具体来说,除了在数据构建和检索中将WD图替换为KELM语料库外,我们遵循相同的过程来训练和评估我们的检索器和阅读器。检索器和阅读器的性能如表5所示。请注意,KELM数据到文本模型仅专为转换知识图谱而定制,并使用大量数据集进行训练(约800万个训练实例),而我们的口头表达器适用于表格和知识图谱,且只需较小的训练数据(仅11万实例)。尽管如此,与我们的口头表达器在外部性能上的优势一致(第5部分),我们的口头表达器在检索和阅读方面都优于KELM生成器,这为我们的方法作为数据和文本的统一接口在开放领域问答(ODQA)中的有效性提供了进一步的支持。
在这里插入图片描述

表5:我们的表述器与KELM在检索器和阅读器上的WebQ测试中所表达的知识的比较。开发结果可以在附录D中的表格9中找到。

**口头化/原始表格对开放领域问答(ODQA)有什么影响?**我们手动分析了口头化和原始表格的示例,详细的注释可以在附录E中找到。我们在表6中展示了口头化表格及其原始对应物的示例,并讨论了它们对我们UDT-QA系统的影响。我们发现了2种常见的情况,即原始表格不如口头化表格,如表6前两行所示。在第一个例子中,原始表格中的连接数字可能难以解释,并且我们必须仔细对齐行与标题,而标题距离很远。在第二个例子中,原始信息框可能是无格式的并且非常长,使其难以理解。另一方面,口语化的行清楚地陈述了答案证据,通过将头部的信息与单元格值连接起来,使得找到答案变得简单明了。
在这里插入图片描述

表6:给定问题后,我们模型检索到的表格/块示例,其中证据以粗体显示。在原始表格中,|是行分隔符,empty是我们表格解析启发式方法使用的填充令牌(使表格形状良好)。

同时,我们也注意到了表格化的局限性:表格结构的丢失。我们发现原始表格在回答排名问题方面更优秀,如表6中第3行和第4行的例子所示。当被问及排名最高或最低的主题时,模型可以直接从表格的开头或结尾寻找证据。同时,我们也注意到了表格化的局限性:表格结构的丢失。我们发现原始表格在回答排名问题方面更优秀,如表6中第3行和第4行的例子所示。当被问及排名最高或最低的主题时,模型可以直接从表格的开头或结尾寻找证据。

8 相关工作

从结构化数据中生成文本一直是NLP领域的热门任务。为此任务已经提出了许多数据集,如Wikibio(Lebret等,2016年)、Rotowire(Wiseman等,2017年)、WebNLG(Gardent等,2017年)和E2E(Novikova等,2017年)。每个数据集都关注特定领域。更近一些时间,包含开放领域示例的大规模数据集被提出,包括DART(Nan等人,2021年),TOTTO(Parikh等人,2020年),WikiTableT(Chen等人,2021a)和GenWiki(Jin等人,2020年)。在模型方面,微调预训练模型通常可以取得令人满意的性能(Ribeiro等人,2020年)。Wang等人(2020年)提出了定制化的损失函数,以减少生成过程中的模型幻觉。多任务学习被用来提高模型对输入变化的鲁棒性(Hoyle等人,2021)。陈等人(2020b)介绍了一种通用格式和预训练模型,可以从表格行和知识图中生成文本。以前的大多数关于数据到文本生成的研究只进行了内部评估,使用了诸如BLEU和ROUGE等典型的生成指标,因此数据到文本被认为是目标任务。在这篇论文中,我们认为在将数据到文本模型应用于下游任务(即开放领域的问答)时,应该采用不同的训练策略和评估指标。与我们的工作相关,Agarwal等人(2021)使用微调的T5模型(Raffel等人,2020)将整个维基数据转换为自然语言。在这项工作中,我们统一化地将表格和知识图谱的数据转化为文本,并研究这些口头化的知识在开放领域的问答任务中的表现。

QA与数据和文本一起使用 - 由于回答问题所需的知识可能无法在文本语料库中获得,因此以前的研究试图从不同的来源(如表格和知识库)引入知识。Min等人(2019年)使用维基数据来扩展检索器找到的种子段落,并在阅读器中增强编码段落表示。Li等人(2021年)提出了一种混合框架,以文本和表格作为输入生成答案和SQL查询。最近,Chen等人(2021b)开发了OTT-QA数据集,其中包含需要对表格和文本进行联合推理的问题,这些表格和文本来自整个维基百科。还有一系列研究专门针对表格的模型架构或者联合编码表格和文本的工作(Yin等,2020;Herzig等,2020;Zayats等,2021;Glass等,2021)。然而,他们的重点不是开放领域的问答任务。与我们的工作最相似的是(Oguz等人,2020),他们使用表格和Wikidata/Freebase知识图谱以及维基百科文本进行ODQA(开放式问答)。然而,他们只是简单地将结构化数据线性化,而没有使用任何口头表达器,因此可能会受到次优输入表示的困扰。 此外,他们的表格仅从原始的NQ HTML中提取,即受限场景。与之相反,我们考虑来自整个维基百科的表格,这是一个更大的集合。另外,(Oguz等人,2020)中分别使用了不同的检索模型来处理表格和知识库,而我们开发了一个统一的文本和数据模型。

9 结论部分

在这篇论文中,我们展示了一个统一的口语化-检索-阅读框架(UDT-QA),用于在数据和文本上的开放领域问答。我们提出了一种新颖的数据到文本范式,在获得良好的内在性能的同时,可以大大提高下游知识密集型应用(即开放领域问答)的口语化效果。通过口头表达的知识,我们在NQ上取得了新的最先进的结果。值得注意的是,我们证明了只需在文本索引中添加口头化的知识就可以提高性能,而无需重新训练模型。

除了我们的方法外,还有许多最近提出的方法适用于开放领域的问答,这些方法是正交的。例如,专门优化密集检索的语言模型(Gao和Callan,2021),在大规模问答数据上进行预训练(O˘guz等人,2021)以及由检索器、重新排名器、提取式阅读器和生成式阅读器组成的混合系统(Fajcik等人,2021)。采用这些方法可能会进一步提高开放领域问答的性能,我们将这种探索留待未来的工作。最后,除了考虑经过筛选的知识来源集合外,将知识扩展到网络规模也是一个有趣的未来研究方向(Nakano等人,2021;Piktus等人,2021)。

A 文档索引统计

为了与文本段落保持一致,我们也将表格和知识库子图(原始格式或口头表达)切割成约包含100个单词的块。因此,口头化的知识将比原始格式具有更大的索引大小(见表7)。
在这里插入图片描述

表7:文档索引的统计数据

B 训练细节

为了训练检索器更好地处理来自表格和知识库的知识,我们从NQ-Table-Q和WebQ-KB-Q中创建额外的训练数据。给定一个(问题,答案,黄金表格)来自NQ-Table-Q,我们通过连接包含答案的行来创建一个正面段落。然后,如果段落少于100个词,我们随机采样并连接表格中的其他行。为了找到用于训练的负面段落,我们建立了一个包含所有表格的索引,并使用BM25检索相关表格。那些不包含答案的表格被视为负面表格。然后我们从表格中抽取行来构建负面段落。对于原始表格,过程相同,只是在开始时还将标题连接在一起以构建正面和负面段落。我们将NQ训练数据与这套数据结合,以训练DPR。

对于WebQ-KB-Q,我们使用口语化的黄金子图作为正面段落。对于原始格式,将其替换为展平黄金子图。然后,我们使用WD-Graphs中的所有文档和不包含答案的BM25排名最高的文档构建索引,这些文档被视为负面样本。在此,文档指的是原始设置中连接的三元组集和口头设置中生成器生成的句子。此外,我们通过搜索答案实体及其在图中的邻居来找到与问题具有词汇重叠的文档。然后我们以类似的方式构建训练实例。

如之前的研究(Oguz等人,2020)所指出的,使用DPR挖掘更困难的负面段落并进行迭代训练可以提高性能。在我们的实验中也采用了这种方法。在第一个DPR训练完成后,我们使用它从文本和结构化知识的联合索引中检索段落。然后,将负面段落与第一轮的正面段落配对,以构建新的训练数据集。接着,我们使用迭代1的数据和新训练集来训练第二个DPR(双语匹配模型)。

对于检索器训练,我们遵循(Karpukhin等人,2020)规定的实验设置。具体来说,我们使用Adam优化器和每个GPU的批量大小为32(针对NQ)和24(针对WebQ)。所有的训练都是在固定学习率2e-5和40个周期下完成的,使用8个V100 GPU进行训练。我们根据在相应验证集上的检索准确度选择最佳模型。

对于阅读器训练,我们遵循(Cheng等人,2021b)中描述的实验设置。具体来说,我们使用Adam优化器和分别为NQ和WebQ的批处理大小为16和8。我们使用16个V100 GPU进行NQ研究,使用8个V100 GPU进行WebQ研究。我们将学习率选择在{3e-5, 5e-5}范围内,并将训练 epoch 数量选择在{6, 8}范围内。最佳模型是根据相应开发集上的精确匹配(EM)得分来选择的。我们所报告的所有结果都来自单次运行。

关于模型中的参数数量,我们的语言表达器基于T5-large,拥有7.7亿个参数。我们的检索器是一个基于bert-base的双编码器模型,拥有2.2亿个参数。我们的阅读器模型基于ELECTRA-large,拥有3.3亿个参数。

C 关于文档索引大小的影响。

我们在表8(对应于表3)中报告了使用不同文档索引训练的模型的测试集结果。总体而言,我们观察到相似的趋势。对于NQ,模型从更大的文档索引中获得更多好处,而对于WebQ,受限设置会带来更好的性能。
在这里插入图片描述

表8:分别训练的检索器-阅读器模型中,文档索引大小的影响(上为NQ,下为WebQ)。所有指标都在相应的测试集上计算。

D 我们的Verbalizer与KELM-verbalizer的比较

我们在表9中报告了使用我们口头化的WD图训练的WebQ模型在开发集上的结果,以与KELM进行比较(对应于表5)。
在这里插入图片描述

表9:在WebQ上训练的模型的开发集结果,包括口头化的WD图和KELM。

E 案例研究:原始表格与口头化表格的比较

对于口头化和原始表格的手动分析,我们首先计算NQ模型在文本+所有表格格式下训练的错误矩阵,如表10所示。然后,我们手动标注了100个示例,其中只有1种格式的知识成功回答了问题(每种格式50个),并且我们选择了一些至少有一个表格片段被检索器标记为正面的示例。在50个包含答案范围的口头化表格示例中,有40个是真正的正面例子,为问题提供了直接证据。在40个问题中的35个,原始模型的检索器实际上找到了提供答案的相同表格/片段。然而,该模型未能从这些案例中提取答案,我们认为这主要是因为嘈杂的表格原始格式可能难以让模型进行推理,正如第7节讨论的那样。
在这里插入图片描述

表10: UDT-QA在文本+所有表格(原始和口头化格式)训练下的错误矩阵。

然后我们查看了另外一组50个问题(原始格式)。其中37个是真正的阳性案例,包含直接证据。然后在37个问题中的30个,口语化检索器能够找到相应的口语化表格/段落,这些表格/段落也包含了答案。剩余的案例都是由于检索器未能找到真正的正向表格块所导致的。在这30个案例中,最明显的模式是模型能够利用结构化的捷径来得出答案,暗示了表格语言表达的局限性。

F 数据转文本示例

在表11的上半部分,我们展示了DART中被我们的方法过滤掉的例子,即输入和目标之间的ROUGE分数较低。在第一个例子中,两个单元格的信息完全省略在目标中。模型可能会从这种例子中学习到省略信息,这在我们考虑QA作为下游任务时是有问题的。我们的过滤方法还能够修剪嘈杂的示例,如第2行和第3行所示,其中输入和目标之间几乎没有对应关系。在第4行中,我们展示了一个示例,其中目标包含输入中不存在的信息。这种类型的示例可能会教模型妄想,这也是不想要的行为,因此它们也会被过滤掉。

在表11的下半部分,我们展示了ID-T集的例子,即当应用到我们的表格集时,由在T-F集上训练的口头表达器生成的良好质量的输入-输出对。这些例子通常具有较长的输入和/或较大的表格单元格,并且目标中的信息覆盖率非常高。通过将ID-T集与T-F集结合在一起训练一个新的口头表达器,模型可以更有效地学习生成对输入的忠实描述。
在这里插入图片描述

表11:上部分:来自DART的例子,这些例子被我们的方法过滤掉。目标中加粗的单元格是省略的信息,斜体字的目标可能会使模型偏向妄想。下部分:由我们第一轮迭代生成器生成的ID-T示例。

最后,在表12中,我们展示了问题答案对以及它们相关联的金表格(行)。对于每个原始输入,我们展示了由在T上训练的口头表达器和在T-F+ID-T上训练的口头表达器生成的相应输出。我们可以看到,答案的证据存在于原始表格中的一个单元格中,然而在所有3种情况下,口语化器(T)未能生成那条信息。另一方面,口语化器(T-F+ID-T)准确地描述了输入中呈现的所有信息,展示了我们提出的方法的有效性。
在这里插入图片描述

表12:由不同口头表达生成的口头化表格(行)示例,其中直接证据以粗体标出。

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值