信息检索(四):Generation-Augmented Retrieval for Open-Domain Question Answering


原文链接:https://aclanthology.org/2021.acl-long.316/
(2021)


摘要

我们提出生成增强检索(GAR)来回答开放域问题,它通过启发式发现的相关上下文的文本生成来增强查询,而无需外部资源作为监督。我们证明,生成的上下文极大地丰富了查询的语义,并且具有稀疏表示的 GAR (BM25) 实现了与 DPR 等最先进的密集检索方法相当或更好的性能(Karpukhin 等人,2020)。我们表明,为查询生成不同的上下文是有益的,因为融合它们的结果始终会产生更好的检索准确性。此外,由于稀疏表示和稠密表示通常是互补的,GAR 可以轻松地与 DPR 结合以实现更好的性能。当配备提取阅读器时,GAR 在提取 QA 设置下在 NQ 和 TriviaQA 数据集上实现了最先进的性能,并且在使用相同的生成阅读器时始终优于其他检索方法。

1. 引言

开放域问答(OpenQA)旨在回答没有预先指定域的事实问题,并且有许多实际应用。在 OpenQA 中,经常使用大量文档(例如维基百科)来寻找与问题相关的信息。最常见的方法之一是使用检索器-阅读器架构(Chen et al, 2017),它首先使用问题作为查询来检索一小部分文档,然后读取检索到的文档以提取(或生成)答案。检索器至关重要,因为检查整个文档集合中的每一条信息(例如数百万维基百科段落)是不可行的,并且检索准确性限制了(提取)阅读器的性能。

早期的 OpenQA 系统(Chen 等人,2017)使用经典的检索方法,例如具有稀疏表示的 TF-IDF 和 BM25。稀疏方法轻量级且高效,但无法执行语义匹配,并且无法检索没有词汇重叠的相关段落。最近,基于密集表示的方法(Guu 等人,2020;Karpukhin 等人,2020)学习将查询和段落嵌入到潜在向量空间中,在该空间中可以测量超出词汇重叠的文本相似性。密集检索方法可以检索语义相关但词汇不同的段落,并且通常比稀疏方法获得更好的性能。然而,密集模型的计算成本更高,并且会遭受信息丢失,因为它们将整个文本序列压缩为固定大小的向量,不能保证精确匹配(Luan et al, 2020)。

最近有一些关于其他检索任务的文本生成查询重构的研究,例如,将查询重写为上下文无关的(Y u et al, 2020; Lin et al, 2020; V akulenko et al, 2020)或结构良好的(Liu et al, 2019)。然而,这些方法需要特定于任务的数据(例如,对话上下文、格式错误的查询)或外部资源,例如释义数据(Zaiem 和 Sadat,2019;Wang 等人,2020),而这些数据不能或不能很好地转移到 OpenQA 。此外,有些依赖于耗时的训练过程,如强化学习 (RL)(Nogueira 和 Cho,2017;Liu 等人,2019;Wang 等人,2020),这对于 OpenQA 来说效率不够(第 2 节中的更多讨论)。

在本文中,我们提出了生成增强检索(GAR),它通过预训练语言模型(PLM)的文本生成来增强查询。与之前重新表述查询的研究不同,GAR 不需要外部资源或通过 RL 的下游反馈作为监督,因为它不会重写查询,而是通过启发式发现的相关上下文对其进行扩展,这些上下文从 PLM 中获取并提供更丰富的背景信息(表2)。例如,通过提示 PLM 在给定查询的情况下生成相关段落的标题并将生成的标题附加到查询中,检索该相关段落就会变得更加容易。直观上,生成的上下文明确表达了原始查询中未呈现的搜索意图。因此,与具有原始查询密集表示的最先进方法(Karpukhin 等人,2020;Guu 等人,2020)相比,具有稀疏表示的 GAR 实现了相当甚至更好的性能,同时更加轻量级和高效在训练和推理方面(包括生成模型的成本)(第 6.4 节)。

具体来说,我们通过添加相关上下文来扩展查询(问题)。
1)我们以问题作为输入,以各种可自由访问的 域内上下文作为输出(例如答案、答案所属的句子以及包含答案的段落的标题) 进行 seq2seq 学习。
2)然后,我们将生成的上下文附加到问题中,作为检索的生成增强查询。 我们证明,使用来自不同生成目标的多个上下文是有益的,因为融合不同生成增强查询的检索结果一致地产生更好的检索准确性。

我们对 Natural Questions (NQ) (Kwiatkowski et al, 2019) 和 TriviaQA (Trivia) (Joshi et al, 2017) 数据集进行了广泛的实验。
结果揭示了 GAR 的四大优势:
1)GAR 与 BM25 相结合,比使用原始查询或现有无监督查询扩展(QE)方法的相同 BM25 模型取得了显着的收益。
2)具有稀疏表示的 GAR (BM25) 实现了与当前最先进的检索方法相当甚至更好的性能,例如使用密集表示的 DPR (Karpukhin et al, 2020)。
3)由于 GAR 使用稀疏表示来测量词汇重叠,因此它与密集表示是互补的:通过融合 GAR 和 DPR 的检索结果,我们始终获得比单独使用任何一种方法更好的性能。
4)当使用相同的提取阅读器时,GAR 在端到端 QA 性能 (EM) 上优于 DPR:NQ 上的 EM=41.8(与 DPR 结合时为 43.8),Trivia 上的 62.7,创造了新的提取 OpenQA 的sota结果。当使用相同的生成阅读器时,GAR 在生成设置下也优于其他检索方法:NQ 上的 EM=38.1(与 DPR 结合时为 45.3),Trivia 上的 62.2。

贡献
(1) 我们提出了生成增强检索(GAR),它通过文本生成通过启发式发现的相关上下文来增强查询,而无需外部监督或耗时的下游反馈。
(2) 我们表明,与使用原始查询或现有的无监督 QE 方法相比,使用生成增强查询可以获得更好的检索和 QA 结果。
(3) 我们证明,GAR 与简单的 BM25 模型相结合,在提取性 OpenQA 的两个基准数据集上实现了新的最先进的性能,并在生成环境中取得了有竞争力的结果。

2. 相关工作

传统的查询扩展
GAR 与基于伪相关反馈的查询扩展 (QE) 方法有一些共同点(Rocchio,1971;Abdul-Jaleel 等,2004;Lv 和 Zhai,2010),因为它们都使用相关上下文(术语)扩展查询,而无需使用外部监督。 GAR 的优越性在于它使用 PLM 中存储的知识而不是检索的段落来扩展查询,并且其扩展术语是通过文本生成来学习的。

最近查询新范式
最近或同时进行的研究(Nogueira 和 Cho,2017;Zaiem 和 Sadat,2019;Y u 等人,2020;V akulenko 等人,2020;Lin 等人,2020)使用生成模型重新表述其他检索任务的查询。然而,这些研究对于 OpenQA 来说不容易应用或不够高效,因为:(1)它们需要外部资源,例如释义数据(Zaiem 和 Sadat,2019)、搜索会话(Y u 等人,2020)或对话上下文(Lin et al, 2020; V akulenko et al, 2020)来形成重新制定的查询,这些查询在 OpenQA 中不可用或显示出较差的域传输性能(Zaiem 和 Sadat,2019); (2)它们涉及耗时的训练过程,例如强化学习。例如,Nogueira 和 Cho (2017) 报告训练时间为 8 到 10 天,因为它在奖励函数中使用检索性能并在每次迭代时进行检索。相比之下,GAR 使用可自由访问的域内上下文(如段落标题)作为生成目标和标准 seq2seq 学习,尽管它很简单,但对于 OpenQA 来说不仅更高效而且更有效。

OpenQA 检索
现有的 OpenQA 稀疏检索方法(Chen 等人,2017)仅依赖于问题的信息。 GAR 通过提取 PLM 内部的信息来扩展到与问题相关的上下文,并帮助稀疏方法实现与密集方法相当或更好的性能(Guu 等人,2020;Karpukhin 等人,2020),同时享受稀疏表示的简单性和效率。 GAR 还可以与密集表示一起使用,以寻求更好的性能,我们将其留作未来的工作。

生成式 QA
生成式 QA 通过 seq2seq 学习生成答案,而不是提取答案范围。 最近关于生成式 OpenQA 的研究(Lewis 等人,2020a;Min 等人,2020;Izacard 和 Grave,2020)与 GAR 正交,因为它们专注于改善阅读阶段并直接重用 DPR(Karpukhin 等人,2020)作为检索。与生成式 QA 不同,GAR 的目标不是生成问题的完美答案,而是生成有助于检索的相关上下文。 生成式 QA 中的另一条路线是使用 PLM 学习生成答案,无需相关段落作为证据,而仅使用问题本身(Roberts 等人,2020 年;Brown 等人,2020 年)。 GAR 进一步证实,人们可以从 PLM 中提取事实知识,这不仅限于先前研究中的答案,还包括其他相关上下文。

3. 生成增强检索

3.1 任务定义

OpenQA 旨在回答无需预先指定领域的事实问题。我们假设给出大量文档 C(即维基百科)作为回答问题的资源,并使用检索器-阅读器架构来处理该任务,其中检索器检索文档 D ⊂ C 的一小部分子集,并且阅读器阅读文档D以提取(或生成)答案。我们的目标是提高检索器的有效性和效率,从而提高阅读器的性能。

3.2 查询上下文的生成

在 GAR 中,查询通过各种启发式发现的相关上下文进行增强,以便在数量和质量方面检索更多相关的段落。对于 OpenQA 的查询为问题的任务,我们将以下三个可自由访问的上下文作为生成目标。我们在6.2展示,拥有多个生成目标是有帮助的,因为融合它们的结果能够一致地带来更好的检索准确性。
1)上下文1 默认目标(答案)
默认目标是感兴趣任务中的标签,也就是 OpenQA 中的答案。问题的答案显然对于检索包含答案本身的相关段落很有用。如之前的工作所示(Roberts 等人,2020 年;Brown 等人,2020 年),PLM 能够仅通过将问题作为输入来回答某些问题(即closed-book QA)。 GAR 没有像闭卷 QA 那样直接使用生成的答案,而是将它们视为检索问题的上下文。优点是,即使生成的答案部分正确(甚至不正确),只要它们与包含正确答案的段落相关(例如,与正确答案同时出现),它们仍然可能有利于检索。

2)上下文2 包含默认目标的句子
包含答案的段落中的句子被用作另一个生成目标。与使用答案作为生成目标类似,生成的句子即使不包含答案,仍然有利于检索相关段落,因为它们的语义与问题/答案高度相关(第 6.1 节中的示例)。人们可以将答案段落中的相关句子(如果有)或检索器的答案段落中的相关句子作为参考,这取决于参考质量和多样性之间的权衡。

3)上下文3 包含默认目标的段落标题
如果有的话,还可以使用相关段落的标题作为生成目标。具体来说,我们使用 BM25 以问题为查询来检索维基百科段落,并将包含答案的段落的页面标题作为生成目标。我们观察到段落的页面标题通常是感兴趣的实体名称,有时(但并非总是)是问题的答案。直观上,如果 GAR 了解问题与哪些维基百科页面相关,则由生成标题增强的查询自然会有更好的机会检索这些相关段落。

虽然由于文本生成中的幻觉,某些生成的查询上下文可能涉及不忠实或非事实信息(Mao 等人,2020)并在检索过程中引入噪音,但总体而言,它们是有益的而不是有害的,因为我们的实验表明,GAR 改善了检索和 QA 性能均显着超过 BM25。此外,由于我们生成了 3 个不同的(互补的)查询上下文并融合了它们的检索结果,因此进一步减轻了幻觉内容的干扰。

3.3 使用生成增强查询进行检索

生成查询的上下文后,我们将它们附加到查询中以形成生成增强查询。我们观察到,单独使用生成的上下文(例如答案)作为查询而不是串联进行检索是无效的,因为(1)生成的答案是相当不相关的,并且(2)仅由正确答案(没有问题)组成的查询可能会检索到恰好包含答案的不相关上下文的误报段落。这种低质量的段落可能会导致接下来的段落阅读阶段出现潜在问题。
(单独的使用生成内容,不行)

如果存在多个查询上下文,我们分别使用具有不同生成上下文的查询进行检索,然后融合它们的结果。附加所有上下文的一次性检索的性能稍差,但并不明显较差。为了简单起见,我们以一种简单的方式融合检索结果:从每个来源的检索最多的段落中获取相同数量的段落。人们还可以使用加权或更复杂的融合策略,例如倒数等级融合(Cormack et al, 2009),根据我们的实验,其结果稍好一些。
(分别检索,融合结果,每种增强方式选择同等数量的top检索段落 or 倒数排名融合)

接下来,可以使用任何现成的检索器进行段落检索。在这里,我们使用一个简单的 BM25 模型来证明具有稀疏表示的 GAR 已经可以实现与最先进的密集方法相当或更好的性能,同时更加轻量级和高效(包括生成模型的成本),从而关闭稀疏和密集检索方法之间的差距。

4. 使用 GAR 进行 OpenQA

为了进一步验证 GAR 的有效性,我们为其配备了提取式和生成式阅读器,以进行端到端的 QA 评估。我们遵循主要基线的阅读器设计以进行公平比较,而几乎任何现有的 QA 阅读器都可以与 GAR 一起使用。

4.1 提取式阅读器

对于提取设置,我们很大程度上遵循 DPR 中提取阅读器的设计(Karpukhin 等人,2020)。令 D = [d1, d2, …, dk] 表示具有段落相关性分数 D 的检索到的段落列表。令 Si = [s1, s2, …, sN] 表示段落 di 中排名前 N 的文本跨度通过跨度相关性得分 Si。简而言之,DPR 阅读器使用 BERT-base (Devlin et al, 2019) 进行表示学习,根据所有检索到的段落 D 的 [CLS] 标记估计每个检索到的段落 dk 的段落相关性得分 Dk ,并分配跨度相关性根据每个候选范围的开始和结束标记的表示对 Si 进行评分。最后,从具有最高段落相关性得分的段落中选择具有最高跨度相关性得分的跨度作为答案。我们建议读者参阅 Karpukhin 等人 (2020) 了解更多详细信息。

Passage-level Span Voting
许多提取式 QA 方法(Chen 等人,2017;Min 等人,2019b;Guu 等人,2020;Karpukhin 等人,2020)独立测量不同检索到的段落中跨度提取的概率,尽管它们的集体信号可能提供更多证据在确定正确答案时。我们提出了一种简单而有效的段落级跨度投票机制,它将来自不同检索到的段落的跨度预测聚合为相同的表面形式。直观上,如果一个文本跨度在不同的段落中多次被视为答案,那么它更有可能是正确的答案。 具体来说,GAR 在推理过程中计算段落 di 中第 j 个跨度的归一化得分 p(Si[j]),如下所示: p(Si[j]) = softmax(D)[i] × softmax(Si)[j ]。然后,GAR 将所有检索到的段落中具有相同表面字符串的跨度的分数进行汇总,作为集体段落级别分数。

4.2 生成式阅读器

对于生成设置,我们使用 seq2seq 框架,其中输入是问题和top检索段落的串联,目标输出是所需的答案。最近的方法中采用了这种生成式阅读器,例如 SpanSeqGen (Min et al, 2020) 和 Longformer (Beltagy et al, 2020)。具体来说,我们使用 BART-large(Lewis 等人,2019)作为生成阅读器,它将问题和检索最多的段落连接起来,直至达到其长度限制(1,024 个标记,平均 7.8 个段落)。生成式 GAR 可以直接与使用 DPR 检索结果的 SpanSeqGen(Min 等人,2020)进行比较,但不能与 Fusion-in-Decoder (FID) 进行比较(Izacard 和 Grave,2020),因为它编码 100 个段落而不是 1,024 个标记,并且涉及更多模型参数。

5. 实验设置

5.1 数据集

我们对两个流行的 QA 基准的开放域版本进行了实验:自然问题 (NQ)(Kwiatkowski 等人,2019)和 TriviaQA(Trivia)(Joshi 等人,2017)。数据集统计结果如表1所示。
请添加图片描述

5.2 评价指标

根据之前的研究(Karpukhin 等人,2020),我们使用 top-k 检索精度来评估检索器的性能,并使用精确匹配(EM)分数来衡量阅读器的性能。

Top-k 检索准确度定义为 top-k 检索到的段落至少包含一个答案范围的问题比例,这是提取式读者“可回答”的问题数量的上限。

精确匹配 (EM) 是在字符串规范化(例如文章和标点符号删除)之后,预测答案范围与(其中一个)真实答案完全相同的比例。

5.3 比较方法

对于段落检索,我们主要与 BM25 和 DPR 进行比较,它们分别代表了 OpenQA 稀疏和密集检索最先进的方法。对于查询扩展,我们再次强调 GAR 是第一个为 OpenQA 设计的 QE 方法,并且大多数最近的方法对于 OpenQA 来说并不适用或不够高效,因为它们具有特定于任务的目标,需要外部监督,而这些监督被证明很难转移到OpenQA,或者需要很多天来训练(第 2 节)。因此,我们与经典的无监督 QE 方法 RM3(Abdul-Jaleel 等,2004)进行比较,该方法不需要外部资源来进行公平比较。对于段落阅读,我们与提取性(Min et al, 2019a; Asai et al, 2019; Lee et al, 2019; Min et al, 2019b; Guu et al, 2020; Karpukhin et al, 2020)和生成性(Brown et al, 2020; Roberts et al, 2020; Min et al, 2020; Lewis et al, 2020a; Izacard and Grave, 2020)为 GAR 配备相应读取器时的方法。

5.4 实现细节

检索器
我们使用 Anserini (Y ang et al, 2017) 对其默认参数进行 BM25 和 GAR 的文本检索。我们对 QE 基线模型 RM3 进行网格搜索(Abdul-Jaleel 等,2004)。

生成器
我们使用BART-large(Lewis 等人,2019)在 GAR 中生成查询上下文。当有多个所需目标(例如多个答案或标题)时,我们将它们与 [SEP] 标记连接起来作为参考,并在生成增强查询中删除 [SEP] 标记。特别是对于 Trivia,我们使用值字段作为答案的生成目标,并观察到更好的性能。我们在验证集上选取具有最佳 ROUGE-1 F1 分数的检查点,同时观察到 GAR 的检索精度对于检查点选择相对稳定,因为我们不直接使用生成的上下文,而是将它们视为检索查询的增强。
(使用BART-large生成上下文,使用生成结果作为查询增强而不是直接用来查询)

阅读器
Extractive GAR 使用具有基本相同超参数的 DPR 读取器,该读取器使用 BERT-base(Devlin 等人,2019)进行初始化,并在训练(推理)期间获取 100 (500) 个检索的段落。生成式 GAR 将问题和检索到的前 10 个段落连接起来,最多接受 1,024 个标记作为输入。所有生成模型均采用贪婪解码,其执行效果与(更昂贵的)波束搜索类似。

6. 实验结果

我们分三个阶段评估 GAR 的有效性:生成查询上下文(第 6.1 节)、检索相关段落(第 6.2 节)和 OpenQA 的段落阅读(第 6.3 节)。消融研究主要在 NQ 数据集上展示,以了解 GAR 的缺点,因为它在 Trivia 上取得了更好的性能。

6.1 查询上下文生成

自动评估
为了评估生成的查询上下文的质量,我们首先测量它们与真实查询上下文的词汇重叠。 正如表 3 中重要的 ROUGE 分数所示,GAR 确实学习生成有意义的查询上下文,这有助于检索阶段。接下来我们测量查询和真实段落之间的词汇重叠。
原始查询和真实段落之间的 ROUGE-1/2/L F1 分数为 6.00/2.36/5.01,生成增强查询的 ROUGE-1/2/L F1 分数为 7.05/2.84/5.62(答案)、13.21/6.99/10.27(句子),NQ 上分别为 7.13/2.85/5.76(标题)。
这样的结果进一步表明,生成的查询上下文显着增加了查询和正确段落之间的单词重叠,因此可能会改善检索结果。
(生成增强与答案的重叠度,高于原始查询与答案的重叠度,确实有用)
请添加图片描述

实例探究
在表 2 中,我们展示了生成的查询上下文及其真实答案的几个示例。在第一个示例中,正确的专辑发布日期出现在生成的答案和生成的句子中,并且生成的标题与专辑的维基百科页面标题相同。在最后两个例子中,生成的答案是错误的,但幸运的是,生成的句子包含正确的答案和(或)其他相关信息,并且生成的标题也与问题高度相关,这表明不同的查询上下文是互补的彼此之间的关系,从而减少了查询上下文生成期间的噪声。
请添加图片描述

6.2 生成增强检索

与 soat 的比较
接下来我们评估 GAR 检索的有效性。在表 4 中,我们显示了 BM25、带有查询扩展 (+RM3) 的 BM25(Abdul-Jaleel 等人,2004 年)、DPR(Karpukhin 等人,2020 年)、GAR 和 GAR +DPR 的 top-k 检索精度。
在 NQ 数据集上,虽然无论检索到的段落数量如何,BM25 的表现都明显低于 DPR,但当 k ≥ 100 时,GAR 和 DPR 之间的差距明显较小且可以忽略不计。当 k ≥ 500 时,GAR 略优于 DPR,尽管它只是使用BM25 用于检索。相比之下,经典的 QE 方法 RM3 虽然显示出比普通 BM25 稍有改善,但并未达到与 GAR 或 DPR 相当的性能。通过以与第 3.3 节中所述相同的方式融合 GAR 和 DPR 的结果。我们进一步获得了比这两种方法更高的性能,top-100 准确率 88.9%,top1000 准确率 93.2%。
在 Trivia 数据集上,结果更加令人鼓舞——当 k ≥ 5 时,GAR 始终比 DPR 取得更好的检索精度。另一方面,BM25 和 BM25 +RM3 之间的差异可以忽略不计,这表明天真地考虑排名靠前的段落QE 的相关(即伪相关反馈)并不总是适用于 OpenQA。更多 k 截止值的结果可以在 App 中找到。
请添加图片描述

不同查询上下文的有效性
在图 1 中,我们展示了使用不同查询上下文来增强查询时 GAR 的性能。尽管使用每个查询上下文时的单独性能有些相似,但融合检索到的段落始终会带来更好的性能,从而确认不同的生成增强查询是相互补充的(回想一下表 2 中的示例)。
请添加图片描述
按照问题类型表现细分
在表 5 中,我们显示了 NQ 测试集上每种问题类型的比较检索方法的前 100 名准确率。再次,GAR 在所有类型的问题上都显着优于 BM25,并且 GAR +DPR 取得了全面最佳的表现,这进一步验证了 GAR 的有效性。
请添加图片描述

6.3 使用 GAR 的段落阅读器

与 soat 的比较
我们在表 6 中展示了提取方法和生成方法的端到端 QA 性能比较。提取 GAR 在 NQ 和 Trivia 数据集上的提取方法中实现了最先进的性能,尽管它更轻量级且计算量更大高效的。生成式 GAR 在 Trivia 上优于大多数生成方法,但在 NQ 上表现不佳,这在某种程度上是预期的,并且与检索阶段的性能一致,因为生成式阅读器仅将少数段落作为输入,而 GAR 的性能并不优于密集式方法k很小时NQ的检索方法
然而,将 GAR 与 DPR 相结合,比使用 DPR 作为输入的方法或基线(例如 SpanSeqGen(Min 等人,2020)和 RAG(Lewis 等人,2020a))获得了显着更好的性能。此外,GAR 在提取和生成设置下都显着优于 BM25,这再次显示了生成的查询上下文的有效性,即使它们是在没有任何外部监督的情况下启发式发现的。

性能最佳的生成方法 FID(Izacard 和 Grave,2020)无法直接比较,因为它需要更多(100)个段落作为输入。作为间接比较,当 FID 编码 10 个通道时,GAR 的表现优于 FID(参见 Izacard 和 Grave (2020) 中的图 2)。此外,由于 FID 也依赖于 DPR 的检索结果,因此我们认为用 GAR 或 GAR +DPR 替换其输入并进一步提高性能是一个容易实现的目标。我们还观察到,也许令人惊讶的是,提取 BM25表现相当不错,尤其是在 Trivia 数据集上,优于许多最新的最先进方法。生成 BM25 在我们的实验中也表现得很有竞争力。
请添加图片描述
模型的泛化能力
最近的研究(Lewis 等人,2020b)表明,流行 OpenQA 数据集的训练集和测试集之间存在显着的问答重叠。具体来说,60% 到 70% 的测试时答案也出现在训练集中,大约 30% 的测试集问题在训练集中有近乎重复的释义。这些观察结果表明,许多问题可以通过简单的问题或答案记忆来回答。为了进一步检查模型的普遍性,我们使用 Lewis 等人 (2020b) 中的注释研究了不同方法的每类别性能。
如表 7 所示,对于“无重叠”类别,GAR +DPR (E) 在提取设置上优于 DPR,而 GAR +DPR (G) 在生成设置上优于 RAG,这表明可以实现更好的端到端模型泛化性通过添加GAR进行检索。 GAR +DPR 还在“仅限答案重叠”类别下获得了最佳 EM。此外,我们观察到,仅将问题作为输入的闭卷 BART 模型的性能比另外采用检索到的段落(即 GAR +DPR (G))要差得多,尤其是在需要概括性的问题上。值得注意的是,所有方法在问题重叠类别上的表现都明显更好,这表明高 EM 主要是由问题记忆造成的。也就是说,鉴于该类别的 EM 较低,GAR +DPR 似乎不太依赖问题记忆。
请添加图片描述

6.4 GAR 的效率

GAR 高效且可扩展,因为它使用稀疏表示进行检索,并且不涉及 RL 等耗时的训练过程(Nogueira 和 Cho,2017;Liu 等人,2019)。
GAR 的唯一开销是查询上下文的生成和使用生成增强(因此更长)查询的检索,其计算复杂度明显低于具有可比检索精度的其他方法。

我们在实验中使用 Nvidia V100 GPU 和 Intel Xeon Platinum 8168 CPU。如表 8 所示,根据生成目标,GAR 在 1 个 GPU 上的训练时间为 3 到 6 小时。作为比较,REALM(Guu 等人,2020)仅在预训练期间就使用 64 个 TPU 训练 20 万步,而 DPR(Karpukhin 等人,2020)使用 8 个 GPU 进行训练大约需要 24 小时。为了构建维基百科段落的索引,GAR 使用 35 个 CPU 只需要大约 30 分钟,而 DPR 在 8 个 GPU 上需要 8.8 小时来生成密集表示,另外还需要 8.5 小时来构建 FAISS 索引(Johnson 等人,2017)。对于检索,GAR 需要大约 1 分钟使用 1 个 GPU 生成一个查询上下文,需要 1 分钟使用答案/标题增强查询检索 NQ 测试集的 1,000 个段落,使用 35 个 CPU 需要 2 分钟使用句子增强查询。相比之下,DPR 在 1 个 GPU 上大约需要 30 分钟。

7. 结论

在这项工作中,我们提出了生成增强检索,并证明在没有外部监督的情况下由 PLM 生成的相关上下文可以显着丰富查询语义并提高检索准确性。值得注意的是,具有稀疏表示的 GAR 与基于原始查询的密集表示的最先进方法的性能相似或更好。 GAR 还可以轻松地与密集表示相结合,以产生更好的结果。此外,GAR 在提取式 OpenQA 上实现了最先进的端到端性能,并在生成设置下实现了有竞争力的性能。

8. 未来扩展

潜在提升
GAR在未来的工作中还有很大的探索和改进的空间。对于查询上下文生成,可以探索多任务学习以进一步降低计算成本,并检查不同上下文在由同一生成器生成时是否可以相互增强。人们还可以对多个上下文进行采样而不是贪婪解码来丰富查询。对于检索,可以根据段落的排名和分数采用更先进的融合技术。由于生成器和检索器现在很大程度上是独立的,因此研究如何联合或迭代优化生成和检索以使生成器了解检索器并生成对检索阶段更有利的查询上下文也很有趣。最后但并非最不重要的一点是,通过更广泛的超参数调整很可能可以获得更好的结果。

其他任务的适用性
除了 OpenQA 之外,GAR 在涉及文本匹配的其他任务方面也具有巨大潜力,例如对话话语选择(Lowe 等人,2015 年;Dinan 等人,2020 年)或信息检索(Nguyen 等人,2016 年;Craswell 等人,2020 年)。默认生成目标始终可用于监督任务。例如,对于对话话语选择,可以使用参考话语作为默认目标,然后将对话历史和生成的话语的串联与提供的候选话语进行匹配。对于文章搜索,默认目标可以是真实文章本身(的一部分)。其他生成目标更具任务特定性,只要可以从 PLM 内部的潜在知识中获取并有助于进一步的文本检索(匹配)即可进行设计。请注意,通过使用从 PLM 中提取的启发式发现的相关上下文来增强(扩展)查询而不是重新表述它们,GAR 绕过了外部监督来形成原始重新表述的查询对的需要。

  • 29
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值