信息检索(十五--二十):文章速读摘要版


原文链接:
15. https://aclanthology.org/2023.acl-short.159/
16. https://aclanthology.org/2023.findings-acl.354/
17. https://aclanthology.org/2023.findings-acl.695/
18. https://aclanthology.org/2023.findings-acl.679.pdf
19. https://aclanthology.org/2023.findings-acl.681/
20. https://aclanthology.org/2023.acl-long.366/


15

1)Shared Transformer Block 和 Specialized Transformer Block堆叠
2)shared encoder:对于 question 和 passage 共享
specialized encoder:在 FFN 中,对于 question 和 passage 使用不同路由

摘要

鉴于其在知识密集型自然语言处理任务上的有效性,密集检索模型变得越来越流行。具体来说,开放域问答的实际架构使用两个同构编码器,它们从相同的预训练模型初始化,但针对问题和段落分别进行参数化。这种双编码器架构的参数效率低下,因为编码器之间没有参数共享。此外,最近的研究表明,DPR 在各种环境下的表现都不如 BM25。因此,我们提出了一种新的架构,即任务感知专业化 dEnse 检索 (TASER),它通过在单个编码器中交错共享和专用块来实现参数共享。我们对五个问答数据集的实验表明,TASER 可以实现卓越的准确性,超越 BM25,同时使用约 60% 的参数作为双编码器密集检索器。在域外评估中,从经验上看,TASER 也比双编码器密集检索器更稳健。我们的代码可在 https://github.com/microsoft/taser 获取。

1 引言

借助基于预训练语言模型的可学习神经表示,密集检索框架在各种自然语言处理任务中获取外部知识变得越来越流行(Lee 等人,2019;Guu 等人,2020;Lewis 等人,2020)。对于开放域问答(ODQA),事实上的密集检索器是双编码器架构(Lee et al, 2019; Karpukhin et al, 2020),由问题编码器和段落编码器组成。通常,两个编码器是同构的,但单独参数化,因为它们是从相同的预训练模型初始化的,然后针对任务进行微调。

尽管很受欢迎,这种具有完全解耦参数化的双编码器架构仍然存在一些未解决的问题。首先,从效率的角度来看,双编码器参数化显然会导致训练和推理的扩展瓶颈。其次,最近研究的实证结果表明,这种双编码器密集检索器在各种设置中的表现不如其稀疏对应物 BM25(Robertson 和 Walker,1994)。例如,Lee 等人 (2019) 和 Karpukhin 等人 (2020) 都表明,在 SQuAD (Rajpurkar 等人,2016) 上表现较差的部分原因是问题和段落之间的词汇高度重叠,这使 BM25 具有明显的优势。Sciavolino 等人 (2021) 还发现,双编码器密集检索器对分布偏移比 BM25 更敏感,导致对稀有实体问题的泛化能力较差。

在本文中,我们开发了用于 dEnse 检索的任务感知专业化 (TASER),作为一种参数效率更高、更稳健的架构。 TASER 没有使用两个同构且完全解耦的 Transformer(Vaswani 等人,2017)编码器,而是将共享编码器块与单个编码器中的专用编码器交错,这是受到最近使用专家混合(MoE)成功扩展 Transformer 的推动( Fedus 等人,2021)。对于共享编码器块,整个网络用于对问题和段落进行编码。对于专用编码器块,一些子网络是特定于任务的并且仅针对某些编码任务激活。为了在特定于任务的子网络中进行选择,TASER 使用依赖于输入的路由机制,即问题和段落通过单独的专用子网络传递。
我们对 TASER 进行域内和域外评估。对于域内评估,我们使用五个流行的 ODQA 数据集。我们最好的模型优于 BM25 和现有双编码器密集检索器,同时使用更少的参数。值得注意的是,TASER 可以有效缩小密集检索器和 BM25 在 SQuAD 上的性能差距。我们的实验中一个有趣的发现是,从多集训练中排除 SQuAD 是不必要的,这是 Karpukhin 等人 (2020) 提出的建议,并被大多数后续工作采纳。
我们的域外评估实验使用 EntityQuestions(Sciavolino 等人,2021)和 BEIR(Thakur 等人,2021)。在这些零样本评估中也观察到相对于双参数化双编码器密集检索器的一致改进。我们的代码可在 https://github.com/microsoft/taser 获取。

2 背景

在本节中,我们提供了有关密集通道检索的双编码器架构的必要背景知识,该架构广泛用于 ODQA(Lee 等人,2019;Karpukhin 等人,2020),并且是我们实验中的主要基线模型。

双编码器架构由问题编码器和段落编码器组成,两者通常都是 Transformer 编码器(Vaswani 等人,2017)。 Transformer 编码器由一堆 Transformer 块构建而成。每个块由多头自注意力(MHA)子层和前馈网络(FFN)子层组成,并应用残差连接(He et al, 2016)和层归一化(Ba et al, 2016)到两个子层。给定输入向量 h ∈ R d ,FFN 子层产生输出向量如下

在这里插入图片描述

其中 W1 ∈ R m×d 、W2 ∈ R d×m 、b1 ∈ R m 和 b2 ∈ R d 是可学习参数。
对于 N 个标记的序列,每个 Transformer 块都会生成 N 个相应的向量,以及可以用作序列表示的特殊前缀标记 [CLS] 的向量。我们建议读者参阅(Vaswani et al, 2017)以了解有关 Transformer 的其他详细信息。通常,问题编码器和段落编码器是从预训练的语言模型(例如 BERT(Devlin 等人,2019))初始化的,但它们是单独参数化的,即它们的参数在训练后会有所不同。
双编码器模型使用来自相应编码器的 [CLS] 最终输出向量,将问题和段落独立编码为 d 维向量,分别表示为 q ∈ R d 和 p ∈ R d 。然后可以使用点积在向量空间中测量问题和段落之间的相关性,即 sim(q, p) = q Tp。在训练过程中,模型根据对比学习目标进行优化,

在这里插入图片描述

其中 p + 是给定问题的相关(正)段落,P 是不相关(负)段落的集合。在推理过程中,所有段落都使用段落编码器预先转换为向量。然后,使用问题编码器对每个传入问题进行编码,并根据其与问题的相关性分数检索最相关段落的前 K 个列表。

尽管双编码器密集检索架构在 ODQA 中取得了令人印象深刻的结果,但很少有工作尝试提高其参数效率。此外,与备用向量空间模型 BM25(Robertson 和 Walker,1994)相比,这种双编码器密集检索器有时会遭受较差的泛化性能,例如,当训练数据存在极大偏差时(Lebret 等人,2016 年;Karpukhin 等人) ,2020)或发生分布变化时(Sciavolino 等人,2021)。在本文中,我们推测不稳定的泛化性能部分与模型中不必要的可学习参数数量有关。因此,我们开发了一种任务感知的专业化架构,用于密集检索,并在问题和段落编码器之间共享参数,从而提高了参数效率和泛化性能。

3 模型

如图 1 所示,TASER 将共享 Transformer 块与专用 Transformer 块交织在一起。共享 Transformer 块与双编码器架构中使用的 Transformer 块相同,但整个块对于问题和段落都是共享的。在专用块中,我们将 MoE 风格的任务感知专用化应用于 FFN 子层(Fedus 等人,2021),其中路由器始终将输入路由到单个专家 FFN 子层。在我们的实验中,我们使用一种简单而有效的路由机制,该机制使用专家子层(Q-FFN)来处理问题,使用另一个专家子层(P-FFN)来处理段落。路由器根据输入是问题还是段落来确定专家 FFN 子层。其他路由机制在附录 A 中讨论
在这里插入图片描述
TASER 在堆栈中每 T 个共享 Transformer 块之后使用一个专用 Transformer 块,从底部的共享块开始。我们的初步研究表明模型性能对T的选择并不敏感,因此本文使用T=2进行实验。

与双编码器架构类似,TASER 使用等式 2 中定义的对比学习目标 Lsim 进行训练。具体来说,该目标需要对每个问题使用一组负段落 P。继Xiong等人(2020)和Qu等人(2021)之后,我们通过硬负数挖掘构建P(附录B)。我们的实验使用多集训练范例,即通过组合来自多个数据集的数据来训练模型,以获得全面运行良好的模型

16

摘要

密集检索的最新发展依赖于来自预训练查询和上下文编码器的查询和上下文的质量表示。
在本文中,我们介绍了 TOUR(查询表示的测试时间优化),它在测试时检索结果的信号的指导下进一步优化实例级查询表示。我们利用交叉编码器重新排序器在检索结果上提供细粒度的伪标签,并通过梯度下降迭代优化查询表示。我们的理论分析表明,TOUR 可以被视为伪相关反馈的经典 Rocchio 算法的推广,并且我们提出了两种利用伪标签作为硬二进制标签或软连续标签的变体。我们首先使用我们提出的短语重新排序器将 TOUR 应用于短语检索,并使用现成的重新排序器评估其在段落检索中的有效性。 TOUR 极大地提高了端到端开放域问答的准确性以及段落检索性能。通过高效实施,TOUR 还持续将直接重新排名提高了 2.0%,同时运行速度提高了 1.3–2.4 倍。

17

通过模型增加训练数据(伪正例):
1)利用 passage 中随机截取的部分,制作 query-passage 对,但同一 passage 中的上下两句话也可能不相干(所以本文--相关性感知)
2)text sinppet 切成 n + 1 份,其中 1 份作为 query,剩余 n 份一共制作 n 个(query,passage)

摘要

密集检索器取得了令人印象深刻的性能,但它们对丰富训练数据的需求限制了它们的应用场景。对比预训练从未标记的数据构建假阳性示例,已显示出解决该问题的巨大潜力。
然而,数据增强所产生的伪正例可能是无关紧要的。为此,我们提出相关性感知对比学习。它将中间训练模型本身作为一个不完美的预言机来估计正对的相关性,并根据估计的相关性自适应地权衡不同对的对比损失。
我们的方法持续改进了 BEIR 和开放域 QA 检索基准上的 SOTA 无监督 Contriever 模型(Izacard 等人,2022)。进一步的探索表明,我们的方法不仅可以在目标语料库上进一步预训练后击败 BM25,而且可以作为良好的少样本学习器。我们的代码可在 上公开获取。

1 引言

密集检索器可以估计密集嵌入空间中查询和段落之间的相关性,在各种应用中取得了令人印象深刻的性能,包括网络搜索(Liu 等人,2021)和开放域问答(Karpukhin 等人,2020)。密集检索器成功的一个关键因素是大量人工注释的训练数据,例如 MSMARCO(Bajaj 等人,2016)拥有超过 500,000 个示例。然而,最近的一项研究(Thakur 等人,2021)表明,即使使用大量标记数据进行训练,密集检索器仍然面临泛化问题,与 BM25 相比,它们在新领域的表现相对较差。
与此同时,为新领域收集人工注释的数据总是困难且昂贵的。因此,考虑到实际检索任务的显着领域变化,用有限的注释数据改进密集检索器变得至关重要。
对比预训练首先从通用语料库生成伪阳性示例,然后利用它们对比预训练检索器,在没有任何人工注释的情况下表现出了令人印象深刻的性能(Lee 等人,2019 年;Gao 等人,2021 年;Gao 和Callan,2022;Ram 等人,2022;Izacard 等人,2022)。例如,Contriever(Izacard 等人,2022)通过随机裁剪同一文档中的两个随机范围来制作相关的查询段落对。然而,由于文本的信息密度很高,即使文档中附近的句子也可能非常不相关,如图 1 所示。这些误报样本可能会误导模型在嵌入空间中将不相关的文本拉到一起,从而进一步损害有效性的陈述。
计算机视觉领域的最新发现表明,通过减少此类误报的影响可以极大地提高预训练性能(Peng 等人,2022;Mishra 等人,2022),我们提出了相关性感知对比检索器(ReContriever)。在每个训练步骤中,我们利用当前步骤本身的训练模型来估计所有正值的相关性。然后使用估计的相关性对不同正对的损失进行自适应加权,即,获得较高相关性分数的对获得较高的权重。
此外,简单地对不相关的对应用较低的权重将导致数据使用不足,因为许多文档对训练的贡献较小。因此,我们还引入了一种单文档多对策略,该策略从单个文档生成多个正对,并在源自单个文档的样本之间进行配对加权过程。这样的操作确保模型可以从语料库中的每个文档中学习积极的知识
总而言之,我们在本文中的贡献有三方面:
1)我们提出了用于密集检索预训练的相关性感知对比学习,旨在减少误报问题。
2) 实验表明,我们的方法在 BEIR 基准和三个代表性的开放域 QA 检索数据集上的 10/15 任务上为 SOTA 无监督 Contriver 模型带来了一致的改进。
3)进一步的探索表明,在没有标签数据或标签数据有限的情况下,我们的方法效果很好。具体来说,在 4 个代表性领域专业数据集上,当仅对目标语料库进行无监督预训练时,它的性能优于 BM25,并且仅使用少量带注释的样本,其准确性就可以与 DPR 相当(Karpukhin 等人,2020),后者是在数千个带注释的样本上进行训练的例子

2 方法

2.1 准备

在本节中,我们将简要描述密集检索中使用的双编码器结构以及我们构建模型的 SOTA Contriever 模型。

双编码器结构
密集检索器始终是由两个单独的编码器组成的双编码器,用于将查询和文档分别转换为单个向量。相关性得分是通过计算查询和文档的编码向量之间的相似性(例如内积)来获得的。训练密集检索器的典型方法是使用对比损失,其目的是将相关段落拉近查询,将不相关段落拉远在嵌入空间中。对于每个查询,训练数据涉及由注释器标记的一个正向段落和一组负向段落,这些段落通常是语料库中的随机段落。

Contriever
它通过随机裁剪同一文档的两个范围来制作伪正对。
由于否定文本已被证明是检索训练成功的关键(Xiong et al, 2021),Contriever还应用MoCo机制(He et al, 2020)来利用前一批中的否定文本来增加否定文本的数量。这两个因素使得 Contriever 在没有任何人工注释的情况下获得了显着的不错的性能。

2.2 相关性感知对比学习

我们首先 1)产生大量的正例(单文档多对),2)迫使模型更多地关注具有较高相关性的正例(相关性感知对比损失)。

One-Document-Multi-Pair
给定一个文本片段 T,以前的预训练方法总是只制作一对正(查询-段落)(q,d+)。为了更有效地利用 T,我们的单文档多对策略生成 n 个正对,表示为 {(q, d+ 1 ),(q, d+ 2 ),…。 。 。 ,(q, d+ n )},通过重复该过程几次,从 T 中得到。我们保持查询 q 不变,以确保同一片段内的对之间的相关性比较是公平的,这将在我们的后续步骤中使用。在 Contrever 的基础上,我们通过随机裁剪 n + 1 个跨度并将 1 个跨度设置为左侧 n 个跨度的固定查询来制作 n 对。并且很容易将该策略扩展到其他对比预训练方法

相关性感知对比损失
训练密集检索器的普通对比损失是 InfoNCE 损失。给定一个正对 (q, d+) 和一个负池 {d − i }i=1…D,InfoNCE (q, d+) 的计算公式为:
在这里插入图片描述

其中s(·)和τ表示相似函数和温度参数。那么批次的整体损失通常是 m 个片段中所有 m × n 个正对的平均值:L = 1 mn 滑m i=1 滑n j=1 InfoNCE(qi , d+ ij )。

相关性感知对比损失旨在通过以下方式迫使模型更多地关注真阳性对:
1)利用训练后的模型 θ 目前本身作为不完美的预言机来计算所有对之间的相关性得分 sθ(q, d+);
2)根据估计的相关性自适应地为不同的对分配权重。那么相关性感知对比损失Lrelevance可以表示为:1
在这里插入图片描述
这样,对于每个文本片段,模型将更加关注具有更大相关性的置信度的正对,反之亦然。

18

变成两阶段任务
1)先检索 document,然后检索 passage (直接检索 passage,会失去上下文,受到看似相关但实际不相干的 passage 的干扰)
Ps:缺点就是受到模型输入长度限制,不能输入完整 document,只能利用 title,abstract,table of content 来代表 document
2)本文本质就是两阶段,只是每个阶段都可以用 稀疏、密集、稀疏+密集

摘要

检索准确性对于开放域问答(ODQA)系统的性能至关重要。最近的工作表明,密集分层检索(DHR)首先检索候选文档,然后从精炼文档集中检索相关段落,其性能可以显着优于单阶段密集段落检索器(DPR)。虽然有效,但这种方法需要文档结构信息来学习文档表示,并且在没有此信息的情况下很难采用到其他领域。此外,与 BM25 等稀疏检索器相比,密集检索器对域外数据的泛化能力往往较差。在本文中,我们提出混合层次检索(HHR)来解决现有的局限性。我们可以在文档和段落检索的两个阶段应用稀疏检索器、密集检索器以及它们的组合,而不是仅仅依赖密集检索器。
我们对 ODQA 基准进行了广泛的实验,观察到我们的框架不仅带来了域内收益,而且还可以更好地推广到零样本 TriviaQA 和 Web Questions 数据集,recall@100 比 DHR 平均提高 4.69%。我们还提供实用的见解来权衡检索准确性、延迟和存储成本。
该代码可在 github* 上找到。

1 引言

开放域问答(ODQA)(Voorhees,1999)旨在在没有预先指定上下文的情况下基于大型语料库回答问题,并且在现实世界中拥有广泛的应用,例如聊天机器人、虚拟助手、搜索引擎等。最近的 ODQA 系统通常遵循两阶段检索然后读取架构(Zhu 等人,2021;Chen 等人,2017;Lee 等人,2019)。给定一个问题,检索器模块首先从维基百科等多元化的大型语料库中选择相关上下文的候选集;之后,阅读器模块使用检索到的证据来预测答案。在这里,检索性能对于 QA 系统的准确性至关重要,因为它决定是否可以向读者呈现回答问题的正确上下文
虽然信息检索领域的大多数工作都集中在文档检索上(Nguyen 等人,2016 年;Thakur 等人,2021 年),但 ODQA 的现有工作通常将文档分割成短段落并直接为读者检索段落(Karpukhin 等人,2020 年;Izacard 和Grave,2020)以适应最有效处理较短序列的阅读器模型。这种单阶段段落检索方法的一个缺点是,它们往往容易受到包含看似相关的本地上下文但不是正确答案的段落的干扰,因为它们无法合并来自文档其他部分的信息(见图 1)。此外,大量候选段落也会对系统吞吐量产生负面影响。为了缓解这些问题,Liu 等人(2021)最近提出了一个两阶段的分层检索框架,
其中检索器首先检索相关文档,
然后识别检索到的文档中的相关段落。
这有助于修剪看起来相关但来自不相关文档的段落,以提高答案准确性,同时大大减少段落检索的候选集并提高 ODQA 系统的推理速度。

在这里插入图片描述

尽管取得了成功,Liu 等人(2021)的方法(密集分层检索,DHR)依赖于密集神经检索器(Lee 等人,2019;Karpukhin 等人,2020)进行文档检索和段落检索,但该方法存在两个关键弱点。
首先,出于有效性和效率的考虑,检索中使用的神经编码器通常受到上下文长度的限制,上下文长度太短而无法涵盖大多数文档。因此,DHR 需要利用维基百科文档的结构,并用标题、摘要和目录来简洁地表示文档,这对于非维基百科文本并不总是可用。
其次,密集检索器已被证明对域外数据的泛化能力较差(Thakur 等人,2021),而像 BM25(Robertson 等人,2009)这样的稀疏检索器在词汇匹配方面表现出色(Sciavolino 等人,2021) 。

在这项工作中,我们提出了一种混合分层检索(HHR)框架来缓解这些问题。具体来说,我们研究了稀疏检索器和密集检索器在 ODQA 的文档检索和段落检索阶段的权衡和互补优势(见图 2)。
我们发现,除其他外,稀疏检索器可以在两个检索阶段通过一种简单的方法来聚合两个检索阶段的结果来补充密集检索器。除了对神经模型训练的数据集进行域内评估之外,我们还对未见过的数据集进行零样本评估,以比较这些检索器架构的泛化能力。我们发现稀疏检索器可以帮助 HHR 更好地泛化看不见的数据,并有可能取代文档检索中的密集检索器。
此外,我们还研究了 HHR 框架下这些架构的准确性、存储成本和延迟权衡,并为通常需要考虑这些因素的现实 ODQA 系统提供了实用的见解。
我们的主要贡献如下。首先,我们在 ODQA 上提出了一种混合分层检索框架,并广泛研究了稀疏检索器和密集检索器在文档和段落检索中的权衡和互补优势。
其次,我们执行域内和域外评估,以深入了解不同模型选择的泛化性能。最后,我们展示了 HHR 架构的准确性-存储-延迟情况,并为实际应用提供了实用的见解。

2 背景 & 相关工作

开放域问答(ODQA)
ODQA 是一项提出问题的任务,例如“谁获得了第一届诺贝尔物理学奖?”,旨在从大型语料库中找到答案。 ODQA 系统通常依赖高效且准确的检索器来查找相关上下文来回答问题(Chen 等人,2017),其中检索性能通常对 QA 准确性至关重要(Karpukhin 等人,2020)。

文章检索
由于 ODQA 系统中的大多数读者模型都难以有效处理长上下文,因此 ODQA 检索通常在段落级别(通常长约 100 个单词)执行。
早期的工作(Chen 等人,2017;Yang 等人,2019)依赖于基于词袋的稀疏检索器,例如 BM25(Robertson 等人,2009)。最近的工作表明,神经检索器在 ODQA 上训练时可以生成有效的密集表示以进行检索(Lee 等人,2019;Karpukhin 等人,2020;Liu 等人,2021)。夏沃里诺等人
然而,(2021)表明,这些密集检索器在训练过程中往往对看不见的实体泛化得更差,因为它们缺乏词汇匹配的能力,而词汇匹配能力非常适合稀疏检索器,并且对于域外泛化很重要。

分层检索
段落检索器受到每个段落中可用上下文的限制,并且可以检索虚假段落以损害答案性能。补救措施是在段落检索期间纳入文档级相关性。 Qi 等人 (2021) 探索了在 BM25 检索器中结合文档和段落相关性分数进行 ODQA。
Liu et al (2021) 将这一想法应用于具有分层检索框架 (DHR) 的密集检索器,其中文档检索器首先检索高相关性的文档,然后使用段落检索器对这些文档中的段落进行重新排序,我们的工作扩展了这种方法。

3 方法

我们的混合分层检索 (HHR) 框架扩展了 DHR,这是一种基于密集检索器构建的分层检索器,它首先检索 top-kd 文档,然后检索这些文档中的 top-kp 段落。我们遵循 DHR 在 HHR 中构建密集检索器,并扩展文档和段落检索器以与稀疏检索器配合使用,以解决 DHR 方法的局限性(图 2)。具体来说,在 DHR 中,为了使文档能够适应上下文长度有限的神经编码器,作者建议利用维基百科文章的文档结构来构建包含文档摘要和目录的文档摘要。虽然有效,但这也可能限制了这种方法对无法获得此信息的语料库的适用性。相比之下,稀疏检索器可以轻松有效地处理任意长度的文档,而不需要结构信息。此外,密集检索器对于域外数据的泛化能力往往较差。
我们扩展了每个文档检索和段落检索阶段,可以选择使用稀疏检索器来帮助缓解这个问题,并帮助我们理解两者之间的权衡。
除了在 HHR 中的稀疏检索器和密集检索器之间进行切换之外,我们还引入了一种简单的启发式方法,通过简单地将 top-k/2 结果交错进行 top-k 检索来组合同一阶段两个检索器的结果,以更好地理解稀疏检索器和密集检索器的互补优势密集的猎犬。这为我们的广泛研究提供了总共 9 种可能的 HHR 配置。最后,对于 HHR 中的稀疏和密集段落检索器,我们使用预先计算的段落表示对顶部检索文档中的所有段落实现动态段落重新排序。这有助于减少我们实施中通道检索器的延迟,并为现实系统中不同 HHR 设置的准确性、存储延迟权衡提供更现实的见解。
在这里插入图片描述

19

生成优点:
  不需要索引
生成缺点:
  1)没有显示建模 query 和 passage 相关性,模型无法理解两者关联,输出是随机序列(不一定是passage id)
  2)为了降低计算复杂度,模型并不能存储全文,只用部分token,导致passage 关键信息可能缺失,难以区分不同的 passage
本文通过 密集检索+蒸馏方法 改进对于文章的表示,以捕获不同粒度的信息。

摘要

可微搜索索引 (DSI) 是一种新颖的信息检索 (IR) 框架,它利用可微函数来生成文档标识符的排序列表以响应给定的查询。然而,由于端到端神经架构的黑盒性质,DSI 在多大程度上拥有基本的索引和检索能力仍有待了解。为了缩小这一差距,在本研究中,我们定义并检查了一个有效的 IR 框架应具备的三个重要能力,即排他性、完整性和相关性排序。我们的分析实验表明,虽然 DSI 能够熟练地记忆从伪查询到文档标识符的单向映射,但它在区分相关文档和随机文档方面存在缺陷,从而对其检索效率产生负面影响。为了解决这个问题,我们提出了一种多任务蒸馏方法,在不改变模型结构的情况下提高检索质量,并成功赋予其改进的索引能力。通过对各种数据集进行的实验,我们证明我们提出的方法优于之前的 DSI 基线1。

1 引言

信息检索 (IR) 领域的最新进展引发了人们对可区分搜索索引 (DSI) 日益增长的兴趣(Tay 等人,2022)。
传统方法需要在检索前建立索引(Dai 和 Callan,2019;Nogueira 等,2019a;Lin 等,2020;Xiong 等,2021),与此不同,DSI 和 DSIQG 等相关技术(Zhuang 等,2022) )和 NCI(Wang et al, 2022)不依赖外部索引来存储数据。相反,这些方法将用户查询直接映射到相关文档的标识符 (ID),从而提供更简单、更高效的检索过程。这种以 DSI 为代表的新颖的自回归方法由于其易用性、最小的索引存储要求和端到端的可检索性,扩展了潜在的 IR 应用。

然而,尽管 DSI 具有新颖的检索机制,当前的 DSI 模型仍然依赖于查询-段落对的相关信号进行训练。这些模型将短文本映射到特定文档 ID,与密集检索模型不同,在检索过程中查询和文档之间没有显式交互(Khattab 和 Zaharia,2020;Hofstätter 等人,2021;Qu 等人,2021; Lin 等人,2021c;Karpukhin 等人,2020;Gao 和 Callan,2021)和交叉注意力重排序器(Nogueira 等人,2019b;Nogueira 和 Cho,2019;Zheng 等人,2020;Li 等人,2020;Wang 等人等人,2020;Chen 等人,2022b)。这种训练方法和模型的固有属性可能会导致两个问题。
首先,由于缺乏对文档间关联的显式建模和显式查询文档相关性测量,模型可能只能学习从短文本到特定 ID 的单向映射,而不了解文档与查询的相关性,从而导致在某种程度上随机输出排名列表。其次,为了降低计算复杂度,DSI 模型通常简单地用少量标记或伪查询来表示文档。然而,这种方法可能会导致区分文档和捕获关键相关信息的能力下降。

本研究旨在通过评估 DSI 作为端到端索引和检索模型的适用性来加深对 DSI 的理解。为了实现这一目标,DSI-QG(Zhuang et al, 2022)是 DSI 的最新增强版本,使用伪查询进行模型训练,被用作分析的代表性模型。我们的观点是,一个可用的非布尔检索模型索引应该满足以下三个条件:
1)索引中的文档内容应该与ID一一对应,以保证检索结果的稳定性;
2)文档的关键信息应尽可能完整地存储在索引中,避免丢失与查询相关的信息,从而影响检索结果;
3)模型应该能够按照与查询的相关性降序输出文档。这三种能力概括为排他性、完整性和相关性排序。我们的分析实验表明,目前可用的 DSI 模型并不能完全满足通用端到端索引检索模型的要求,这限制了它们的使用条件并显着降低了它们的有效性,特别是与现有技术相比。相比之下,艺术密集检索模型被证明可以更好地满足这些要求。

为此,我们研究是否可以更好地训练 DSI 模型以提高检索能力,同时保持其简单的结构和较低的存储成本。具体来说,我们建议利用密集检索方法为训练 DSI 模型提供有效的监督信号。为了增强 DSI 的排他性和完整性,我们建议改进文档表示,以捕获不同粒度的信息,并使用密集检索模型编码的文档表示来过滤关键信息。
为了提高区分 DSI 不同文档的相关程度的能力,我们提出了一种新的基于蒸馏的训练方法。通过对文档之间的连接进行显式建模,该模型能够减少输出结果的随机性并提高检索性能,特别是在具有深池注释的数据集上。
本文的主要贡献有三方面。

  1. 对基本 IR 能力的实证分析表明了现有 DSI 方法的潜在弱点。 2)基于上述分析,我们提出了一种多任务蒸馏方法,通过在保持其优点的同时从密集检索中学习来提高DSI的有效性。 3)进一步的评估表明,我们的方法大大提高了DSI-QG的检索效率。

20

本文贡献:
1)利用 passage 生成的伪查询作为合成标识符
2)考虑多视图:标题,子字符串,伪查询

摘要

生成检索不是简单地将查询与预先存在的段落进行匹配,而是生成段落的标识符字符串作为检索目标。但代价是,标识符必须足够独特才能代表一段段落。
当前的方法使用数字 ID 或文本片段(例如标题或子字符串)作为标识符。然而,这些标识符不能很好地涵盖段落的内容。因此,我们有动力提出一种新型标识符,即合成标识符,它是根据段落内容生成的,并且可以集成文本片段缺乏的上下文信息。
此外,我们同时考虑多视图标识符,包括合成标识符、标题和子字符串。这些标识符的视图相互补充,有助于从多个角度对段落进行整体排名。我们对三个公共数据集进行了一系列实验,结果表明我们提出的方法在生成检索方面表现最好,证明了其有效性和鲁棒性。代码发布于https://github.com/liyongqi67/MINDER。

1 引言

文本检索是信息检索中的一项基本任务,在各种语言系统中发挥着至关重要的作用,包括搜索排名(Nogueira 和 Cho,2019)和开放域问答(Chen 等,2017)。近年来,双编码器方法(Lee et al, 2019; Karpukhin et al, 2020)已成为事实上的实现,它将查询/段落编码为向量并通过点积运算进行匹配。然而,这种方法受到嵌入空间瓶颈(Lee et al, 2022a)和缺少细粒度交互的限制(Wang et al, 2022b)。

双编码器方法的一种新兴替代方法是生成检索(De Cao 等人,2020;Tay 等人,2022;Bevilacqua 等人,2022)。生成检索利用自回归语言模型来生成段落的标识符字符串,例如维基百科页面的标题,作为检索的中间目标。然后将预测的标识符映射为一对一对应的排序段落。使用标识符而不是直接生成段落,可以减少段落中的无用信息,并使模型更容易记忆和学习。但代价是,标识符必须足够独特才能代表一段段落。因此,高质量的标识符一直是有效生成检索的秘诀。
先前的研究探索了几种类型的标识符,例如文档标题(De Cao 等人,2020)、数字 ID(Tay 等人,2022)和独特的子字符串(Bevilacqua 等人,2022)。然而,这些标识符仍然受到限制:数字 ID 需要额外的记忆步骤,并且在大规模语料库中无效,而标题和子字符串只是段落的一部分,因此缺乏上下文信息。更重要的是,一篇文章应该回答来自不同观点的潜在查询,但一种类型的标识符仅代表一个视角的一篇文章。
在这项工作中,我们认为可以通过以下方式改进生成检索:(1)合成标识符。为了解决标题和子字符串在提供上下文信息方面的局限性,我们建议创建根据段落内容生成的合成标识符。在实践中,我们发现在段落的多个片段上生成的伪查询可以作为有效的合成标识符。
例如,如图 1 所示,伪查询“专辑 Greatest Hits Volume Two 中的第一首歌是关于什么的?”跨越段落中的多个句子。一旦查询可以改写为潜在询问的伪查询,就可以有效地检索目标段落
(2)多视图标识符。我们认为单一类型的标识符不足以有效地表示一段内容。使用多种类型的标识符(例如标题、子字符串和合成标识符)可以提供来自不同视图的补充信息。 (i) 一种类型的标识符(例如标题)在某些情况下可能不可用。在这种情况下,合成标识符也可以起作用。 (ii) 标识符的不同视图更适合不同类型的查询。标题可以响应一般查询,而子字符串对于详细查询更有效。合成标识符可以涵盖一些需要多个段的复杂且困难的查询。 (iii) 对于一个特定的查询,可以从不同的角度对段落进行整体评分和排名。
基于上述见解,我们提出了多视图标识符 eNhanceD 生成检索方法 MINDER,如图 2 所示。为了表示一段段落,我们分配标识符的三个视图:标题、子字符串和合成标识符(伪查询)。 MINDER 将查询文本和指示要生成的标识符类型的标识符前缀作为输入,并生成相应的标识符文本作为输出。根据预测的标识符三视图的覆盖范围对段落进行排名。我们在三个公共数据集上对 MINDER 进行了评估,实验结果表明 MINDER 在当前生成检索方法中取得了最佳性能。
主要贡献总结如下:
我们是第一个提出合成标识符(根据段落内容生成)来整合上下文信息的人。在实践中,我们发现伪查询可以作为有效的合成标识符。

• 这是第一个同时考虑标识符多个视图的工作。可以从不同的角度对段落进行整体排名。

• 我们的方法在三个广泛使用的数据集上的生成检索中实现了最先进的性能。
在这里插入图片描述

2 相关工作

2.1 生成式检索

最近,我们见证了自回归语言模型的爆炸性发展,例如 GPT-3/3.5 系列(Brown 等人,2020;Ouyang 等人,2022)。这激发了检索段落的生成方法。在某些检索场景中,例如实体检索和句子检索,整个项目可以被视为标识符。
De Cao等人(2020)提出了GENRE(Generative ENtity REtrieval),通过生成实体文本本身来检索实体。 GENRE 还可以应用于页面级检索,其中每个文档都包含唯一的标题作为标识符。

Lee等人(2022b)将生成检索引入多跳设置,检索的项目是短句。 2022年,Tay等人(2022)提出了DSI(Differentiable Search Index)方法,该方法以数字ID作为文档的标识符。 Wang 等人 (2022b) 后来通过生成更多查询作为额外的训练数据来改进 DSI。然而,基于 Id 的数值方法通常在小型 NQ320K 数据集上进行评估,部分原因是它们面临大规模缩放问题。 Bevilacqua 等人(2022)提出了 SEAL,它以子字符串作为标识符。检索过程是在FM-Index结构上有效完成的。在这项工作中,我们主要通过合成标识符和多视图标识符改进 SEAL 方法。这是第一个以伪查询为标识符并考虑多种标识符的工作。

2.2 文本检索中的查询生成

查询生成最初被引入 IR 社区,以改进传统的基于术语的方法。 Nogueira 等人 (2019) 表明,在构建倒排索引之前将 T5 生成的查询附加到文档中可以带来相对 BM25 的实质性改进。最近,Mallia 等人(2021)使用生成的查询作为术语扩展来学习更好的文档稀疏表示。在密集检索的背景下,生成的伪查询被用作额外数据来改进密集检索的训练过程。
例如,Ma 等人(2020)旨在生成目标域上的综合查询以进行模型训练。 Dai 等人(2022)通过快速增强的查询生成在少样本检索中取得了优异的性能。在生成检索中,Wang 等人 (2022b) 还探索了使用伪查询作为额外数据来训练 DSI。在本文中,我们是第一个使用伪查询作为生成检索的标识符的一个视图。

2.3 密集检索

近年来,文本检索经历了从传统的基于BM25的倒排索引检索到神经密集检索的范式转变(Lee等人,2019;Karpukhin等人,2020;Li等人,2022)。
通过硬负样本挖掘​​(Xiong et al, 2020; Qu et al, 2021)和更好的预训练设计(Chang et al, 2019; Wang et al, 2022a)进一步发展密集检索,并取得了优异的性能。张等人(2022)认为文档的单个向量表示很难与多视图查询匹配,并提出了多视图文档表示向量。这与我们的工作类似,但我们专注于使用多视图标识符来改进生成检索。
与依赖双编码器架构的密集检索相比,生成检索有望通过编码器-解码器范式克服缺少的细粒度交互问题。然而,作为最近提出的技术路线,生成检索仍然落后于最先进的密集检索方法,并且还有很大的研究空间。

  • 7
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值