信息检索（九）：TOME: A Two-stage Approach for Model-based Retrieval-CSDN博客

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/136627752

TOME: A Two-stage Approach for Model-based Retrieval

摘要
1. 引言
2. 相关工作
3. 方法
4. 实验设置
5. 实验结果和分析
6. 结论

原文链接：https://aclanthology.org/2023.acl-long.336/
（2023）

摘要

近年来，基于模型的检索已经成为文本检索的一种新范式，它抛弃了传统检索模型中的索引，而是使用模型参数来记忆候选语料库。该设计采用序列到序列范例来生成文档标识符，从而能够完整捕获查询和文档之间的相关性，并简化经典的索引检索重新排序管道。尽管具有吸引人的品质，但基于模型的检索仍然存在几个主要挑战，包括预训练和微调之间的差异，以及训练和推理之间的差异。为了应对上述挑战，我们提出了一种名为 TOME 的新型两阶段基于模型的检索方法，该方法做出了两项主要技术贡献，包括
1）利用标记化 URL 作为标识符和
2）设计两阶段生成架构。我们还提出了一些训练策略来应对随着语料库大小增加而出现的训练难度。对 MS MARCO 和 Natural Questions 的大量实验和分析证明了我们提出的方法的有效性，并且我们通过检查各种影响因素来研究 TOME 的缩放定律。

1. 引言

信息检索系统在过去几十年中经历了不断的发展，其目的是响应用户的查询从大量集合中获取相关资源，例如文档。随着预训练语言模型 (PLM) 最近的成功（Devlin 等人，2019；Raffel 等人，2020；Zhao 等人，2023），研究人员开发了基于 PLM 的密集检索器（Lin 等人，2021；Zhao 等人， 2022），它利用双编码器和最近邻搜索索引进行检索，并比稀疏检索器取得了显着的改进。

最近，通过开发替代检索架构，引入了一种新的检索范式，称为基于模型的检索（Tay 等人，2022；Zhou 等人，2022c）。与传统的检索方法相比，它没有显式维护语料库索引，从而简化了经典的索引-检索-重新排序过程。通常，基于模型的检索系统是基于具有编码器-解码器架构的序列到序列生成模型构建的，例如 T5 (Raffel et al, 2020) 和 BART (Lewis et al, 2020)。它接受查询作为输入，并通过生成模型直接生成相应的文档标识符。

尽管在简化检索流程方面具有诱人的优势，基于模型的检索仍然面临以下主要挑战。
1）首先，由于检索任务被定义为文档标识符的预测任务，因此设计非常适合底层生成式 PLM 的文档标识符至关重要。然而，这个问题在之前的研究中很少讨论，并且大多数现有方法采用手动或随机构造的标识符（即 docids）作为生成目标。在生成式 PLM 的预训练阶段没有充分捕获此类 docids，从而限制了 PLM 的生成预测能力（例如，在预训练期间未见过的 docids）。这造成了预训练和微调阶段之间的差异。

2）其次，单模型生成架构中的训练和推理之间存在差异。虽然大多数现有研究结合了多任务学习（Tay et al, 2022）和辅助预训练任务（Zhou et al, 2022b）来在训练期间对文档和查询进行建模，但该模型仅在推理期间处理查询，从而导致了差距在训练和推理阶段之间。
传统的生成文章标识符的方法的缺点：
1）文章标识符怎么设计？
a）手动随机。缺点：预训练期间可能没见过；推理阶段的受限生成；
b）本文：如何根据生成模型来做
2）训练阶段：文章和查询都看到
但是推理阶段只是把查询作为输入

为此，在本文中，我们提出了一种新颖的基于两阶段模型的检索方法 TOME（如图 1 所示），该方法做出了两大技术贡献。
1）首先，我们建议使用标记化 URL（或 URI）作为文本标识符，其广泛用于网页或维基百科页面。通过使用基于 URL 的标识符，标记化符号与生成 PLM 的词汇表很好地对齐，从而增强PLM 的生成能力。 URL 通常由普通文本组成，而不是手动或随机构造的标识符。因此，这样的标识符设计可用于帮助缩小预训练和微调之间的差距。
2）其次，我们的方法将预测任务分解为两个连续的阶段，即段落生成和 URL 生成，分别由两个单独的基于 T5 的生成模型来完成。第一阶段的目标是根据查询在语料库中生成相关段落，而第二阶段的目标是生成第一阶段生成的段落的相应 URL。这种两阶段架构可以减少训练和推理之间的差异。另外，整个生成过程是渐进的。因此，第二阶段能够容忍前一阶段可能引入的错误并生成正确的 URL。

本文方法
1）使用 URL，而不是随机符号
2）两阶段生成
a）第一阶段：根据 query，生成 passage
b）第二阶段：根据 passage，生成 url

此外，我们发现，在处理庞大的语料库时，优化基于模型的检索成为一项具有挑战性的任务。因此，我们提出了许多改进的训练策略来优化生成模型，包括查询增强、通道长度减少和模型缩放。
为了验证 TOME 的有效性，我们对公开的 MS MARCO 和 NQ 数据集进行了广泛的实验。实验结果证明了该方法的有效性，包括 URL 标识符设计和两阶段生成过程。此外，案例研究表明第二阶段可以容忍第一阶段引起的错误。此外，我们通过检查不同的模型大小、语料库大小和文本长度来研究 TOME 的缩放定律。我们预计这些实验结果将有助于基于模型的检索的进一步研究。

2. 相关工作

文本检索
文本检索致力于从大型候选语料库中查找与查询相关的文本信息。稀疏检索的早期研究侧重于利用稀疏表示和倒排索引进行术语匹配，例如 BM25（Robertson 等人，2009）。近年来，随着神经网络的复兴和预训练语言模型（PLM）的出现（Devlin et al, 2019; Raffel et al, 2020），密集检索在多个任务上取得了超越传统稀疏检索的更好性能（Khattab Zaharia，2020；Karpukhin 等，2020；Xiong 等，2021；Qu 等，2021）。密集检索和近似最近邻搜索技术已在各种应用中得到广泛采用（Oguz et al, 2020; Ren et al, 2021a,b; Asai et al, 2021; Ren et al, 2022; Zhou et al, 2022a