信息检索(九):TOME: A Two-stage Approach for Model-based Retrieval


原文链接:https://aclanthology.org/2023.acl-long.336/
(2023)


摘要

近年来,基于模型的检索已经成为文本检索的一种新范式,它抛弃了传统检索模型中的索引,而是使用模型参数来记忆候选语料库。该设计采用序列到序列范例来生成文档标识符,从而能够完整捕获查询和文档之间的相关性,并简化经典的索引检索重新排序管道。尽管具有吸引人的品质,但基于模型的检索仍然存在几个主要挑战,包括预训练和微调之间的差异,以及训练和推理之间的差异。为了应对上述挑战,我们提出了一种名为 TOME 的新型两阶段基于模型的检索方法,该方法做出了两项主要技术贡献,包括
1)利用标记化 URL 作为标识符和
2)设计两阶段生成架构。我们还提出了一些训练策略来应对随着语料库大小增加而出现的训练难度。对 MS MARCO 和 Natural Questions 的大量实验和分析证明了我们提出的方法的有效性,并且我们通过检查各种影响因素来研究 TOME 的缩放定律。

1. 引言

信息检索系统在过去几十年中经历了不断的发展,其目的是响应用户的查询从大量集合中获取相关资源,例如文档。随着预训练语言模型 (PLM) 最近的成功(Devlin 等人,2019;Raffel 等人,2020;Zhao 等人,2023),研究人员开发了基于 PLM 的密集检索器(Lin 等人,2021;Zhao 等人, 2022),它利用双编码器和最近邻搜索索引进行检索,并比稀疏检索器取得了显着的改进。

最近,通过开发替代检索架构,引入了一种新的检索范式,称为基于模型的检索(Tay 等人,2022;Zhou 等人,2022c)。与传统的检索方法相比,它没有显式维护语料库索引,从而简化了经典的索引-检索-重新排序过程。通常,基于模型的检索系统是基于具有编码器-解码器架构的序列到序列生成模型构建的,例如 T5 (Raffel et al, 2020) 和 BART (Lewis et al, 2020)。它接受查询作为输入,并通过生成模型直接生成相应的文档标识符。

尽管在简化检索流程方面具有诱人的优势,基于模型的检索仍然面临以下主要挑战。
1)首先,由于检索任务被定义为文档标识符的预测任务,因此设计非常适合底层生成式 PLM 的文档标识符至关重要。然而,这个问题在之前的研究中很少讨论,并且大多数现有方法采用手动或随机构造的标识符(即 docids)作为生成目标。在生成式 PLM 的预训练阶段没有充分捕获此类 docids,从而限制了 PLM 的生成预测能力(例如,在预训练期间未见过的 docids)。这造成了预训练和微调阶段之间的差异。

2)其次,单模型生成架构中的训练和推理之间存在差异。虽然大多数现有研究结合了多任务学习(Tay et al, 2022)和辅助预训练任务(Zhou et al, 2022b)来在训练期间对文档和查询进行建模,但该模型仅在推理期间处理查询,从而导致了差距在训练和推理阶段之间。
传统的生成文章标识符的方法的缺点:
1)文章标识符怎么设计?
  a)手动随机。缺点:预训练期间可能没见过;推理阶段的受限生成;
  b)本文:如何根据生成模型来做
2)训练阶段:文章和查询都看到
  但是推理阶段只是把查询作为输入

为此,在本文中,我们提出了一种新颖的基于两阶段模型的检索方法 TOME(如图 1 所示),该方法做出了两大技术贡献。
1)首先,我们建议使用标记化 URL(或 URI)作为文本标识符,其广泛用于网页或维基百科页面 。通过使用基于 URL 的标识符,标记化符号与生成 PLM 的词汇表很好地对齐,从而增强PLM 的生成能力。 URL 通常由普通文本组成,而不是手动或随机构造的标识符。因此,这样的标识符设计可用于帮助缩小预训练和微调之间的差距。
2)其次,我们的方法将预测任务分解为两个连续的阶段,即段落生成和 URL 生成,分别由两个单独的基于 T5 的生成模型来完成。第一阶段的目标是根据查询在语料库中生成相关段落,而第二阶段的目标是生成第一阶段生成的段落的相应 URL。这种两阶段架构可以减少训练和推理之间的差异。另外,整个生成过程是渐进的。因此,第二阶段能够容忍前一阶段可能引入的错误并生成正确的 URL。

本文方法
1)使用 URL,而不是随机符号
2)两阶段生成
  a)第一阶段:根据 query,生成 passage
  b)第二阶段:根据 passage,生成 url

此外,我们发现,在处理庞大的语料库时,优化基于模型的检索成为一项具有挑战性的任务。因此,我们提出了许多改进的训练策略来优化生成模型,包括查询增强、通道长度减少和模型缩放。
为了验证 TOME 的有效性,我们对公开的 MS MARCO 和 NQ 数据集进行了广泛的实验。实验结果证明了该方法的有效性,包括 URL 标识符设计和两阶段生成过程。此外,案例研究表明第二阶段可以容忍第一阶段引起的错误。此外,我们通过检查不同的模型大小、语料库大小和文本长度来研究 TOME 的缩放定律。我们预计这些实验结果将有助于基于模型的检索的进一步研究。

2. 相关工作

文本检索
文本检索致力于从大型候选语料库中查找与查询相关的文本信息。稀疏检索的早期研究侧重于利用稀疏表示和倒排索引进行术语匹配,例如 BM25(Robertson 等人,2009)。近年来,随着神经网络的复兴和预训练语言模型(PLM)的出现(Devlin et al, 2019; Raffel et al, 2020),密集检索在多个任务上取得了超越传统稀疏检索的更好性能(Khattab Zaharia,2020;Karpukhin 等,2020;Xiong 等,2021;Qu 等,2021)。密集检索和近似最近邻搜索技术已在各种应用中得到广泛采用(Oguz et al, 2020; Ren et al, 2021a,b; Asai et al, 2021; Ren et al, 2022; Zhou et al, 2022a )。最近,Zhao等人(2022)对基于PLM的密集检索的最新进展进行了非常全面的调查,我们建议读者阅读这篇调查论文以了解更多详细信息。

基于模型的检索
稀疏检索和密集检索都依赖于显式索引。最近,研究人员提出了基于模型的检索(又名生成检索)模型(Metzler 等人,2021;Tay 等人,2022)。这些方法将模型参数视为检索索引,并直接生成相关文档的标识符。这种想法最初是针对实体检索提出的(Cao et al, 2021),它自回归生成唯一的实体标识符。按照这种方法,研究人员引入了用于文档检索的序列到序列编码器-解码器架构(Zhou et al, 2022c; Bevilacqua et al, 2022; Zhuang et al, 2022; Wang et al, 2022; Lee et al, 2022; Chen 等人,2022;Zhou 等人,2022b)。正如上一节所讨论的,基于模型的检索仍然存在问题,包括预训练和微调之间的差异,以及训练和推理之间的差异。我们的工作尝试使用带有 URL 标识符的两阶段生成架构来处理这些问题。

3. 方法

在本节中,我们首先介绍任务公式,然后描述所提出的两阶段生成方法 TOME。

3.1 任务定义

在这项工作中,我们考虑文本检索的任务,其目的是从大型语料库中查找与查询相关的相关文本资源(例如文档)。我们进一步假设这些文本可以通过关联的 URL(或 URI)访问。
为了开发我们的方法,我们采用了最近提出的基于模型的文本检索范式(Tay 等人,2022;Zhang 等人,2022)。对于检索,基于模型的检索模型将查询 q 作为输入,并使用文本到文本模型以自回归方式生成相关文档的标识符 y(长度 n),条件概率为:
在这里插入图片描述其中 yi 表示标识符 y 中的第 i 个输出标记,y<i 表示前面的标记 y1,…。 。 。 , yi−1, M代表PLM。标识符可以是原子 token 或字符串(Tay 等人,2022)。在我们的设置中,它被分配给文本的关联 URL(请参阅第 3.2.1 节)。通常,采用具有编码器-解码器架构的生成式预训练语言模型(PLM)来实现文本到文本模型(例如,T5),该模型通常通过交叉熵损失进行优化,如下所示:
在这里插入图片描述
基于模型的检索的关键是设计一个采用合适文档标识符的生成架构,并开发有效的训练方法,可以有效地将查询与文档标识符相关联。接下来,我们详细阐述我们的方法。

3.2 模型架构

在本节中,我们首先介绍文档标识符的设计,然后介绍两阶段生成架构。

3.2.1 标识符设计

现有研究通常使用 docids 来表示文档(Tay et al, 2022; Zhuang et al, 2022)。这些文档 ids 通常是随机生成或手动构建的,在现实世界的文本语料库中可能不存在。然而,生成式PLM是基于大规模文本语料库进行预训练的,导致预训练和微调之间存在差异。

与以前的方法不同,我们将 URL 的标记化形式视为 docids。我们直接将 URL 视为文本字符串,并使用 T5 标记器将其标记为标记序列。例如,示例 URL ‘https://en.wikipedia.org/wiki/Nevada’ 可以标记为 {‘https’, ‘😕/’, ‘en’, ‘.’, ‘wikipedia’, ‘.’、‘org’、‘/’、‘wiki’、‘/’、‘N’、‘e’、‘vada’}。我们使用令牌序列作为生成PLM的预测目标,遵循式(1)的生成公式。值得注意的是,Ultron(Zhou et al, 2022b)也使用 URL 作为标识符,其中 URL 被颠倒过来,仅用作标识符的一部分(也涉及标题和域名)。作为比较,我们仅使用标记化 URL 作为标识符,而不进行任何额外处理。

与非语言文档相比,URL 通常以普通文本的形式包含更有意义的标记,并且广泛存在于现实世界的文本语料库中,使它们更适合使用生成式 PLM 进行建模和预测。在解码过程中,我们可以直接采用通用的文本解码方法来生成URL,而无需借助约束波束搜索等有限的搜索策略(Tay et al, 2022;Bevilacqua et al, 2022)。由于这些标记化符号通常在不同的 URL 之间重叠(例如,来自同一域的网页),因此它们自然地派生出语义字符串作为 DSI 中的聚类方法(Tay 等人,2022)。

3.2.2 两阶段生成架构

检索生成模型的目标是在查询与其相应的 docid(即 URL)之间建立关联。然而,由于注释数据的稀缺,人们提出了各种改进策略,例如多任务学习(Tay et al, 2022)或预训​​练(Zhou et al, 2022b)。通常,模型在训练期间同时处理文档和查询,而在推理期间仅处理查询,从而导致训练和推理之间的差异。为了解决这个问题,我们提出了一种两阶段生成方法,具有两种不同的生成模型:一个用于段落生成,另一个用于 URL 生成,如图 1 所示。
在这里插入图片描述
文章生成
在第一阶段,我们采用基于 T5 的段落生成模型,根据等式(1)将输入查询映射到段落内容。生成的段落预计作为语料库中的相关段落,可以提供查询的答案。段落生成模型的目标是记住语料库中的段落,从而以最精确的方式生成段落。它使用查询-段落对进行训练,其中每对都包含文档中的查询和段落,以及相应的标记 URL。与现有方法不同(Tay et al, 2022; Bevilacqua et al, 2022),我们不利用任何数据结构来限制解码过程,而是简单地使用贪婪搜索以自回归方式生成查询的单独结果,这具有解码效率高。通过合并中间段落生成,我们的方法可以减轻查询编码器处理文档时也需要的训练推理差异(Tay 等人,2022)。

URL 生成
在第二阶段,使用另一个基于T5的PLM来预测相应的URL作为检索结果,利用段落生成模型生成的段落作为输入。 URL是通过贪婪搜索解码以与等式(1)类似的方式生成的。 URL 生成模型使用段落-URL 对进行训练,其中每对都包含一个段落及其对应的 URL。 URL生成模型的目标是记住语料库中的所有URL,以便将生成的与查询相关的段落映射到相应的URL。同时,即使生成的段落包含一些不相关的内容或噪音,该阶段仍然可以做出可靠的预测,因为它可以使用长段落作为上下文,而不是短查询。总体而言,这种两阶段生成方法可以通过减少训练推理差异和丰富生成上下文来更有效地捕获查询和标识符之间的语义相关性,这是专门为基于模型的检索量身定制的。

1)不适用受限生成?怎么保证标识符存在于检索库中

3.3 训练

对于段落生成模型和URL生成模型,我们利用交叉熵损失来独立优化它们来优化标准T5模型,如等式(2)所示。然而,优化基于模型的检索方法(Zhuang et al, 2022;Wang et al, 2022)是一项具有挑战性的任务,因为它们本质上需要记忆语料库信息,并且生成长文本也对模型收敛提出了挑战。在这一部分中,我们进一步提出了几种改进我们方法的训练的策略。

利用模型记忆语料库的信息,是一项有挑战性的任务
1)查询增强,通过针对段落生成伪查询来增加训练数据
2)减小生成 passage 的长度,拼接 title + short passage 来代替 long passage 作为生成目标
3)增大模型规模: MS 数据集子集训练:T5-large + T5-base MS 整个数据集训练:T5-3B + T5-large

查询增强
事实证明,生成伪查询可以有效提高基于模型的检索的性能(Wang et al, 2022;Zhang et al, 2022)。在这里,我们利用查询生成来构建用于段落生成的训练数据。具体来说,我们将段落集合作为语料库,并使用在标记数据集上训练的现有查询生成模型(即 DocT5query(Nogueira 等人,2019))为语料库中的每个段落生成多个伪查询。遵循 DSI-QG (Zhuang et al, 2022),我们使用 top-k 采样策略进行查询生成,并将 k 设置为 20。然后使用生成的伪查询及其相应的段落来构造查询-段落对作为段落生成模型的训练数据。这种查询增强方法可以显着提高训练数据的可用性,并且还可以增强模型对不同查询的泛化能力。

减少文章长度
由于段落比 URL 长得多,因此段落生成比 URL 生成更复杂。在生成任务中,更广泛的生成目标会导致更大的搜索空间,这通常会导致效率和有效性的降低。然而,在我们的方法中,段落生成是预测 URL 的间接步骤,因此我们考虑减少段落长度以提高训练效率。为此,我们将通道的最大截断长度从 128 缩短到 32。然而,减小通道长度可能会导致信息丢失,从而损害生成性能。
作为解决方案,我们将标题(短文本)和缩短的段落连接起来以增强所包含的语义。我们还在标题和段落内容之前添加提示,例如“title:”或“passage:”,以获得更好的生成性能。

增加模型规模
基于模型的检索需要生成式 PLM 具有强大的记忆能力,特别是对于我们涉及段落生成阶段的方法。此外,文本语料规模的扩大会显着增加语料记忆的难度,而参数规模较小的PLM在数据规模达到一定程度时,记忆能力会受到限制。考虑到这两方面,我们相应地缩放模型大小,并在必要时采用更大的 PLM。具体来说,我们在小语料库(例如 MS MARCO 的子集)上分别使用 T5-large(第一阶段更困难)和 T5base 来实现我们方法的两个阶段。此外,我们在大型语料库(例如 MS MARCO 的全套)上相应地将它们增加到 T5-3B 和 T5-large。除了提高容量之外,我们发现使用更大的模型尺寸也有助于提高收敛速度(如第 5.4 节所述)。

4. 实验设置

本节描述主要的实验设置,包括数据集、评估指标、基线和实施细节。

4.1 数据集和评价指标

数据集
我们在两个公开可用的数据集上进行了实验,即 MS MARCO (Nguyen et al, 2016) Passage Ranking 和 Natural Questions (NQ) (Kwiatkowski et al, 2019)。
(1) MS MARCO 包含 Bing 搜索查询以及网络文档中的段落,使其成为迄今为止最大的网络搜索数据集之一,拥有超过 880 万个段落的完整语料库。此外,我们还考虑了两个子集,每个子​​集包含 100K 和 1M passage(Tay et al, 2022; Zhuang et al, 2022)。基于 MS MARCO 问答数据集,我们提取与段落相关的 URL,如果段落包含多个 URL,则选择随机 URL
(2) NQ 数据集是一个问答数据集,其中查询数据是从 Google 搜索日志收集的,文档数据来自维基百科。我们遵循 NCI (Wang et al, 2022) 使用 NQ320K 版本,其中包含 320K 带标签的查询文档对和 100K 文档。我们收集文档摘要作为中间生成的段落。

评价指标
继之前的工作之后,我们采用 Hits@1 作为评估指标。该指标计算为 top-1 生成结果为正的查询的百分比。由于模型在不同阶段的输出要么是段落文本,要么是URL文本,与传统的MS MARCO评估通过确定检索到的标识符是否在标识符标签列表中不同,我们通过确定是否与标签完全匹配来评估结果文本。

4.2 基线

为了进行比较,我们选择了以下基线,包括稀疏检索、密集检索和基于模型的检索。

1)BM25 (Robertson et al, 2009) 是一种经典的稀疏检索器,它使用倒排索引通过术语重叠查找相关段落。

2)DPR (Karpukhin et al, 2020) 和 ANCE (Xiong et al, 2021) 是两种采用双编码器架构的代表性密集检索器。

3)对于基于模型的检索器,DSI(Tay 等人,2022)是基于模型检索的先驱工作,它使用序列到序列模型将输入查询映射到相关的 docid。我们使用 DSI-QG 发布的开源代码在 MS MARCO 上重现 DSI 基线。
SEAL(Bevilacqua 等人,2022)建议使用辅助 Ferragina Manzini 索引为查询生成多个 ngram。
DSI-QG(Zhuang et al, 2022)提出通过查询生成构建的增强数据来改进 DSI。
NCI(Wang 等人,2022)还利用伪查询通过定制架构改进基于模型的检索。由于不同方法的实验设置不同,我们复制了 NCI 中 NQ 上的一些基线的性能值,并在相同的评估策略下重现了 MS MARCO 上的所有基线。所有基于模型的检索基线均采用“large”版本的 PLM。

4.3 实现细节

我们使用深度学习框架 PaddlePaddle(Ma 等人,2019 年)和自然语言处理工具包 PaddleNLP(贡献者,2021 年)在最多 32 个 NVIDIA Tesla A100 GPU(最高 80G RAM)上进行实验。

PLM
我们工作中采用的生成模型是用 T5 的不同参数尺度进行初始化的(Raffel et al, 2020)。在 passage 生成模型中,我们在MS MARCO Full上使用T5-3B进行初始化,其他模型使用T5-large进行初始化。在URL生成模型中,我们在MS MARCO Full上使用 T5-large 进行初始化,其他模型使用T5-base进行初始化。

超参数
我们采用学习率为5e-5的Adam优化器,并使用bf16混合精度策略训练模型最多3M步。 T5-base、T5-large 和 T5-3B 的批量大小分别设置为 128、384 和 80。查询、段落和 URL 的最大长度分别设置为 32、32 和 80。对于通道和 URL 生成任务,预热步骤分别设置为 100K 和 10K。

查询增强
我们采用在 MS MARCO 训练集上训练的现有 docT5query-large(Nogueira 等人,2019)模型,并分别为 MS MARCO 和 NQ 的每个段落生成 20 个和 15 个查询。对于训练数据,我们仅使用 MS MARCO 上通过查询生成构建的伪标签数据,并在 NQ 上同时使用伪标签数据和标签数据。

5. 实验结果和分析

在本节中,我们报告我们提出的方法的实验结果并进行全面的实证分析。

5.1 主要结果

在这里插入图片描述

表 1 和表 2 报告了 MS MARCO 和 NQ320K 的总体结果。根据结果​​,我们有以下观察结果:

与基于模型的检索器的比较
我们观察到 TOME 在 MS MARCO 和 NQ320K 数据集的三个子集上始终优于基于模型的检索器,从而证明了所提出方法的有效性。
此外,NCI 是 NQ320K 的竞争基准,它使用定制的解码器架构、预处理的语义 docid 和基于 DSI-QG 的正则化,而我们的方法只是使用标准 T5 配置进行训练,无需任何额外处理。我们还发现,在 MS MARCO Full 上训练时,DSI-QG 无法有效收敛。我们推测,随着语料库规模的扩大,随机的非语言文档会成为瓶颈,而当使用普通文本(例如 URL)作为生成目标时,损失通常可以收敛。

两阶段生成架构的效果
通过简单地将 DSIQG 的生成目标从随机字符串 docids 替换为 URL(我们方法的单阶段),性能得到了提高(参见表 1 和表 2 中的 DSI-QG 和 TOME 单阶段),表明自然语言标识符是比非语言 docids 更适合基于模型的检索任务。此外,如果我们采用两阶段生成,包括在生成 URL 之前生成段落的中间步骤,性能将进一步提高(参见表 1 和表 2 中的 TOME 单阶段和 TOME 两阶段)。这样的观察表明,将段落生成集成到基于模型的检索过程中可以带来更好的性能。

与密集检索器的比较
通过采取一系列的训练策略,我们成功地在大规模语料库上训练了TOME。然而,尽管 TOME 在 MS MARCO 100K 和 NQ320K 上的性能优于密集检索方法,但与 MS MARCO 1M 和 Full 等较大语料库上的 DPR 相比,仍然存在性能差距。这表明当语料库规模扩大时,我们的方法与先进的密集检索方法相比仍然存在差距。由于基于模型的方法需要对整个语料库进行完整记忆,因此与密集检索器相比,它在大规模语料库中存在固有的劣势,需要进一步探索。

1)利用模型记忆语料库,当语料库变大,生成方式的劣势凸显
2)生成 URL 的方式优于随机生成,并且先生成 passage 性能更好
3)训练简单,效果有效

5.2 消融研究

在本节中,我们进行了一项消融研究,以检验 TOME 中策略的有效性。我们报告了 MS MARCO 100K 和 NQ320K 的结果。在这里,我们考虑基于 TOME 的三种变体进行比较:
(a)w/o Prompt 删除标题和段落之前的提示;
(b)w/ increased maxlen 通道的最大截断长度从 32 增加到 128 (c)w/ reduced pseudo query 将伪查询数量减少到每段 10 个

在这里插入图片描述

表 3 列出了 TOME 变体的结果。我们可以观察到以下发现:
(a)在没有提示的情况下性能下降,这表明添加用于识别标题和段落的提示有助于生成更好的结果。
(b)随着 maxlen 的增加,性能下降,这表明由于不同的训练策略,缩短最大截断通道长度不会带来性能损失,而是降低了训练难度。
(c)减少伪查询后性能下降,证明了生成大量伪查询以进行数据增强的有效性。
1)加入提示,效果更好
2)降低生成长度,效果更好
3)增加训练数据,效果更好

5.3 两阶段生成的分析

在本节中,我们定量和定性地研究 passage 生成模型的生成结果,以展示所提出的两阶段生成方法的优越性。

5.3.1 定量分析

我们使用在 MS MARCO 100K 上训练的通道生成模型定量分析 MSMARCO 开发集上的生成结果。
首先,我们惊讶地发现,在整个 dev 集上,生成的段落是语料库中存在的段落的比例约为 95%。在模型无法正确生成标签的情况下,大约 85% 的生成段落仍然存在于语料库中。这一结果表明该模型能够准确记忆语料库并能够生成类似检索的结果。此外,之前的密集检索研究表明,MSMARCO 中存在大量假阴性(Qu et al, 2021)。我们还观察到,大约 80% 未标记为阳性但出现在语料库中的生成结果是假阴性,这表明基于模型的检索与密集检索存在相同的假阴性问题。尽管如此,通道生成模型实际上具有很强的生成能力。

5.3.2 定性分析

为了探索 TOME 的生成能力,我们对 MSMARCO 100K 进行了案例研究,使用最大截断长度 128 来更好地进行说明。
表 4 给出了两个采样查询及其相应的标签段落、证据段落(如果可用)和生成的段落。对于第一个查询,生成的段落与标记的段落并不完全相同。与标记的阳性通道相比,生成的通道的后半部分发生了改变。尽管生成段落发生了改变,URL生成模型仍然能够准确地将其映射到正确的URL,这表明URL生成模型可以容忍由段落生成模型引入的变化。在第二个示例中,模型从标签段落和证据段落中提取相关内容,然后组合内容以创建生成的段落。有趣的是,段落生成模型能够总结多个段落。

1)能够生成段落
2)生成段落有效,并且生成段落可以从多个 passage 总结获得
在这里插入图片描述

5.4 模型规模的分析

我们观察到长文本生成对损失的收敛提出了挑战,因此我们研究了不同条件下模型的训练效率和能力。特别是,我们使用相同的计算资源,在 TOME 的段落生成阶段(即第一阶段)进行训练。考虑到第二阶段的趋势类似,限于篇幅,此处省略。

数据规模的影响
我们研究了扩大语料库对模型训练的影响,并检查在处理大型语料库时模型容量是否不足。我们固定了T5-large模型,并分别在MSMARCO 100K、1M和Full数据集上进行训练,而不缩短通道长度。我们使用困惑度(PPL)来估计模型容量并监控困惑度如何随着训练步骤的增加而变化。结果如图2(a)所示。可以看出,T5-large模型的困惑度在语料库规模扩展后未能收敛到较低水平,这说明在该任务下,一定的数据量会导致模型的容量瓶颈。此外,在较大的语料库上,困惑度的下降速度减慢,表明相同参数大小的模型在大规模语料库上的学习效率较低。

模型规模的影响
为了研究不同参数规模模型的训练特性,我们将数据大小固定为1M的中间规模,并使用T5-base、T5-large和T5-3B模型进行训练。如图 2(b) 所示,随着训练步数的增加,不同参数大小的模型的损失收敛。三个尺度的模型中,T5-base模型收敛最慢,收敛困难,而参数尺度最大的T5-3B模型收敛最快。这表明,在相同计算资源下,参数数量较多的 PLM 表现出较高的训练效率,尽管每步的数据处理能力较少,需要优化的参数较多。

文章长度的影响
为了研究减少生成通道长度的效果,我们将模型固定为T5-large,并在MSMARCO 1M上以不同最大截断长度的通道作为生成目标进行实验。图2显示,减少生成段落的最大截断长度后,困惑度显着降低,表明这种策略有利于减轻段落生成任务的难度。此外,该模型在生成较短通道时表现出更高的效率。

1)数据库越大,模型记忆越困难
2)模型越大,收敛速度越快
3)生成文本长度越长,模型收敛越困难

6. 结论

在本文中,我们介绍 TOME,一种创新的两阶段基于模型的检索方法。为了实现我们的方法,我们在标识符的设计和两阶段生成的架构方面做出了两项主要的技术贡献。此外,我们还采用了许多训练策略来更好地优化我们提出的架构,特别是在大规模语料库上。大量结果证明了 TOME 的有效性。此外,我们对所提出的方法进行了彻底的分析并总结了缩放定律。我们相信这样的想法本身就值得在设计新的基于模型的检索架构时进行探索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值