SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
发布时间(2021)
摘要
对于Splade进行修改:
1)修改池化机制
2)引入蒸馏模型
在神经信息检索 (IR) 中,正在进行的研究旨在改进排名管道中的第一个检索器。学习密集嵌入以使用有效的近似最近邻方法进行检索已被证明效果很好。与此同时,人们对学习文档和查询的稀疏表示的兴趣日益浓厚,这些表示可以继承词袋模型的理想属性,例如术语的精确匹配和倒排索引的效率。最近推出的 SPLADE 模型提供了高度稀疏的表示和与最先进的密集和稀疏方法相比具有竞争力的结果。在本文中,我们以 SPLADE 为基础,并提出了一些在有效性和/或效率方面的重大改进。更具体地说,我们修改了池化机制,对仅基于文档扩展的模型进行了基准测试,并引入了使用蒸馏训练的模型。我们还报告了 BEIR 基准测试的结果。总体而言,SPLADE 取得了显着的进步,在 TREC DL 2019 上的 NDCG@10 上提高了 9% 以上,从而在 BEIR 基准上取得了最先进的结果。
1 引言
BERT [7] 等大型预训练语言模型的发布震撼了自然语言处理和信息检索领域。这些模型表现出通过简单微调就能适应各种任务的强大能力。2019 年初,Nogueira 和 Cho [19] 在 MS MARCO 段落重新排序任务上取得了领先优势,为基于 LM 的神经排序模型铺平了道路。由于严格的效率要求,这些模型最初被用作两阶段排名流程中的重新排名器,其中第一阶段检索(或候选生成)使用依赖倒排索引的词袋模型(例如 BM25)进行。虽然 BOW 模型仍然是