信息检索（43）：SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking-CSDN博客

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/139471482

SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking

摘要
1 引言
2 相关工作
3 方法
- 3.1 SparTerm
- 3.2 SPLADE：稀疏词汇和扩展模型
4 实验
5 结论

发布时间（2021）

标题：稀疏词汇 + 扩展模型

摘要

稀疏的优点：
1）术语精确匹配
2）倒排索引效率
两部分：
1、显式稀疏正则化：explicit sparsity regularization
2、术语权重的对数饱和效应：explicit sparsity regularization
在神经信息检索中，正在进行的研究旨在改进排名管道中的第一个检索器。学习密集嵌入以使用有效的近似最近邻方法进行检索已被证明效果很好。同时，人们对学习文档和查询的稀疏表示的兴趣日益浓厚，这些表示可以继承词袋模型的理想属性，例如术语的精确匹配和倒排索引的效率。在这项工作中，我们提出了一种新的第一阶段排名器，该排名器基于显式稀疏正则化和对术语权重的对数饱和效应，从而产生高度稀疏的表示和与最先进的密集和稀疏方法相比具有竞争力的结果。我们的方法很简单，在一个阶段进行端到端训练。我们还通过控制稀疏正则化的贡献来探索有效性和效率之间的权衡。

1 引言

BERT [7] 等大型预训练语言模型的发布震撼了自然语言处理和信息检索领域。这些模型表现出通过简单微调就能适应各种任务的强大能力。2019 年初，Nogueira 和 Cho [17] 在 MS MARCO 段落重排序任务中取得了领先优势，为基于 LM 的神经排序模型铺平了道路。由于严格的效率要求，这些模型最初被用作两阶段排序流程中的重排序器，其中第一阶段检索（或候选生成）是使用依赖于倒排索引的词袋模型（例如 BM25）进行的。
尽管 BOW 模型仍然是强大的基线 [27]，但它们受到长期存在的词汇不匹配问题的困扰，即相关文档可能不包含查询中出现的术语。因此，有人尝试用学习的（神经）排序器替代标准 BOW 方法。设计这样的模型在效率和可扩展性方面带来了一些挑战：因此需要一种可以离线完成大部分计算并且在线推理速度快的方法。使用近似最近邻搜索的密集检索已显示出令人印象深刻的结果 [8, 15, 26]，但由于无法明确模拟术语匹配，因此仍然与 BOW 模型相结合。因此，最近人们对学习查询和文档的稀疏表示的兴趣日