信息检索（30）：BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

最新推荐文章于 2024-08-22 07:51:42 发布

简简单单的貔貅

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量1.2k

点赞数 28

分类专栏：问答系统与信息检索文章标签：人工智能

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/137641673

版权

问答系统与信息检索专栏收录该内容

43 篇文章 5 订阅

订阅专栏

BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

摘要
1 引言
2 相关工作和背景
- 2.1 神经检索
3 BEIR Benchmark
4 实验设置
5 结果和分析
- 5.1 效率：检索延迟和索引大小
6 注释选择偏差的影响
7 结论和未来工作
8 BEIR Benchmark 的局限性
补充知识

Evaluation of Information Retrieval Models)

原文链接：https://arxiv.org/abs/2104.08663
（2021）

模型性能排行榜：https://tinyurl.com/beir-leaderboard

摘要

数据集：18个
基线：10个（词汇、稀疏、密集、后期交互、重排序）
效果：
1）后期交互和重排序，以高计算成本实现高性能（ zero-shot 设置）
2）密集和稀疏计算效率高，但效果差（泛化能力改进空间大）
现有的神经信息检索（IR）模型经常在同质和狭窄的环境中进行研究，这极大地限制了对其分布外（OOD）泛化能力的了解。为了解决这个问题，并方便研究人员广泛评估其模型的有效性，我们引入了 Benchmarking-IR (BEIR)，这是一种用于信息检索的强大且异构的评估基准。我们利用来自不同文本检索任务和领域的 18 个公开可用数据集精心挑选，并在 BEIR 基准上评估 10 个最先进的检索系统，包括词汇、稀疏、密集、后期交互和重新排序架构。我们的结果表明 BM25 是一个稳健的基线，并且基于重新排序和后期交互的模型平均实现了最佳的零样本性能，但计算成本很高。相比之下，密集和稀疏检索模型的计算效率更高，但通常表现不如其他方法，这凸显了其泛化能力还有相当大的改进空间。我们希望这个框架能让我们更好地评估和理解现有的检索系统，并有助于加速未来更强大和更通用的系统的进展。 BEIR 可在 https://github.com/UKPLab/beir 上公开获取。

1 引言

应用领域：问答、事实核查、重复问题检测
词汇检索方法特点：
1）只能检索到那些包含了 query 中词汇的 passage
2）query 和 passage 视为词袋，不考虑词序

数据集介绍
1）9 种检索任务：事实核查、引文预测、重复问题检索、论点检索、新闻检索、问答、推文检索、生物医学检索、实体检索
2）文本领域：通用（维基百科）、专业（COVID-19）
3）文本类型：新闻文章、推文
4）语料库大小（3.6k - 15M docs）
5）query-length（3 - 192 words）、doc-length（11-635 words）

评估方法
1）5 种架构、10 种方法：词汇、稀疏、密集、后期交互和重新排序

PS：1）没有一种方法在所有数据集上始终优于其他方法
2）域内能力和泛化能力没有很好相关性
3）BM25 在 zero-shot 表现强劲
4）稀疏和密集的要差于词汇的（BM25）
5）后期交互和重排序通过成本交互性能

主要的自然语言处理 (NLP) 问题依赖于实用且高效的检索组件作为查找相关信息的第一步。具有挑战性的问题包括开放域问答[8]、声明验证[58]、重复问题检测[77]等等。传统上，检索主要由 TF-IDF 或 BM25 [53] 等词汇方法主导。然而，这些方法存在词汇差距 [5]，并且只能检索包含查询中存在的关键字的文档。此外，词法方法将查询和文档视为词袋，而不考虑词序。
最近，深度学习，特别是像 BERT [12] 这样的预训练 Transformer 模型在信息检索中变得流行起来 [75]。这些神经检索系统可以通过许多根本不同的方式使用来提高检索性能。我们在 2.1 节中对系统进行了简要概述。许多先前的工作在大型数据集上训练神经检索系统，例如 Natural Questions (NQ) [32]（133k 训练示例）或 MS MARCO [42]（533k 训练示例），它们都专注于给定问题或基于简短关键字的段落检索询问。在大多数先前的工作中，方法随后在同一数据集上进行评估，其中证明了比 BM25 等词汇方法有显着的性能提升 [48,29,43]。
然而，创建大型训练语料库通常既耗时又昂贵，因此许多检索系统都应用于零样本设置，没有可用的训练数据来训练系统。
到目前为止，尚不清楚现有的经过训练的神经模型在其他文本领域或文本检索任务中的表现如何。更重要的是，目前尚不清楚不同的方法（例如稀疏嵌入与密集嵌入）对分布外数据的推广效果如何。
在这项工作中，我们提出了一种新颖的稳健且异构的基准，称为 BEIR（Benchmarking IR），由 18 个检索数据集组成，用于比较和评估模型泛化。先前的检索基准 [17, 47] 存在评估相对狭窄的问题，要么只关注单个任务，如问答，要么关注某个领域。在BEIR中，我们关注多样性，包括九种不同的检索任务：事实检查、引文预测、重复问题检索、论点检索、新闻检索、问答、推文检索、生物医学IR和实体检索。此外，我们还包括来自不同文本领域的数据集、涵盖广泛主题（如维基百科）和专业主题（如 COVID-19 出版物）、不同文本类型（新闻文章与新闻文章）的数据集。推文）、各种大小的数据集（3.6k - 15M 文档）以及具有不同查询长度（平均查询长度在 3 到 192 个单词之间）和文档长度（平均文档长度在 11 到 635 个单词之间）的数据集。
我们使用 BEIR 来评估来自五种广泛架构的十种不同的检索方法：词汇、稀疏、密集、后期交互和重新排序。根据我们的分析，我们发现没有一种方法在所有数据集上始终优于其他方法。此外，我们注意到模型的域内性能与其泛化能力没有很好的相关性：使用相同训练数据进行微调的模型可能会产生不同的泛化能力。在效率方面，我们发现性能和计算成本之间存在权衡：计算成本较高的模型（例如重新排序模型和后期交互模型）表现最好。更有效的方法，例如基于密集或稀疏嵌入的模型的性能明显低于 BM25 等传统词汇模型。总体而言，BM25 仍然是零样本文本检索的强大基线。
最后，我们注意到基准测试中包含的数据集中可能存在强烈的词汇偏差，可能是因为在注释或创建数据集期间主要使用词汇模型。这可能会给非词汇方法带来不公平的劣势。我们针对 TREC-COVID [63] 数据集进行了分析：我们手动注释了测试系统缺失的相关性判断，并发现非词汇方法的性能显着提高。因此，未来的工作需要更好的无偏见数据集，以便对所有类型的检索系统进行公平比较。
借助 BEIR，我们在评估检索系统零样本能力的单一统一基准方面迈出了重要一步。它可以研究某些方法何时以及为何表现良好，并有望将创新引导至更强大的检索系统。我们发布了 BEIR，并将不同的检索系统和数据集集成在一个文档齐全、易于使用且可扩展的开源包中。 BEIR 与模型无关，欢迎各种方法，并且还允许轻松集成新任务和数据集。更多详细信息请访问 https://github.com/UKPLab/beir。

2 相关工作和背景

1）第一阶段：查询
词汇方法受到词汇空白（lexical gap）影响。

稀疏方法（也是利用神经网络）：
a）docT5query 根据文档生成可能查询
b）DeepCT 使用术语权重生成伪文档表示
但其余部分仍然依赖 BM25 检索
c）SPARTA 学习上下文表示，将文档变成逆索引

密集方法（query 和 doc 映射到共享密集向量空间，允许 doc 预先训练并索引）

混合词汇——密集方法

无监督域适应：通过生成目标域的合成查询来训练密集检索器

上下文后期交互（ColBERT）

2）第二阶段：重排序
一般用BM25完成第一阶段，第二阶段使用模型进行重排序，但计算开销较高

据我们所知，BEIR 是第一个广泛的零样本信息检索基准。现有的工作 [17, 47] 并没有深入评估零样本设置中的检索，它们要么专注于单个任务、小型语料库，要么专注于某个领域。这种设置阻碍了跨不同领域和任务类型的模型泛化研究。 MultiReQA [17] 由八个问答（QA）数据集组成，并评估给定问题的句子级答案检索。它仅测试单个任务，八个数据集中有五个来自维基百科。此外，MultiReQA 在相当小的语料库上评估检索：八个任务中有六个的候选句子少于 100k，这有利于密集检索而不是词汇检索，如之前所示 [52]。 KILT [47] 由五个知识密集型任务组成，总共包括 11 个数据集。这些任务涉及检索，但这不是主要任务。此外，KILT 仅从维基百科检索文档。

2.1 神经检索

信息检索是从集合中搜索并返回查询的相关文档的过程。在我们的论文中，我们专注于文本检索，并使用文档作为给定集合中任意长度文本的覆盖术语，并查询用户输入（也可以是任意长度）。

传统上，像 TF-IDF 和 BM25 [53] 这样的词汇方法主导了文本信息检索。最近，人们对使用神经网络来改进或取代这些词汇方法产生了浓厚的兴趣。在本节中，我们重点介绍一些基于神经的方法，并建议读者参考 Lin 等人 [75] 最近进行的神经检索调查

基于检索器
词汇方法受到词汇差距的影响[5]。为了克服这个问题，早期的技术提出了利用神经网络来改进词汇检索系统。诸如 docT5query [45] 之类的稀疏方法使用序列到序列模型来识别文档扩展术语，该模型生成与给定文档相关的可能查询。另一方面，DeepCT [11] 使用 BERT [12] 模型来学习文档中的相关术语权重并生成伪文档表示。两种方法的其余部分仍然依赖 BM25。类似地，SPARTA [78] 使用 BERT 学习了 token 级上下文表示，并将文档转换为高效的逆索引。最近，提出了密集检索方法。

他们能够捕获语义匹配并尝试克服（潜在的）词汇差距。

密集检索器将查询和文档映射到共享的密集向量空间中[16]。这允许预先计算文档表示并建立索引。基于预训练 Transformer 的双编码器神经架构在各种开放域问答任务中表现出了强大的性能 [17,29,33,40]。这种密集方法最近通过混合词汇密集方法进行了扩展，旨在结合两种方法的优点[15,55,39]。另一项并行工作提出了一种无监督的域适应方法 [33, 40]，通过在目标域上生成合成查询来训练密集检索器。最后，ColBERT [30]（BERT 上的上下文化后期交互）在令牌级别上计算查询和文档的多个上下文化嵌入，并使用最大相似度函数来检索相关文档。

基于重排序器
神经重新排序方法使用第一阶段检索系统（通常是 BM25）的输出，并对文档进行重新排序，以更好地比较检索到的文档。BERT 的交叉注意力机制实现了性能的显着提升[43]。然而，其缺点是计算开销较高[51]。

3 BEIR Benchmark

统一数据集的格式：corpus、queries、qrels
BEIR旨在为所有多样化的检索任务提供一站式零样本评估基准。为了构建全面的评估基准，选择方法对于收集具有所需属性的任务和数据集至关重要。对于 BEIR 来说，该方法受到以下三个因素的推动：
（i）多样化的任务：
信息检索是一项多功能的任务，并且任务之间的查询和索引文档的长度可能有所不同。有时，查询很短，如关键字，而在其他情况下，查询可能很长，如新闻文章。同样，索引文档有时可能很长，而对于其他任务来说，索引文档可能很短，如推文。
** (ii) 不同的领域：**
检索系统应该在不同类型的领域中进行评估。从新闻或维基百科等广泛的内容，到特定领域的科学出版物等高度专业化的内容。因此，我们包含了提供现实世界问题表示的领域，这些领域从通用到专业都是多种多样的。
(iii) 任务难度：
我们的基准具有挑战性，所包含的任务难度必须足够。如果一个任务可以通过任何算法轻松解决，那么比较用于评估的各种模型就没有意义。我们根据现有文献评估了几项任务，并选择了我们认为最近开发的、具有挑战性且现有方法尚未完全解决的流行任务。
** (iv) 多样化的注释策略：**
创建检索数据集本质上是复杂的，并且容易受到注释偏差的影响（详细信息请参见第 6 节），这阻碍了方法的公平比较。为了减少此类偏见的影响，我们选择了以多种不同方式创建的数据集：一些由众包工作者注释，另一些由专家注释，还有一些基于大型在线社区的反馈。

总共，我们包含来自 9 个异构检索任务的 18 个英语零样本评估数据集。由于大多数评估方法都是在 MS MARCO [42] 数据集上进行训练，因此我们还报告了该数据集上的性能，但不将结果包含在我们的零样本比较中。我们希望读者参考附录 C，其中我们深入探讨了 9 项检索任务和 18 个数据集中的每一项。表 8 列出了每个数据集的示例。我们还在附录 D 中提供了数据集许可证，并在表 5 中提供了数据集的链接。
在这里插入图片描述
表1总结了BEIR中提供的数据集的统计数据。大多数数据集包含二元相关性判断，即相关或不相关，少数数据集包含细粒度的相关性判断。一些数据集包含很少的查询相关文档 (< 2)，而其他数据集（例如 TREC-COVID [63]）甚至可以包含多达 500 个查询的相关文档。 19 个数据集（包括 MS MARCO）中只有 8 个具有表明零样本检索基准测试实际重要性的训练数据。除 ArguAna [65] 之外的所有数据集都有简短的查询（单个句子或 2-3 个关键字）。图 1 显示了 BEIR 基准测试中的任务和数据集的概述。

信息检索（IR）无处不在，每个任务中都有大量可用的数据集，甚至还有更多的检索任务。然而，将所有数据集包含在评估基准中是不可行的。我们试图涵盖广泛的任务和数据集的平衡组合，并强调不要过分重视回答问题等特定任务。未来的数据集可以轻松集成到 BEIR 中，并且可以在任何新数据集上快速评估现有模型。 BEIR 网站将托管一个积极维护的排行榜2，其中包含所有数据集和模型。

3.1 数据集和多样性分析

BEIR 中的数据集选自不同领域，包括维基百科、科学出版物、Twitter、新闻、在线用户社区等等。为了测量领域的多样性，我们使用所有数据集对之间的一元词重叠的成对加权 Jaccard 相似度 [24] 分数来计算成对数据集之间的领域重叠。有关相似性得分的理论公式的更多详细信息，请参阅附录 E。图 2 显示了表示成对加权杰卡德得分和聚类力导向放置图的热图。该图中靠近的节点（或数据集）具有较高的单词重叠，而图中较远的节点具有较低的重叠。从图 2 中，我们观察到不同领域中权重相当低的 Jaccard 单词重叠，这表明 BEIR 是一个具有挑战性的基准，其中方法必须很好地推广到不同的分布外领域。

3.2 BEIR 软件和框架

BEIR 软件3 提供了一个易于使用的 Python 框架 (pip install beir) 用于模型评估。它包含广泛的包装器，用于复制实验并评估来自知名存储库的模型，包括 Sentence-Transformers [51]、Transformers [70]、Anserini [72]、DPR [29]、Elasticsearch、ColBERT [30] 和 Universal Sentence Encoder [73] 。这使得该软件对学术界和工业界都很有用。该软件还为您提供所有基于 IR 的指标，从精确度、召回率、MAP（平均精确度）、MRR（平均倒数率）到 nDCG（标准化累积折扣增益），了解任何前 k 个点击。人们可以使用 BEIR 基准来评估新检索数据集上的现有模型，以及评估所包含数据集上的新模型。数据集通常分散在网上，并以各种文件格式提供，这使得在各种数据集上评估模型变得困难。 BEIR 引入了标准格式（语料库、查询和 qrel），并将现有数据集转换为这种简单的通用数据格式，从而可以更快地对越来越多的数据集进行评估。

3.3 评价指标

根据实际应用的性质和要求，检索任务可以是精确性的，也可以是召回性的。为了在 BEIR 中的模型和数据集之间获得可比较的结果，我们认为利用可以在所有任务之间进行可比计算的单一评估指标非常重要。诸如精度和召回率之类的决策支持指标都是排名不知道的，因此不适合。 MRR（平均倒数率）和 MAP（平均平均精度）等二元排名感知指标无法通过分级相关性判断来评估任务。我们发现标准化累积折扣增益（nDCG@k）提供了良好的平衡，适合涉及二元和分级相关性判断的任务。我们建议读者参考 Wang 等人[69]来理解该度量的理论优势。在我们的实验中，我们利用官方 TREC 评估工具 [61] 的 Python 接口并计算所有数据集的 nDCG@10。

4 实验设置

重点部分：模型有哪些

我们使用 BEIR 来比较各种最新的最先进的检索架构，重点关注基于 Transformer 的神经方法。我们对公开的预训练检查点进行评估，如表 6 所示。由于基于 Transformer 的网络的长度限制，我们在所有神经架构的实验中仅使用所有文档中的前 512 个单词片段。
我们根据模型的架构对模型进行分组：(i) 词汇、(ii) 稀疏、(iii) 密集、(iv) 后期交互和 (v) 重新排名。除了包含的模型之外，BEIR 基准测试与模型无关，将来不同的模型配置可以轻松地合并到基准测试中。

(i) Lexical Retrieval:
(a) BM25 [53] 是一种常用的词袋检索函数，基于两个具有 TF-IDF 令牌权重的高维稀疏向量之间的令牌匹配。我们使用 Anserini [34] 和默认的 Lucene 参数（k=0.9 和 b=0.4）。我们将标题（如果有）和段落索引为文档的单独字段。在我们的排行榜中，我们还测试了 Elasticsearch BM25 和 Anserini + RM3 扩展，但发现 Anserini BM25 表现最好。

(ii) Sparse Retrieval:
(a) DeepCT [11] 使用在 MS MARCO 上训练的 bert-base-uncased 模型来学习术语权重频率 (tf)。它生成一个伪文档，其中关键字乘以学习的术语频率。我们将 Dai 和 Callan [11] 的原始设置与具有默认 Anserini 参数的 BM25 结合使用，我们根据经验发现，其性能优于调整后的 MS MARCO 参数。
(b) SPARTA [78] 计算来自 BERT 的非上下文化查询嵌入与上下文化文档嵌入之间的相似度分数。可以针对给定文档预先计算这些分数，从而生成 30k 维稀疏向量。由于最初的实现并未公开，因此我们重新实现了该方法。我们在 MS MARCO 数据集上微调 DistilBERT [54] 模型，并使用具有 2,000 个非零条目的稀疏向量。
© DocT5query [44] 是一种流行的文档扩展技术，使用在 MS MARCO 上训练的 T5（基础）[50] 模型来生成合成查询并将其附加到原始文档中以进行词法搜索。我们复制 Nogueira 和 Lin [44] 的设置，为每个文档生成 40 个查询，并使用带有默认 Anserini 参数的 BM25。

(iii) Dense Retrieval:
(a) DPR [29] 是一个双塔双编码器，使用单个 BM25 硬负例和批量负例进行训练。我们发现开源 Multi 模型在我们的设置中比单一 NQ 模型表现更好。 Multi-DPR 模型是一个 bert-base-uncased 模型，在四个 QA 数据集（包括标题）上进行训练：NQ [32]、TriviaQA [28]、WebQuestions [4] 和 CuratedTREC [3]。
(b) ANCE [71] 是一个双编码器，从语料库的近似最近邻 (ANN) 索引构建硬负例，在模型微调期间并行更新以选择硬负例训练实例。我们使用公开的 RoBERTa [38] 模型在 MS MARCO [42] 上训练 600K 步骤进行实验。
© TAS-B [21] 是一个双编码器，使用来自交叉编码器和 ColBERT 模型的双重监督，通过平衡主题感知采样进行训练。该模型结合了成对 Margin-MSE [22] 损失和批量负损失函数进行训练。我们使用公开的 DistilBERT [54] 模型进行实验。
(d) GenQ：是一种通过对综合生成的数据进行训练来实现密集检索模型的无监督域适应方法。首先，我们在 MS MARCO 上对 T5（基础）[50] 模型进行 2 个 epoch 的微调。
然后，对于目标数据集，我们使用 top-k 和 nucleus-sampling 的组合为每个文档生成 5 个查询（top-k：25；top-p：0.95）。由于资源限制，我们将每个数据集中目标文档的最大数量限制为 100K。对于检索，我们继续使用合成查询和文档对数据的批量否定来微调 TAS-B 模型。请注意，GenQ 为每个任务创建一个独立的模型。

(iv) Late-Interaction:
(a) ColBERT [30] 将查询和通道编码并表示为多个上下文化标记嵌入的包。后期交互通过最大池查询术语和所有段落术语的点积之和进行聚合。我们使用 ColBERT 模型作为密集检索器（端到端检索如 [30] 所定义）：使用带有 faiss 的 ANN 检索第一个前 k 个候选者（faiss 深度 = 100），ColBERT 重新排序为计算后期聚合交互。我们在 MS MARCO 数据集上训练一个 bert-base-uncased 模型，最大序列长度为 300，步长为 300K。

(v) Re-ranking model:
(a) BM25 + CE [68] 对第一阶段 BM25 (Anserini) 模型中检索到的前 100 个命中进行重新排序。我们评估了 HuggingFace 模型中心公开的 14 种不同的交叉注意力重排序模型，发现 6 层、384-h MiniLM [68] 交叉编码器模型在 MS MARCO 上提供了最佳性能。该模型在 MS MARCO 上使用知识蒸馏设置进行训练，该设置由三个教师模型组成：BERT-base、BERT-large 和 ALBERT-large 模型，遵循 Hofstätter 等人 [22] 中的设置。

训练设置
用于零样本评估的模型最初经过不同的训练。
DocT5query 和 DeepCT 接受了文档扩展和术语重新加权的训练。交叉编码器 (MiniLM) 和 SPARTA 均使用排名数据进行训练。

所有密集检索模型（DPR、ANCE 和 TAS-B）和 ColBERT [30] 均使用排序数据和随机批内负例的混合物进行训练。另一个重要的区别在于硬负片，很少有模型接受更好优化的硬负片的训练，而其他模型则使用更简单的硬负片，这可能表明比较不公平。DPR 使用挖掘的 BM25 硬底片进行训练，ColBERT 与原始 MS MARCO [42] 提供硬底片，ANCE 使用挖掘的近似硬底片进行训练，而 TAS-B 使用交叉编码器和 ColBERT 模型的跨模型蒸馏带有 BM25 硬底片。
在这里插入图片描述

5 结果和分析

1）域内效果好，域外不一定（BM25在域内弱于神经方法，但是域外效果好）
2）稀疏方法：术语权重失败，扩展关键词成功
3）密集模型泛化差
4）重新排序和后期交互模型可以很好地推广到分布外数据。
5）密集检索的强大训练损失会带来更好的分布外性能。
6）TAS-B 模型更喜欢检索长度较短的文档。
7）领域适应（在合成查询上微调）对于专业领域有提升，但对于非专业领域会造成效果变差

性能与牺牲
1）性能：重排序、后期交互 > 密集检索
2）速度：稀疏 > 密集 > 后期交互、重排序
3）索引大小：后期交互 > 密集检索和重排序

在本节中，我们将评估和分析检索模型在 BEIR 基准上的表现。表 2 报告了所有评估系统在选定基准数据集上的结果。作为基线，我们将我们的检索系统与 BM25 进行比较。图 3 显示了各个模型在多少个数据集上能够比 BM25 表现更好或更差。

1. 域内性能并不是域外泛化的良好指标。
我们观察到 BM25 在域内 MS MARCO 上的表现严重低于神经方法 7-18 个点。然而，BEIR 表明它是泛化的强大基线，并且通常优于许多其他更复杂的方法。这强调了一点：检索方法必须在广泛的数据集上进行评估。

2. 术语权重失败，文档扩展捕获域外关键词词汇。
DeepCT 和 SPARTA 都使用变压器网络来学习术语权重。虽然这两种方法在 MS MARCO 上的域内表现良好，但它们完全无法很好地泛化，因为在几乎所有数据集上都表现不佳 BM25。相比之下，基于文档扩展的 docT5query 能够向文档添加新的相关关键字，并且在 BEIR 数据集上表现出色。它在 11/18 数据集上优于 BM25，同时在其余数据集上提供有竞争力的性能。

3. 密集检索模型存在分布外数据问题。
密集检索模型（特别是ANCE 和 TAS-B）将查询和文档独立映射到向量空间，在某些数据集上表现出色，而在许多其他数据集上的表现明显比 BM25 差。例如，观察到密集检索器在与训练数据集相比有较大域转移的数据集（如 BioASQ）或任务转移（如 Touché-2020）上表现不佳。DPR 是唯一一个非 MSMARCO 训练的数据集，总体而言在基准测试中泛化性能最差。

4. 重新排序和后期交互模型可以很好地推广到分布外数据。
交叉注意力重排序模型 (BM25+CE) 表现最好，并且能够在几乎所有 (16/18) 数据集上优于 BM25。它仅在 ArguAna 和 Touché-2020 上失败，这两个检索任务与 MS MARCO 训练数据集极为不同。后期交互模型 ColBERT 独立计算查询和文档的标记嵌入，并通过像 MaxSim 操作这样的交叉注意力对（查询、文档）对进行评分。它的表现比交叉注意力重排序模型稍弱，但在 9/18 数据集上仍然能够优于 BM25。看来交叉注意力和交叉注意力类似操作对于良好的分布外泛化非常重要。

5. 密集检索的强大训练损失会带来更好的分布外性能。
TAS-B 在密集同类产品中提供了最佳的零样本泛化性能。它分别在 14/18 数据集上优于 ANCE，在 17/18 数据集上优于 DPR。我们推测原因在于 TAS-B 模型的域内批量负数和 Margin-MSE 损失相结合的强大训练设置。这种训练损失函数（在知识蒸馏设置中具有强大的整体教师）显示出很强的泛化性能。

6. TAS-B 模型更喜欢检索长度较短的文档。
TAS-B 在两个数据集上的表现低于 ANCE：TREC-COVID 低 17.3 点，Touché-2020 低 7.8 点。我们观察到，这些模型检索的文档长度差异很大，如图 4 所示。在 TRECCOVID 上，TAS-B 检索的文档中位长度仅为 10 个单词，而 ANCE 检索的文档长度为 160 个单词。同样，在 Touché-2020 上，TAS-B 和 ANCE 分别为 14 个字和 89 个字。正如附录 G 中所讨论的，这种对较短或较长文档的偏好是由于使用了损失函数。

7. 领域适应是否有助于提高密集检索器的泛化能力？
我们评估了 GenQ，它进一步微调了综合查询数据上的 TAS-B 模型。它在科学出版物、金融或 StackExchange 等专业领域优于 TAS-B 模型。在更广泛和更通用的领域（例如维基百科），它的表现比原始的 TAS-B 模型要弱。

5.1 效率：检索延迟和索引大小

模型需要在推理时将单个查询与数百万个文档进行比较，因此需要高计算速度来实时检索结果。除了速度之外，索引大小也很重要，并且通常完全存储在内存中。我们从 DBPedia [19] 中随机抽取 100 万份文档并评估延迟。对于密集模型，我们使用精确搜索，而对于 ColBERT，我们遵循原始设置 [30] 并使用近似最近邻搜索。 CPU 性能使用 8 核 Intel Xeon Platinum 8168 CPU @ 2.70GHz 进行测量，GPU 性能使用单个 Nvidia Tesla V100、CUDA 11.0 进行测量。

性能和检索延迟之间的权衡通过重新排名
前 100 个 BM25 文档和后期交互模型来获得最佳的分布外泛化性能，但代价是高延迟（> 350 毫秒），推理速度最慢。相比之下，与重新排序模型相比，密集检索器的速度快 20-30 倍（< 20 毫秒），并且遵循低延迟模式。在 CPU 上，稀疏模型在速度（20-25ms）方面占主导地位。

性能和索引大小之间的权衡
词汇、重新排序和密集方法具有最小的索引大小（< 3GB）来存储 DBPedia 的 1M 文档。 SPARTA 需要第二大索引来存储 30k 暗淡稀疏向量，而 ColBERT 需要最大索引，因为它为单个文档存储多个 128 暗淡密集向量。当文档大小较大时，索引大小尤其重要：ColBERT 需要约 900GB 来存储 BioASQ（约 15M 文档）索引，而 BM25 仅需要 18GB。
在这里插入图片描述

6 注释选择偏差的影响

注释过程本身对于密集方法是不友好的

创建一个完全无偏见的检索评估数据集本质上是复杂的，并且容易受到以下因素引起的多种偏见的影响：（i）注释指南，（ii）注释设置，以及（iii）人类注释者。此外，不可能手动注释所有（查询、文档）对的相关性。
相反，现有的检索方法用于获取候选文档池，然后对其相关性进行标记。所有其他未见过的文件都被认为是无关的。这是选择偏差的根源[36]：新的检索系统可能检索到与用于注释的系统截然不同的结果。这些点击会自动被认为是不相关的。

人们发现许多 BEIR 数据集存在词汇偏差，即使用 TF-IDF 或 BM25 等基于词汇的检索系统来检索候选注释。例如，在 BioASQ 中，通过与增强标签的术语匹配来检索候选者进行注释[59]。 Signal-1M (RT) 的创建涉及使用这 8 种技术中的 7 种依赖词汇术语匹配信号来检索推文以进行查询 [57]。这种词汇偏差不利于不依赖词汇匹配的方法，例如密集检索方法，因为没有词汇重叠的检索命中会自动被认为是不相关的，即使命中可能与查询相关。

为了研究这种特定类型偏差的影响，我们对最近的 TREC-COVID 数据集进行了一项研究。 TREC-COVID 使用池化方法 [35, 37] 来减少上述偏差的影响：注释集是通过使用参与挑战的各个系统的搜索结果构建的。表 4 显示了测试系统的 Hole@10 率 [71]，即每个系统检索到的前 10 个命中有多少个未被注释者看到。

结果揭示了方法之间的巨大差异：像 BM25 和 docT5query 这样的词汇方法具有相当低的 Hole@10 值，分别为 6.4% 和 2.8%，这表明注释池包含来自词汇检索系统的热门命中。相比之下，像 ANCE 和 TAS-B 这样的密集检索系统的 Hole@10 值要高得多，分别为 14.4% 和 31.8%，这表明这些系统发现的大部分命中都没有经过注释者的判断。接下来，我们按照原始注释指南手动为所有系统添加缺失的注释（或漏洞）。在注释过程中，我们不知道系统检索了丢失的注释以避免偏好偏差。总共，我们在 TREC-COVID 中注释了 980 个查询文档对。然后，我们使用这些附加注释重新计算了所有系统的 nDCG@10。

如表 4 所示，我们观察到词汇方法仅略有改善，例如对于 docT5query，在添加缺失的相关性判断后，从 0.713 到 0.714。相比之下，对于密集检索系统 ANCE，性能从 0.654（略低于 BM25）提高到 0.735，比 BM25 性能高出 6.7 个百分点。 ColBERT 中也有类似的改进（5.8 分）。尽管许多系统都为 TREC-COVID 注释池做出了贡献，但注释池仍然偏向于词汇方法。

7 结论和未来工作

在这项工作中，我们提出了 BEIR：信息检索的异构基准。我们提供了更广泛的目标任务选择，从狭窄的专家领域到开放领域数据集。我们包含了涵盖 18 个不同数据集的 9 个不同的检索任务。

通过开源 BEIR，提供标准化的数据格式和易于适应多种不同检索策略的代码示例，我们向统一基准评估检索系统的零样本能力迈出了重要一步。它有望引导创新走向更强大的检索系统，并获得新的见解，使检索架构在任务和领域中表现良好。

我们研究了十种不同检索模型的有效性，并证明域内性能无法预测方法在零样本设置中的泛化程度。许多在 MS MARCO 的域内评估中优于 BM25 的方法在 BEIR 数据集上表现不佳。交叉注意力重排序、后期交互 ColBERT 和文档扩展技术 docT5query 在评估的任务中总体表现良好。

我们对注释选择偏差的研究凸显了在现有数据集上评估新模型的挑战：尽管 TREC-COVID 是基于由不同团队贡献的许多系统的预测，但我们发现，经过测试的系统，对非词汇方法产生负面影响。为了公平评估检索方法，需要使用不同池化策略的更好数据集。通过将大量不同的检索系统集成到 BEIR 中，创建此类不同的池变得显着简化。

8 BEIR Benchmark 的局限性

尽管我们在 BEIR 中涵盖了广泛的任务和领域，但没有一个基准是完美的并且有其局限性。明确这些是理解基准结果的关键点，并为未来的工作提出更好的基准。

1. 多语言任务：
虽然我们的目标是多样化的检索评估基准，但由于多语言检索数据集的可用性有限，BEIR 基准中涵盖的所有数据集目前都是英文的。作为基准的下一步，值得添加更多多语言数据集 [2, 76]（考虑到选择标准）。未来的工作可能包括多语言和跨语言的任务和模型。

2.长文档检索：
我们大多数任务的平均文档长度高达几百个单词，大致相当于几个段落。包括需要检索较长文档的任务将是高度相关的。然而，由于基于变压器的方法通常有 512 个字片的长度限制，因此需要根本不同的设置来比较方法。

3. 多因素搜索：
到目前为止，我们在 BEIR 中专注于纯文本搜索。在许多实际应用中，进一步的信号用于估计文档的相关性，例如 PageRank [46]、新近度 [14]、权威评分 [31] 或用户交互，例如点击率 [49]。在测试方法中整合此类信号通常并不直接，但这是一个有趣的研究方向。

4. 多字段检索：
通常可以在多个字段上执行检索。例如，对于科学出版物，我们有标题、摘要、文档正文、作者列表和期刊名称。到目前为止，我们仅关注具有一两个字段的数据集。

5.特定于任务的模型：
在我们的基准测试中，我们专注于评估能够很好地概括广泛的检索任务的模型。当然，在现实世界中，对于某些任务或领域，可以使用专门的模型，这些模型可以轻松地超越通用模型，因为它们专注于单个任务并在单个任务上表现良好，比如回答问题。这种特定于任务的模型不一定需要概括所有不同的任务。

补充知识

1. 什么是词汇空白？
词汇空白（lexical gap）是指在某一语言中不存在特定词汇或表达方式来描述某种概念、情感或现象的现象。这种现象可能是因为该概念或情感在该语言文化中并不常见，或者因为语言本身的局限性而无法准确描述。词汇空白可能会导致人们在沟通中感到困惑或不完全。为了填补词汇空白，人们可能会创造新词汇、引入外来词汇，或者通过描述和解释来弥补这种不足。

2. 五种检索系统

Lexical（词汇）方法：
简要介绍：Lexical 方法基于词汇的匹配和相关性来执行信息检索或文本处理任务。它依赖于词汇的表示和匹配来找到相关的文档或信息。
示例：传统的基于关键词匹配的搜索引擎，例如 Google 或 Bing，使用词汇匹配来检索相关的网页或文档。

Sparse（稀疏）方法：
简要介绍：Sparse 方法涉及使用高维度的、大多数元素为零的表示来处理文本数据。这种方法通常用于在高维空间中表示文档或查询，以便进行检索或分类。
示例：LSA（Latent Semantic Analysis）或 LDA（Latent Dirichlet Allocation）等主题模型，这些模型将文本表示为稀疏的主题分布向量，用于文档检索或主题分析。

Dense（密集）方法：
简要介绍：Dense 方法涉及使用低维度、密集的表示来捕捉文本数据的语义信息。这些方法通常使用神经网络或者深度学习模型来学习文本的嵌入表示。
示例：BERT（Bidirectional Encoder Representations from Transformers）模型，它使用 Transformer 架构来学习文本的密集嵌入表示，用于各种 NLP 任务，包括信息检索和文本分类。

Late-interaction（后期交互）方法：
简要介绍：Late-interaction 方法将多个独立的信息源或特征组合在一起，并在后期阶段进行交互或融合，以生成最终的输出或结果。这种方法允许不同来源的信息在后期进行交互，以提高系统性能。
示例：在信息检索中，将来自不同特征提取方法（例如词袋模型、TF-IDF、词嵌入）的特征在检索过程的最后阶段进行融合和交互，以生成最终的搜索结果。

Re-ranking（重新排序）方法：
简要介绍：Re-ranking 方法在初始排序结果的基础上，对其进行重新排序或调整，以提高结果的相关性或质量。这种方法可以基于特定的标准或模型对结果进行再次评估和排序。
示例：在搜索引擎中，使用机器学习模型（如RankNet或LambdaMART）对初始搜索结果进行重新排序，以提高用户满意度和搜索质量。

简简单单的貔貅

关注

28
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
信息检索（30）：BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

数据集：18个基线：10个（词汇、稀疏、密集、后期交互、重排序）效果：1）后期交互和重排序，以高计算成本实现高性能（ zero-shot 设置）2）密集和稀疏计算效率高，但效果差（泛化能力改进空间大）现有的神经信息检索（IR）模型经常在同质和狭窄的环境中进行研究，这极大地限制了对其分布外（OOD）泛化能力的了解。为了解决这个问题，并方便研究人员广泛评估其模型的有效性，我们引入了 Benchmarking-IR (BEIR)，这是一种用于信息检索的强大且异构的评估基准。
复制链接

扫一扫

专栏目录