What Are You Token About? Dense Retrieval as Distributions Over the Vocabulary
Dense Retrieval as Distributions Over the Vocabulary)
原文链接:https://aclanthology.org/2023.acl-long.140.pdf
(2023)
摘要
双编码器现在是密集检索的主导架构。然而,我们对它们如何表示文本以及为什么这会带来良好的性能知之甚少。在这项工作中,我们通过词汇分布阐明了这个问题。我们建议通过将双编码器产生的向量表示投影到模型的词汇空间中来解释它们。我们表明,所得的投影包含丰富的语义信息,并在它们和稀疏检索之间建立联系。我们发现这种观点可以为密集检索器的一些失败案例提供解释。例如,我们观察到模型无法处理尾部实体与令牌分布忘记这些实体的一些令牌的趋势相关。我们利用这一见解,提出了一种简单的方法,在推理时用词汇信息丰富查询和段落表示,并表明,与零样本设置中的原始模型相比,这显着提高了性能,特别是在 BEIR 基准测试上
模型倾向于忘记尾部实体(不常见实体)
1. 引言
基于神经文本表示的密集检索模型已被证明非常有效(Karpukhin 等人,2020;Qu 等人,2021;Ram 等人,2022;Izacard 等人,2022a,b),改进了强大的传统稀疏模型,如 BM25(Robertson)和萨拉戈萨,2009)。然而,当现成应用时(即在域外设置中),它们的性能通常会严重下降(Thakur 等人,2021 年;Sciavolino 等人,2021 年;Reddy 等人,2021 年)。此外,人们对此类失败的原因知之甚少,因为他们的陈述中捕获的信息仍未得到充分调查。
在这项工作中,我们提出了一种解释和推理密集检索器的新方法,通过投影到词汇空间时由查询和段落表示引起的分布,即词汇空间上的分布(图1)。这种分布可以更好地理解密集模型的表征性质及其失败,这为提高其性能的简单解决方案铺平了道路。
首先,我们展示了密集的检索表示可以投影到词汇空间,方法是通过预训练模型的掩码语言建模 (MLM) 头,这些模型是在没有任何进一步训练的情况下初始化的。此操作导致词汇表的分布,我们将其称为查询词汇表投影和段落词汇表投影。
令人惊讶的是,我们发现这些预测对于人类来说是高度可解释的(图 2;表 1)。我们分析这些投影,并在它们与稀疏检索中的众所周知的概念之间建立有趣的联系(§5)。
首先,我们强调查询共享的标记的高覆盖率以及其预测的前 k 个段落。这一观察表明查询和段落之间的词汇重叠在检索机制中起着重要作用。
其次,我们展示了段落的词汇投影,它们可能包含出现在有关给定段落的查询中的单词。因此,它们可以被视为预测人们会针对该段落提出的问题。
最后,我们表明该模型隐式实现了查询扩展(Rocchio,1971)。例如,在图 2 中,查询是“目前有多少名法官在最高法院任职?”,查询投影 Q 中的单词包括“法官”(称呼他们的常用方式)和“九”(正确的说法是“九”)。回答)。
上述发现尤其令人惊讶,因为这些检索模型是以对比方式进行微调的,因此在微调期间不会对词汇进行任何预测或使用其语言建模头。此外,这些表示是运行可以实现高度复杂功能的深层变压器网络的结果。尽管如此,模型输出仍然“忠实”于预训练期间学到的原始词汇空间。
我们进一步表明,我们的方法能够揭示密集检索器难以解决简单的以实体为中心的问题的原因(Sciavolino 等人,2021)。通过词汇投影的镜头,我们发现了一个有趣的现象:密集的检索器倾向于“忽略”给定段落中出现的一些标记。这反映在段落投影中分配给此类标记的排名中。例如,图 2 底部示例中的单词“michael”排名相对较低(即使它出现在段落标题中),从而阻碍了模型检索该段落。我们将这种综合症称为象征性遗忘症(§6)。
我们利用这一见解,提出了一种简单的推理时间修复方案,可以用词汇信息丰富密集表示,解决令牌遗忘症。我们表明,在具有挑战性的 BEIR 基准(Thakur 等人,2021)和其他数据集上,与普通模型相比,词汇丰富显着提高了性能。例如,我们将 BEIR 上的强 MPNet 模型的性能从 43.1% 提升到 44.1%。
总而言之,我们的分析和结果证明了词汇预测作为更原则性的密集检索模型研究和开发框架的巨大潜力。
2. 背景
在这项工作中,我们提出了一个简单的框架,通过将密集检索的表示投影到词汇空间来解释密集检索。这是使用相应预训练模型的(屏蔽)语言建模头来完成的。我们首先提供相关背景
2.1 掩码语言建模
大多数基于仅编码器转换器的语言模型(Vaswani 等人,2017)都是使用掩码语言建模(MLM)任务的某些变体进行预训练的(Devlin 等人,2019;Liu 等人,2019;Song 等人,2020),这涉及屏蔽一些输入标记,并让模型重建它们。
具体来说,对于输入序列 x1, …, xn,变换器编码器应用于输出上下文化标记表示 h1, …, hn ∈ R d 。
然后,为了预测丢失的标记,将 MLM 头应用于它们的上下文表示。MLM head 是一个函数,它以向量 h ∈ R d 作为输入,并返回模型词汇表 V 上的分布 P,定义如下:
g : R d → R d 是一个潜在的非线性函数(例如,BERT 的全连接层后跟 LayerNorm;Devlin et al 2019),vi ∈ R d 对应于第 i 项的静态嵌入在词汇中
2.2 密集检索
在密集检索中,我们得到一个段落语料库 C = {p1, …, pm} 和一个查询 q(例如,要检查的问题或事实),并且我们希望计算查询和段落表示(eq 和ep,分别),使得该空间中的相似性意味着段落与查询的高