信息检索(54):On the Effect of Low-Frequency Terms on Neural-IR Models


发布时间(2019)


低频词对于神经检索模型的影响

摘要

低频词是信息检索模型面临的一个反复出现的挑战,尤其是神经 IR 框架难以充分捕捉不常出现的单词。虽然这些术语通常会从神经模型中删除(主要是为了满足效率要求),但它们传统上在 IR 模型的性能中发挥着重要作用。在本文中,我们分析了低频术语对神经 IR 模型的性能和鲁棒性的影响。我们对三个最近的神经 IR 模型进行了受控实验,这些模型是在大规模段落检索集合上训练的。我们评估了具有不同词汇量大小的神经 IR 模型的各自词嵌入,并考虑了对可用 GPU 内存的不同程度的限制。 我们观察到,尽管使用较大的词汇表具有显着的好处,但词汇表之间的性能差距在很大程度上可以通过对相关参数进行大量调整来缓解:要重新排序的文档数量。我们进一步研究了子词标记嵌入模型(特别是 FastText)在神经 IR 模型中的使用。我们的实验表明,与在完整词汇上训练的模型相比,使用 FastText 可以稍微改善神经 IR 模型的整体性能,而对于包含低频术语的查询,这种改善更加明显。

1 引言

1)密集表示对于低频词的缺陷
a)可能词汇表中不存在那个低频词
b)即使存在,由于出现次数少,对于它的表示也比较差
2)词汇表对模型的影响小
重新排序阈值对模型影响大
3)sub-word VS word-level 的完整词汇表
FastText 使用 n-gram 证明使用 sub-word token 嵌入有利于 query 中低频词的表示
ELMo 也是基于字符嵌入的模型
用于信息检索的神经网络方法在各种文档检索任务中都表现出色。各种研究都通过将预训练的词嵌入引入经典 IR 模型 [13, 14]、将词嵌入应用于检索任务 [4, 6] 或提出全新的神经 IR 模型 [3, 7, 8, 16] 来应用神经方法。所有这些方法的一个基本核心构建块是词嵌入模型,它定义了术语之间的语义关系。
通常,词向量是在固定词汇表上定义的。 作为神经网络方法中的一种常见做法,收集频率非常低的术语会从词汇表中删去,成为词汇表外 (OOV) 术语。以这种方式限制词汇表的原因通常源于 (GPU) 内存限制、效率考虑或降噪工作。
然而,在检索建模的背景下,低频术语具有高度的信息性或显著性,因此在识别相关文档方面发挥着重要作用。在经典 IR 中,此类术语的重要性通过术语显著性度量来量化,例如逆文档频率。 在神经 IR 模型的训练阶段删除低频术语可能会损害派生模型的有效性和稳健性,尤其是对于包含受影响术语的查询。 即使神经 IR 模型覆盖了整个集合词汇表,仍存在两个问题:(1) 该模型在检索时出现的以前未见过的术语(OOV 术语)上表现不佳。(2) 由于缺乏低频术语的训练数据,学习到的向量可能在语义上不稳健。
在本研究中,我们探索了低频词对神经 IR 模型的有效性和鲁棒性的影响。我们对三个最近的神经 IR 模型(即 KNRM [16]、CONV-KNRM [3] 和 MatchPyramid [8])进行了广泛的受控实验,并在 MS MARCO [1] 段落排名集合上进行了评估,最后提出了神经 IR 模型中一般底层词汇问题的潜在解决方案。
本文的创新贡献有两方面:我们首先探索了在不同词汇表上训练的神经 IR 模型的性能(第 4 节)。我们观察到,尽管使用较大的词汇表具有显著的优势,但模型性能对几乎所有神经 IR 模型共有的另一个基本参数高度敏感:重新排序阈值,它定义了神经 IR 模型对多少个最初检索到的文档进行了重新排序。我们研究了词汇表大小与重新排序阈值之间的关系,并注意到模型对后者的敏感性,尤其是词汇量较小的模型。我们的结果表明,经过良好调整的重新排序阈值可以大大减轻词汇量修剪的负面影响
其次,我们研究了嵌入子词标记与使用完整词汇表的词级标记的效果(第 5 节)。特别是,我们研究了 FastText [2] 的使用,这是一个基于字符 n-gram 向量表示组成的模型,旨在解决 OOV 问题。我们的结果表明,使用 FastText 的模型的整体性能仍然接近使用完整词汇表的结果。然而,字符级模型在包含低频术语的查询上实现了明显更好的性能。我们认为这是由于字符级模型的泛化更好,这得益于具有类似 n-gram 上下文的其他单词。因此,这项早期研究建议使用子词标记嵌入作为保留神经 IR 模型的有效性和稳健性的策略,尤其是对于低频查询词

2 背景和相关工作

FastText 模型是一种有效且高效的子词嵌入模型,它简单地将字符 n-gram 向量相加以构建词嵌入
在本节中,我们简要解释子词嵌入,然后讨论与我们的研究相关的工作
子词嵌入模型基于组成单词的字符 n-gram 的嵌入来生成单词的向量表示。通过这种方式,模型可以通过利用具有相似字符 n-gram 的观察到的术语的上下文,为未见过的术语提供语义上有意义的嵌入向量,并且几乎没有词汇外的术语。 FastText 模型 [2] 是一种有效且高效的子词嵌入模型,它简单地将字符 n-gram 向量相加以构建词嵌入。对于高频术语,FastText 直接为每个单词分配一个向量。ELMo [11] 是另一个著名的基于字符的嵌入模型,此外,它还考虑了单词周围的上下文。在这项工作中,我们使用 FastText,因为它与传统的词嵌入具有直接可比性
在更传统的检索模型中,Woodland 等人 [15] 探索了 OOV 术语在口语文档检索中的作用,提出了查询和文档扩展方法。据我们所知,目前还没有关于低频术语对神经 IR 模型的影响的研究。
其他研究探索了神经 IR 模型的相关方面。Pyreddy 等人 [12] 研究了基于核的神经模型在不同参数初始化下的方差和一致性。Zamani 等人 [18] 提出了一种跳过重新排序步骤的方法,直接从稀疏表示索引中检索文档。相比之下,在本文中,我们分析了神经 IR 模型对重新排序阈值参数的敏感性,因为最近提出的大多数神经模型都是基于重新排序机制

3 实验设计

1)GloVe:300维(代表了词嵌入)
FastText:3-gram,200维(代表了子词嵌入)
2)实验证明,子词嵌入效果更好并且占用内存更小
我们在 MS MARCO [1] 段落重新排序集合上进行实验。该集合提供了来自 Bing 搜索日志的大量信息性问题式查询,并附有人工注释的相关/不相关段落。除了训练数据外,MS MARCO 还提供了一个开发集(包含用于评估的查询和相关性数据),有两种大小:sample1 和 full。在我们的实验中,我们使用来自样本的查询作为验证集,将完整开发集的其余部分用作测试集。总的来说,该集合包含 8,841,822 份文档、6,980 个用于验证的查询和 48,598 个用于测试的查询。
资源。我们使用 GloVe [10] 300 维2 的词向量,以及基于 2015 年 8 月维基百科语料库训练的 FastText 模型,该模型包含 200 维的三元字符子词。 我们根据术语集合频率的不同阈值创建了几个词汇表。在我们的实验中,我们将频率大于或等于 n 的术语集称为 Voc-n。VocFull 使用集合中的所有术语。表 1 显示了生成的词汇表的详细信息以及相应的 OOV 术语统计数据
评估。我们使用 MS MARCO 排名挑战的主要指标来评估我们的模型:平均倒数排名测量 (MRR) 以及召回率,均在排名 10。统计显着性检验使用双侧配对 t 检验 (p < 0.05) 进行。

4 词汇量的影响

表 2 显示了在各种词汇表和 FastText 嵌入上训练的神经排名模型在验证集和测试集上的表现。我们计算了排名对之间的显著性检验,并在下文中提到了结果。我们还评估了 BM25,在测试集上实现了 0.192 的 MRR 和 0.407 的召回率。与之前的研究一致,BM25 模型的表现优于所有神经排名模型,而 CONV-KNRM 表现出最佳的整体性能 [3、8、16]。
比较每个模型的结果,在三个模型中的两个中,FastText embedding 的表现明显优于 Voc-Full,而 FastText 只需要 VocFull 所需内存的 55%(基于表 1 中的统计数据)。查看具有不同词汇量大小的模型的结果,与使用较小的词汇表相比,使用 Voc-Full 带来了显着的优势。 然而,它们的差异变得微不足道,特别是对于具有 Voc-5 和 Voc-10 词汇集的模型,考虑到 Voc-5 和 Voc-10 词汇表的 embedding 所需的内存空间要少得多,即只有 Voc-Full embedding 所用内存的 15%(Voc-5)和 8%(Voc-10)。

虽然报告的结果是基于对验证集的超参数的详尽调整,但接下来我们将研究模型对重新排序阈值的敏感性,重新排序阈值是神经 IR 模型的一个重要但研究不充分的超参数。图 1 展示了三个神经 IR 模型对重新排序阈值参数变化的敏感性。从图中的趋势来看,随着性能的提高(无论是使用性能更好的模型还是更大的词汇量),模型对重新排序阈值的敏感度都会降低。这样,最佳重新排序阈值也会变得更大,这表明该模型能够有效地概括一组更大的非相关文档。因为增加重新排序阈值主要是增加不相关的文档。另一方面,性能较低的模型(MatchPyramid 和 KNRM),尤其是词汇量较小的模型,对重新排序阈值高度敏感。对于这样的模型,详尽的参数搜索提供了显着的增强。这表明了对重排序阈值参数进行良好调整的重要性,尤其是在内存资源受限的情况下。 最后,为了确认对验证集调整重排序阈值的影响是否也转移到测试集,我们在表 2 中比较了验证集和测试集上的结果。 如图所示,即使在对重排序阈值敏感度较高的模型上,结果也非常相似,这表明对重排序阈值进行广泛调整的有效性

5 包含低频词的查询

在本节中,我们将仔细研究使用不同词汇在传统嵌入(我们实验中的 GloVe)上训练的模型与在 FastText 嵌入上训练的模型之间的差异。
图 2 显示了使用传统嵌入 Voc-Full 词汇表的神经排序模型与使用 FastText 的神经排序模型在收集频率范围内的 MRR 差异。 对于 X 轴上的每个点,我们计算查询的 MRR 值,这些查询至少有一个词的收集频率等于或小于该点的相应值。 该图显示了与频率极低的词查询相关的区域与其余区域之间的强烈对比,表明使用 FastText 的模型对这些查询的性能更高。
让我们仔细看看这个领域。图 3 显示了 CONV-KNRM 模型的 MRR,使用具有不同词汇的传统词嵌入,以及使用 FastText 嵌入的模型,用于包含非常不常见术语的查询。MRR 值的计算方式与图 2 中相同。
如图所示,使用 FastText 的模型大幅提升了所有其他模型,尤其是在集合频率达到 10 到 15 左右时。有趣的是,BM25 作为精确词匹配模型,其性能优于使用传统嵌入的神经 IR 模型,尤其是在非常低的值上。我们认为,使用传统嵌入的模型性能低下是由于缺乏足够的上下文来学习有意义的表示,从而导致语义相似度估计无效。 另一方面,子词嵌入利用了集合中具有相似字符 n-gram 的其他观察到的词的上下文。因此,使用子词嵌入的神经排名模型仍然受益于非常不常见的词之间的有意义的语义关系,其表现优于基于传统嵌入和精确匹配的排名模型。

6 结论

我们的工作迈出了理解神经排序模型中不常见术语的影响的第一步,并利用新颖的表示学习方法来解决它。我们首先研究神经 IR 模型对其词汇量大小的敏感性,指出细粒度调整重新排序阈值的重要性。然后,我们研究在神经 IR 模型中使用子词嵌入的影响,表明使用这些嵌入尤其可以显著提高包含非常低频术语的查询的性能。作为未来的工作,我们旨在将这项研究的调查范围扩大到神经 IR 模型的查询性能预测领域。

  • 15
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值