Learning to Reweight Terms with Distributed Representations
发布时间(2015)
学习使用分布式表示重新加权术语
摘要
目标术语权重作为回归问题
向量表示学习 & term权重预测 相结合
预测 term 召回率作为 term 权重
术语权重是 IR 研究中的一个基本问题,目前已提出了多种权重模型。适当的术语权重可以极大地提高检索准确率,这实质上涉及两种类型的查询理解:解释查询和判断术语对查询的相对贡献。这两个步骤通常是分开处理的,因此提出了复杂但不太有效的加权策略。在本文中,我们提出在一个统一的框架中解决查询解释和术语权重问题,该框架建立在神经网络语言建模最新进展中的词语分布式表示之上。具体而言,我们将术语和查询表示为同一潜在空间中的向量,使用它们的词向量为术语构建特征,并学习一个模型将特征映射到定义的目标术语权重上。所提出的方法简单而有效。使用四个集合和两个检索模型的实验表明,检索准确率明显高于基线模型。
1 引言
文本搜索引擎的性能在很大程度上依赖于查询理解,其中一个重要问题是如何加权每个术语对检索分数的贡献1。当使用适当的权重(例如基本事实术语召回权重[22])时,它们可以根据相关性判断将检索准确率提高高达 30%。正确设置查询术语权重首先需要准确解释和正确表示查询。这不是一件容易的事,因为查询意图理解本身是 IR 研究中的一个难题[7]。
在本文中,我们尝试从不同的角度解决查询解释和术语加权问题,并使用基于神经网络语言建模的最新进展的统一框架 [13, 3]。神经网络在文本问题中的应用的最新研究利用了单词的共现性,用多维向量表示单词。从基于神经网络的模型 [13, 3] 学习的分布式表示被设计并证明可以有效地测量单词之间的语义相似性并识别给定单词的相似邻居。从单词到向量的映射不仅可以测量单词之间的相似性,还可以从查询术语的词向量中在同一向量空间中表示查询(例如,取所有术语的词向量的平均值作为查询的向量表示)。
由于适当的查询词权重反映了词相对于查询的相对重要性,因此我们建议从词和查询的词向量表示中构建特征,并学习特征向量与目标词权重(例如根据相关性判断估计的词召回率权重 [22])之间的关系。我们制定了从特征向量到词权重的正则化线性回归问题,并将预测的词权重用于词袋查询和词依赖性查询。我们使用两种流行的检索模型、四个标准测试集、从各种来源开发的词向量和三种基线方法来证明我们方法的有效性。
我们的工作贡献有三方面。
首先,我们将分布式词向量的工作与 IR 中查询词权重的预测结合起来,并提出了一个简单而有效的框架来预测有效词权重。
其次,当使用预测词召回率作为词权重时,我们观察到与使用两个检索模型对四个标准集合的基线模型相比有显著的改进。
第三,所提出的方法比以前关于查询词权重预测(即词召回率权重)的工作效率高得多,后者需要对每个新传入查询进行初始检索和局部 SVD 以获得用于预测词召回率的特征 [22]。所提出的框架直接从预先计算的分布式词向量中得出特征向量;简单的计算足以预测新查询的词权重。
本文的其余部分安排如下:第 2 节介绍与查询词权重和词召回权重相关的先前研究。第 3 节讨论了词召回预测和分布式词向量的准备工作。第 4 节正式介绍了我们在词权重建模和估计方面的方法。第 5 节描述了数据集和实验设置。第 6 节介绍了实验结果和数据分析。最后,我们在第 7 节总结了本文并讨论了一些未来的工作。
2 相关工作
查询词权重在 IR 文献中得到了广泛的研究,检索模型反映了其所使用的查询词权重的选择。从概念上讲,任何检索模型都可以抽象为以下评分函数:
其中 f(t, D) 是词 t 与文档 D 的匹配分数(例如,词频),而 w(t) 是查询词权重,它并不特别依赖于 D(例如,逆词频),是我们在本文中感兴趣的量。通过这种方式制定,现有的检索模型对词权重做出了不同的选择。文献中最常用的查询词权重是 idf,例如向量空间模型、语言模型 [21]、BM25 等。
另一个众所周知的词权重,即词召回率权重,与 idf 密切相关ÿ