信息检索(58):Learning to Reweight Terms with Distributed Representations


发布时间(2015)


学习使用分布式表示重新加权术语

摘要

目标术语权重作为回归问题

向量表示学习 & term权重预测 相结合
预测 term 召回率作为 term 权重

术语权重是 IR 研究中的一个基本问题,目前已提出了多种权重模型。适当的术语权重可以极大地提高检索准确率,这实质上涉及两种类型的查询理解:解释查询和判断术语对查询的相对贡献。这两个步骤通常是分开处理的,因此提出了复杂但不太有效的加权策略。在本文中,我们提出在一个统一的框架中解决查询解释和术语权重问题,该框架建立在神经网络语言建模最新进展中的词语分布式表示之上。具体而言,我们将术语和查询表示为同一潜在空间中的向量,使用它们的词向量为术语构建特征,并学习一个模型将特征映射到定义的目标术语权重上。所提出的方法简单而有效。使用四个集合和两个检索模型的实验表明,检索准确率明显高于基线模型。

1 引言

文本搜索引擎的性能在很大程度上依赖于查询理解,其中一个重要问题是如何加权每个术语对检索分数的贡献1。当使用适当的权重(例如基本事实术语召回权重[22])时,它们可以根据相关性判断将检索准确率提高高达 30%。正确设置查询术语权重首先需要准确解释和正确表示查询。这不是一件容易的事,因为查询意图理解本身是 IR 研究中的一个难题[7]。

在本文中,我们尝试从不同的角度解决查询解释和术语加权问题,并使用基于神经网络语言建模的最新进展的统一框架 [13, 3]。神经网络在文本问题中的应用的最新研究利用了单词的共现性,用多维向量表示单词。从基于神经网络的模型 [13, 3] 学习的分布式表示被设计并证明可以有效地测量单词之间的语义相似性并识别给定单词的相似邻居。从单词到向量的映射不仅可以测量单词之间的相似性,还可以从查询术语的词向量中在同一向量空间中表示查询(例如,取所有术语的词向量的平均值作为查询的向量表示)。

由于适当的查询词权重反映了词相对于查询的相对重要性,因此我们建议从词和查询的​​词向量表示中构建特征,并学习特征向量与目标词权重(例如根据相关性判断估计的词召回率权重 [22])之间的关系。我们制定了从特征向量到词权重的正则化线性回归问题,并将预测的词权重用于词袋查询和词依赖性查询。我们使用两种流行的检索模型、四个标准测试集、从各种来源开发的词向量和三种基线方法来证明我们方法的有效性。

我们的工作贡献有三方面。
首先,我们将分布式词向量的工作与 IR 中查询词权重的预测结合起来,并提出了一个简单而有效的框架来预测有效词权重。
其次,当使用预测词召回率作为词权重时,我们观察到与使用两个检索模型对四个标准集合的基线模型相比有显著的改进。
第三,所提出的方法比以前关于查询词权重预测(即词召回率权重)的工作效率高得多,后者需要对每个新传入查询进行初始检索和局部 SVD 以获得用于预测词召回率的特征 [22]。所提出的框架直接从预先计算的分布式词向量中得出特征向量;简单的计算足以预测新查询的词权重。
本文的其余部分安排如下:第 2 节介绍与查询词权重和词召回权重相关的先前研究。第 3 节讨论了词召回预测和分布式词向量的准备工作。第 4 节正式介绍了我们在词权重建模和估计方面的方法。第 5 节描述了数据集和实验设置。第 6 节介绍了实验结果和数据分析。最后,我们在第 7 节总结了本文并讨论了一些未来的工作。

2 相关工作

查询词权重在 IR 文献中得到了广泛的研究,检索模型反映了其所使用的查询词权重的选择。从概念上讲,任何检索模型都可以抽象为以下评分函数:
其中 f(t, D) 是词 t 与文档 D 的匹配分数(例如,词频),而 w(t) 是查询词权重,它并不特别依赖于 D(例如,逆词频),是我们在本文中感兴趣的量。通过这种方式制定,现有的检索模型对词权重做出了不同的选择。文献中最常用的查询词权重是 idf,例如向量空间模型、语言模型 [21]、BM25 等。
另一个众所周知的词权重,即词召回率权重,与 idf 密切相关,也受到广泛关注。它最初是由二元独立模型 (BIM)[16] 捕获的,以强调查询词权重的重要性,如下所示:

其中 Rq 是相关文档集,R¯q 是不相关文档集,d 是待排序的文档,q 是查询,ti 是查询词。概率 P(t|Rq) 提供了一种加权查询词的方法,称为 RSJ 词权重,以提高检索性能。然而,由于涉及查询 q 的相关文档集,在缺乏相关性信息的情况下很难对 P(t|Rq) 给出可靠的估计。事实上,研究人员认识到使用词召回权重可以带来巨大的检索增益,因为 P(t|Rq) 实际上是排序函数中唯一与相关性有关的词 [22],并提出了几种预测它的方法。

Croft 和 Harper [5] 将查询词权重建模为一个调整常数(Croft/Harper 组合匹配模型)。Greiff [6] 尝试使用 idf 的线性函数来预测词权重和 P(t|R¯q)。他的实验表明,与 BIM 模型相比,该方法有所改进。最近,Metzler [12] 将词权重建模为文档频率的线性函数。上述词权重建模仅使用了 df 或 idf 特征。这些预测并不充分,因为它们没有反映出 P(t|Rq) 是一个查询相关量,并且需要查询相关特征来估计词权重这一观点。最近,Zhao 等人 [22] 提出了一个框架,用于从伪相关反馈 [20] 中构建查询词特征,并使用它们来预测词权重。

捕获术语依赖关系的检索模型引起了研究关注,并且与单字查询模型相比,它们也表现出了检索效果。 一种广泛使用的模型是顺序依赖关系模型 (SD) [10],它具有三种类型的查询概念:术语、二元组和邻近表达。Indri 查询语言中用于词袋查询苹果派食谱的顺序依赖关系查询的示例如下:

顺序依赖模型为不同类型的查询概念提供了基本权重。广泛的实证结果已经证实了 SD 相对于无加权词袋查询模型的有效性 [1, 2, 10]。但是,相同类型的概念共享相同的权重,这不是最佳的。最近的研究提出使用从集合统计数据计算的特征、自适应模型和最大化评估指标(如平均准确率 (M​​AP))的优化目标来预测每个概念的术语权重 [1, 2]。还提出了强调查询方面的术语加权策略 [23]。 我们的方法与上述方法的不同之处在于,我们使用从全局语料库中学习到的语义向量空间中的分布式词向量来表示术语和查询,并从分布式表示中构建新的特征向量,以自动学习术语权重以实现高效检索。

3 准备工作

在本节中,我们简要介绍了最近关于从神经网络语言模型进行分布式表示学习的研究,并定义了我们在框架中使用的目标术语权重。

3.1 分布式词向量

基于神经网络的语言模型旨在学习底层文本的词向量表示和统计语言模型。这些模型主要可分为两类。第一类模型尝试联合学习词向量表示和语言模型。一个例子是神经网络语言模型 (NNLM) [3],其中采用线性投影层和非线性隐藏层来形成前馈神经网络。第二类模型首先学习词向量表示,然后用词向量训练语言模型。例如,Mikolov 等人 [14] 使用一个具有单个隐藏层的神经网络来学习词向量表示,然后在词向量上训练 Ngram 语言模型。通常,第二种方法使用的神经网络结构简单,因此计算成本较低,因此我们将讨论限制在这种类型的系统上。

最近,Mikolov 等人 [13] 提出了两种新的模型,即连续词袋模型 (CBOW) 和连续 Skip-gram 模型,它们具有更高的训练效率。CBOW 试图通过构建对数线性分类器来最大化单词的分类,该分类器以多个历史单词和该位置周围的未来单词的词向量作为输入,而连续 Skip-gram 模型则试图根据当前单词的词向量预测当前单词前后一定范围内的单词。CBOW 和连续 Skip-gram 模型在输入和输出层之间都只有一个投影层,没有任何隐藏层,这大大降低了先前基于神经网络的语言模型中非线性隐藏层所带来的计算成本。使用负采样来学习 CBOW 和连续 Skip-gram 模型 [15]。使用中等硬件可以在不到一天的时间内学习 300 万个词汇表的 1000 亿个 Google 新闻语料库上的词向量表示。 这两个模型学习到的词向量在几个语义相关任务评估中都表现良好 [13]。 Mikolov 等人发布了用于训练 CBOW 和 Continuous Skip-gram 模型的软件,以及一组在上述 Google 新闻语料库上预先训练的 300 维词向量表示2。表 1 给出了在词向量表示空间中余弦相似度与‘中国河流’最接近的 10 个词的示例

可以看出,词向量给出的邻居确实与输入在语义上相关。此外,在这个例子中,与 Yangtze_River 不同,短语 Chinese_river 不属于模型的词汇表;Chinese_river 没有词向量表示。相反,在搜索最接近的邻居时,会获取 Chinese 和 river 的词向量并取平均值来表示 Chinese_river,从而产生有意义的结果。最近的一项分析 [8] 证明了上述结果的合理性,它表明分布式表示的学习本质上是分解词上下文矩阵,这确保了具有相似上下文(因此含义相似)的单词将具有相似的向量表示。

这种词向量添加属性是将查询和术语表示为词向量并从中得出术语特征以预测目标术语权重的关键动机。有关词向量添加属性的更多示例,请参阅 [15]。在本文中,我们采用 CBOW 框架来学习词向量,并使用它们构建术语权重预测框架。所提出的框架也可以应用于由连续 Skipgram 模型学习的词向量,我们将此留待将来研究。

3.2 目标术语权重

如第 1 节所述,适当的查询词权重反映了词对查询的相对重要性,也有助于提高检索性能。我们选择词召回率权重作为我们框架中要预测的目标词权重,因为它计算简单,而且有很大潜力提高检索性能 [22]。给定相关性判断,它可以估计为 P(t|Rq) = |Rq,t| |Rq| ,其中 Rq 是与 q 相关的文档集,Rq,t ⊆ Rq 是包含词 t 的相关文档的子集

3.3 术语权重和检索模型

在本节中,我们将介绍如何将真实或估计的目标术语权重集成到不同的检索模型中。

3.3.1 概率语言模型

3.3.2 BM25

4 使用分布式词向量进行词项权重学习

在本节中,我们提出了使用分布式词向量估计术语权重的模型。

假设我们有一组 M 个查询 Q = {q1, q2, …, qM},每个查询 qi 有 ni 个词,i = 1, 2, …, M。令 tij 表示查询 qi 的第 j 个词,j = 1, 2, …, ni,rij 表示根据 tij 的相关性判断估计出的真实词权重,因此 rij ∈ [0, 1] 且 N = PM i=1 ni 表示查询词的总数。(有关符号摘要,请参阅表 2。)

令 wij ∈ R p 表示词项 tij 的连续分布式词向量表示,其中 p 是词向量的维数。在本文中,我们提出直接从词项 tij 和同一查询 qi 中的其他词的分布式词向量表示中构建词项 tij 的特征向量 xij,作为

直观地看,适当的词权重可以衡量一个词相对于整个查询的相对重要性(因此相对于同一查询中的其他词而言)。换句话说,词权重越高的词意味着该词在表示查询含义方面越重要。同时,上面定义的词的特征向量是该词与查询中所有词的分布式表示中心的差,该中心也作为整个查询的向量表示(通过应用词向量加法属性)。因此,特征向量衡量一个词与整个查询的语义差异。考虑到上述两个衡量标准有某种关联,我们建议构建上述特征并学习一个模型来将特征向量映射到词权重标签。

顺便说一句,我们可以看到,上述构造的特征向量因此依赖于查询,这也是必要的,因为术语权重从其定义来看也依赖于查询。正如我们将在实验中看到的那样,上述构造简单而有效

定义完特征后,我们现在开始制定模型,将特征映射到术语权重标签。由于采用的目标术语权重是一个概率,我们首先使用 logit 函数将其从 (0, 1) 映射到实数 R 上,以避免数值问题,如下所示。

然后,我们将“变换后的”项权重 y 公式化为上面定义的项特征向量的线性函数,即 y = β ⊤x,并采用 ℓ1-norm 正则化来学习特征权重 β(我们还尝试了 ℓ2-norm 正则化,但 ℓ1-norm 正则化效果更好一些)。正式地,优化问题是

其中 λ ≥ 0 是控制训练数据预测误差与模型复杂度之间平衡的正则化参数,需要通过交叉验证进行调整。以矩阵形式,上述优化问题可以表示为

是目标词权重向量,其中堆叠了训练查询中所有词的权重,X ∈ R N × p 是

容易验证,优化问题 (11) 与 (10) 等价,并且是 LASSO 回归的标准形式 [19]。
DeepTR 是一种非常有效的预测术语权重的方法,这使得它能够用于在线服务,因为在线服务必须保持较低的延迟(响应查询所需的时间)。词向量和回归模型是离线训练的。预测新查询的 P(tij |R) 涉及加载查询词的词向量,将它们转换为特征向量(求平均值和减法),与学习到的特征权重进行内积,以及 S 型函数。这比一些以前有效但计算复杂的方法(例如 [22])要高效得多。 在我们获得术语权重的估计值后,我们在 Indri 查询语言中构建以下查询模型变体(以上面的苹果派食谱关键字查询为例):

请注意,在 DeepTR-SD 中,我们主要关注对一元词组进行重新加权,因为一元词组重新加权在提高检索准确率方面比二元词组和邻近表达式发挥更重要的作用,这也得到了先前研究的证实 [22, 1, 2]。所提出的框架可以直接扩展到二元词组、邻近表达式和其他可以用包含位置的标准倒排列表表示的查询概念,但是对于更复杂的概念,训练数据更稀疏,因此我们将其留待将来研究。 上面提出的两种查询模型变体可以与语言建模和 BM25 检索模型一起使用;在下一节中,我们将介绍这两种类型的检索模型的实验。

5 实验方法

6 实验结果

本节展示实验结果,比较了两种检索模型(语言模型、BM25)中 DeepTR 设置术语权重的方法与三种基线方法(无加权查询、顺序依赖模型、加权顺序依赖模型)的效果;不同维度的词向量的效果;以及从不同类型的数据训练出来的词向量的效果。

6.1 语言模型的检索结果

6.2 BM25 检索结果

6.3 词向量维数

不同维度的词向量提供不同级别的粒度,这对于设置术语权重可能有用,也可能没用;它们也可能需要不同数量的训练数据。我们的第三个实验研究了包含 100、300 和 500 维的词向量对语言模型产生的术语权重的影响。ClueWeb09B 语料库用于这些实验,因为它规模大、可用,并且在上述实验中表现强劲。DeepTR-BOW 和 DeepTR-SD 的实验结果一起显示在表 6 中。100 维的词向量最适合 ROBUST04、WT10g 和 ClueWeb09B 上的非结构化 BOW 查询,而 GOV2 的最佳 MAP 是使用 300 维的词向量实现的。DeepTR-SD 查询模型也观察到了类似的趋势。值得注意的是,在 ROBUST04 上,100 维词向量的 DeepTR-SD 比 SD 的 MAP 提升了 7.9%,在 WT10g 上比 SD 的 MAP 提升了 16.8%。在 GOV2 上,300 维词向量帮助 DeepTR-SD 比 SD 的 MAP 提升了 7.5%;最后在 ClueWeb09B 上,500 维词向量在所有三个维度上都取得了最佳效果,比 SD 提升了 4.9%。当改变词向量的维数时,我们还在 P@10 上观察到了类似的结果。我们还评估了词向量维数对 BM25 检索的术语权重的影响,趋势与语言模型检索的趋势相似;由于篇幅限制,结果被省略。 我们的结果表明,100 个维度足以估计非常有效的术语权重。

6.4 语料库效应

我们回到表 4 和表 5,比较使用特定语料库的词向量和从更大、更通用的外部语料库(GOV2、ClueWeb09B 和 Google News)训练的词向量获得的检索结果。 DeepTR-BOW 在所有三个外部语料库上的表现大致相同;它们之间的差异太小且不一致,无法支持任何关于哪个是最好的结论。然而,尽管没有一个外部语料库对所有数据集都是最好的,但语言模型和 BM25 检索模型一致认为哪个词向量来源对特定语料库最好。这种一致性表明,学习到的术语权重与特定的检索模型无关,这是使用术语权重值进行训练的目的。 在这些实验中,特定语料库的词向量从来都不是最佳的,即使是对于 GOV2 和 ClueWeb09,它们也很大,并为其他数据集提供了“最佳”性能。 然而,考虑到训练数据规模范围很广——从 2.5 亿个单词到 1000 亿个单词不等——搜索准确率和训练数据量之间的相关性之小令人震惊。 DeepTR-SD 查询模型也观察到了类似的趋势

6.5 稳健性分析

6.6 查询长度

6.7 分级相关性

7 结论和未来工作

在本文中,我们提出了一种使用深度学习文献中的分布式词表示来学习词权重的新框架。我们通过采用词向量来表示词,并进一步表示查询来激发该框架,因为词向量具有语义表示事物的能力。因此,我们建议直接从词向量中构建词的特征,并将目标词权重建模为回归问题。

我们使用两种检索模型(语言模型和 BM25)对四个不同大小的文本集合进行了实验,以证明所提框架的有效性。具体来说,所提框架可以预测查询词的词权重,这些词可用于加权非结构化词袋查询和顺序依赖模型的轻微变体查询。我们观察到,与未加权的词袋查询和原始的未加权顺序依赖模型查询相比,其高精度和整个排名都有显著改善。

所提出的方法节省时间。一旦在离线步骤中训练了词向量(这本身就相对高效),在线预测新查询词的词权重仅涉及与学习到的特征权重的简单内积。 有几个有希望的进一步研究方向。 可以将该方法从通过平均其成分的词向量来创建二元组和邻近词的向量扩展到直接对二元组和邻近词进行建模;尽管人们可能认为这些查询词的稀疏训练数据是一个问题,但我们使用小型语料库的结果表明,可能不需要为每个词提供大量信息。词向量对于识别应成为查询扩展焦点的词或将成为良好扩展词的词也很有用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值