现代信息检索笔记(四)——文档评分、词项权重计算及向量空间模型

目录

对搜索结果进行排序

目标

方案一:jaccard系数

方案二:tf-idf公式

长文本长度

向量空间模型小结


对搜索结果进行排序

排序式检索,如何高速求相关性R

目标

  1. 无关的不在上面
  2. 相关度高的在前面

在链表中不出现的相关性为0,出现次数越多,R逼近1

方案一:jaccard系数

AB集合的交集为分子,并集为分母。

查询为A,文档为B。注:按照集合的方式计算,所以相同的词应看做一个。

这个不算是好模型。

计算下列查询 文档之间的 Jaccard 系数

q: [information on cars] d: “all you’ve ever wanted to know about cars”

q: [information on cars] d: “information on trucks, information on planes, information on trains”  q: [red cars and red trucks] d: “cops stop red cars more often”

J1=1/10 J2=2/6 J3=2/8

1、如例子中第二个information on的权重超过了第一个car,但从文本内容来看,第一个比第二个更相关。在这里Information on属于高频词,要降低高频词的权重。所以df越大,权重要降低。

Df,词在文档集C中出现的文档个数。

  1. 没有考虑在文档集C中出现的词的个数tf(词频)
  2. 添加无关的词会大大降低相关程度。

(分母完全不考虑长短文本的差异,所以长文本会吃亏,短文本的相关)

解决方案,引入两个参数tf df 再加上长度归一化。

有点像CSDN质量分的分析了。

方案二:tf-idf公式

引入

每篇文档可以看做二值关联矩阵(0-1)

非二值关联矩阵(1变成tf)

词袋模型:不考虑词在文档中出现的顺序,方案一其实也是一种词袋模型。

Tf ,term在某doc出现的次数,词项频率

第一种方法,采用原始的tf值,但原始的不合适。

相关度不会正比于词项频率tf,一般把原始的tf做对数化处理。

W=1+log10tf 0->0 1->1 2->1.3 10->2 1000->4

R为所有相关的w值之和。

Df文档频率,词出现的文档数目。IDF是逆文档频率,原始idf是df的倒数。

Idf=log10(N/DF)

单个词的查询,不必考虑idf。所以idf非必要。

Cf在文档集中出现的次数之和,是tf之和。

因为cf无法区分。

综上可得出w=tf.idf公式。

长文本长度

长文本长度怎么计算?长度归一化涉及的问题。

Tf和idf在预处理的时候就能计算,之前生成关联矩阵,现在能生成更高级的关联矩阵。

将文档表示成tfidf权重矩阵。

每篇文档表示成一个基于 tfidf 权重的实值向量

于是,我们有一个 |V|维实值空间

空间的每一维都对应词项

文档都是该空间下的一个点或者向量

极高维向量:对于 Web ∈R 搜索引擎,空间会上千万维

对每个向量来说又非常稀疏,大部分都是 0

查询看成向量

关键思路 1: 对于查询做同样的处理,即将查询表示成同 一高维空间的向量

关键思路 2: 按照文档对查询的邻近程度排序

邻近度=相似度 邻近度 ≈ 距离的反面

回想一下,我们是希望和布尔模型不同,能够得到非二 值的、既不是过多或也不是过少的检索结果 这里,我们通过计算出相关文档的相关度高于不相关文 档相关度的方法来实现

相似度形象化定义

  1. 欧式距离:对文档的长度很敏感。短向量更易和短向量相关,长的类似。
  2. 夹角法,夹角为0,相关性为1。根据夹角余弦值来判断。

文档长度归一化:所有向量映射(长的叫截取、短的叫扩展)半径为1的单位圆上面。

归一化之后,直接求点乘即可。

对于查询和文档可以用不同的模型。

文档中不使用idf差距不是很大,如果文档中高频词过多,那就有很大影响。

向量空间模型小结

将查询表示成 tf-idf 权重向量

将每篇文档表示成同一空间下的 tf -idf权重向量

计算两个向量之间的某种相似度(如余弦相似度)   

按照相似度大小将文档排序 将前 K(如 K =10 )篇文档返回给用户

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值