信息检索笔记 — Vector Space Model

最新推荐文章于 2021-03-07 06:32:18 发布

小猪哼哼哼

最新推荐文章于 2021-03-07 06:32:18 发布

阅读量292

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43661223/article/details/106038197

版权

Vector space model 是一个常用的信息检索算法，通过算query 和 document 的相似度对documents 进行排序，并把展示给用户排在前面的documents，以完成检索。

Term weighting

对于简单的二进制加权，我们只使用1和0来表示某个术语是否包含在文档中。

但是通过术语权重，我们可以知道术语在描述文档内容时的重要性。

2. TF-IDF metric

A frequently used metric is TF-IDF,

TF (Term Frequency):

描述一个单词在文档中出现的次数
在文档中，这个术语更常见—>高权重
每个术语对于每个文档都有一个单独的术语频率。

IDF: Inverse Document Frequency

描述文档集合中包含单词的文档数量。
在一个文档集合中，不太常见的术语——> High weight
每个 term 在整个文档集合中只有一个逆文档频率

3 计算:

计算公式

公式：a.tf

freqi,j 是该term i在文件 j中出现的次数，maxfreq是文件j 中terms出现的最大频率

b.idf

N指文件总数，ni指 term i 在文档集中的几个文档出现过

c. tf-idf

d 相似度计算（向量夹角）

cos值越大，相似度越高

2. 计算步骤

计算集合C中所有项的idf值
对于C中的每个term，计算它对于每个文档集合的tf值。
将tf值乘以每个term的idf值，得到每个term的文档矩阵。
计算query的tf-idf向量 *这里注意：查询词的idf是文档集合中计算出的词的idf。
计算相似度，给文档排序

TF-IDF weighting scheme的优缺点

优点

它为搜索者提供了一个排序的相关文档列表，其中最相关的文档位于列表的顶部。
它可以提高检索性能。
即使文档只包含query的一部分，也可以检索到。

缺点

它基于这样的假设:term是独立的，而这有时会降低性能。

小猪哼哼哼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息检索笔记 — Vector Space Model

Vector space model 是一个常用的信息检索算法，通过算query 和 document 的相似度对documents 进行排序，并把展示给用户排在前面的documents，以完成检索。Term weighting对于简单的二进制加权，我们只使用1和0来表示某个术语是否包含在文档中。但是通过术语权重，我们可以知道术语在描述文档内容时的重要性。 2. TF-IDF metricA frequently used metric is TF-IDF,TF (Term Fr..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。