Lucene学习之计算相似度模型VSM(Vector Space Model)

最新推荐文章于 2022-03-30 23:18:17 发布

VIP文章 ZHANGBINFLY

最新推荐文章于 2022-03-30 23:18:17 发布

阅读量1.2w

点赞数 5

分类专栏：算法

本文链接：https://blog.csdn.net/zhangbinfly/article/details/7734118

版权

最近想学习下Lucene ，以前运行的Demo就感觉很神奇，什么原理呢，尤其是查找相似度最高的、最优的结果。索性就直接跳到这个问题看，很多资料都提到了VSM（Vector Space Model）即向量空间模型，根据这个模型可以对搜索的结果进行最优化的筛选，目前还不知道如何证明，只能凭借想象应该是这个样子的。

1、看一下TF/IDF

我们先来看下一个叫TF/IDF的概念，一般它用来作为一个搜索关键字在文档或整个查询词组的权重的计算方式。前几天看了吴军老师的数学之美系列文章，这个TF/IDF可以追溯到信息论中的相对熵的概念。在有些文献中它被称为成“交叉熵”。在英语中是 Kullback-Leibler Divergence，是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似，对于两个完全相同的函数，它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词（在语法上和语义上）是否同义，或者两篇文章的内容是否相近等等。利用相对熵，我们可以到处信息检索中最重要的一个概念：词频率-逆向文档频率（TF/IDF)。

影响一个词(Term)在一篇文档中的重要性主要有两个因素：
• Term Frequency (tf)：即此Term在此文档中出现了多少次。tf 越大说明越重要。
• Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。
容易理解吗？词(Term)在文档中出现的次数越多，说明此词(Term)对该文档越重要，如“搜索”这个词，在本
文档中出现的次数很多，说明本文档主要就是讲这方面的事的。然而在一篇英语文档中，this出现的次数更多，
就说明越重要吗？不是的，这是由第二个因素进行调整，第二个因素说明，有越多的文档包含此词(Term), 说明
此词(Term)太普通，不足以区分这些文档，因而重要性越低。

最低0.47元/天解锁文章

ZHANGBINFLY

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Lucene学习之计算相似度模型VSM(Vector Space Model)

最近想学习下Lucene ，以前运行的Demo就感觉很神奇，什么原理呢，尤其是查找相似度最高的、最优的结果。索性就直接跳到这个问题看，很多资料都提到了VSM（Vector Space Model）即向量空间模型，根据这个模型可以对搜索的结果进行最优化的筛选，目前还不知道如何证明，只能凭借想象应该是这个样子的。1、看一下TF/IDF 我们先来看下一个叫TF/IDF的概念，一般
复制链接

扫一扫