基于lucene的案例开发:索引数学模型

本文介绍了基于Lucene的索引数学模型,包括文档、域和词元的概念,以及计算词元权重的过程。利用Term Frequency (tf) 和 Document Frequency (df) 来确定词元的重要性,并探讨了空间向量模型(VSM)在相关性计算中的应用。通过计算查询向量与文档向量的夹角余弦值,来衡量查询与文档的相关度,为检索提供依据。
摘要由CSDN通过智能技术生成

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/42818185

      通过前一篇博客,对所以也许有了一个大致的了解,知道检索是一个怎样的过程,这篇博客就简单的介绍一下lucene实现的数学模型。

      前面我们已经提到lucene实现的索引是一种反向索引,有词典和倒排表组成(实际的结构要比这个复杂很多),那索引的数学模型又是怎样的呢?在开始这个之前,还是先熟悉下几个名词。

      文档(Document)上篇博客中的索引创建过程中列举的几个事例,每一句话都可以看成一个文档,当然该文档只有一个域(Field),通过标准分词技术,我们将这个域的值分成了很多的词元(Term),文档、域、词元这三个就是我们需要理解的三个名词。(这里自己想一下我们这次的案例 小说信息中,哪些是文档、域和词元?)


计算权重(Term Weight)过程 

<
  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值