转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/42818185
通过前一篇博客,对所以也许有了一个大致的了解,知道检索是一个怎样的过程,这篇博客就简单的介绍一下lucene实现的数学模型。
前面我们已经提到lucene实现的索引是一种反向索引,有词典和倒排表组成(实际的结构要比这个复杂很多),那索引的数学模型又是怎样的呢?在开始这个之前,还是先熟悉下几个名词。
文档(Document):上篇博客中的索引创建过程中列举的几个事例,每一句话都可以看成一个文档,当然该文档只有一个域(Field),通过标准分词技术,我们将这个域的值分成了很多的词元(Term),文档、域、词元这三个就是我们需要理解的三个名词。(这里自己想一下我们这次的案例 小说信息中,哪些是文档、域和词元?)
计算权重(Term Weight)过程
<