搜索/lucene
莫言静好、
这个作者很懒,什么都没留下…
展开
-
Lucene 初探
1.1 Lucene 是什么Lucene是一款信息检索工具库或者全文检索库。1.2 Lucene能做些什么Lucene只是一个软件类库或者工具箱,并不是一个完整的文件搜索程序,或者网页搜索器以及网站搜索引擎。很多完整的搜索程序都是基于lucene这个核心来运行1.3 结构化数据、半结构化数据,非结构化数据结构化数据:指具有固定格式或有限长度的数据,比如数据库非结原创 2016-05-14 20:30:04 · 669 阅读 · 0 评论 -
探究Lucene计算权重的过程
探究Lucene计算权重的过程我们知道,影响一个词在一篇文档中的重要性主要有两个因素:1 term frequency (tf):该词在当前文档出现了多少次,tf越大,说明越重要。2 document frequency (df):有多少文档包含该term,该词越大说明太普通了,越不重要。比如solr一词在文档中出现次数很多,说明这篇这篇文档主要是跟solr有关的;原创 2016-05-14 22:14:40 · 4428 阅读 · 1 评论