lucene
文章平均质量分 77
wuda0112
熟练使用lucene,看过lucene搜索模块源码,自己写过lucene分词器;熟练使用mysql,linux;熟悉hadoop生态圈;当然web,seo,服务器,缓存等其他方面的IT技术也都能熟练使用。致力于成为一个合格的架构师!
展开
-
lucene读取索引文件到内存-源码解析
1.抛出问题:2.环境说明lucene索引保存在倒排表文件中,那么lucene是如何将这些索引数据读取到内存中的呢?首先需要说明下我的源码环境:我用的是lucene4,然后codec用的是SimpleTextCodec,这个codec的作用是格式化索引,把“黑箱”的索引格式转化成我们可以看得懂的格式,比如,用了SimpleTextCodec以后,我的倒排表文件的后缀是".pst",然后原创 2014-03-17 16:33:35 · 2822 阅读 · 1 评论 -
lucene搜索过程详解
这篇文章的查询以最简单的TermQuery为例,从searcher.search()方法为入口:1.为各个查询的term计算权重。createNormalizedWeight(Query query);具体是在new TermWeight()完成权重计算2.loadTerms()方法用于从索引文件中加载terms到内存,并且缓存。比如我这里用的codec是SimpleTextCod原创 2013-12-04 10:12:07 · 1284 阅读 · 0 评论 -
Lucene索引在文件和内存中的数据结构
Lucene索引文件结构:Lucene的索引由多个不同后缀格式的文件组成,本文准确来说应该是lucene索引倒排表的文件结构,具体的组织形式如下:field fieldName --域的名称term termName --term的名称,也就是分出的词doc docId --文档id,在指定域下,出现指定term(分词)的文档的idFreq count --term在文档中出原创 2014-07-14 22:42:03 · 5490 阅读 · 0 评论 -
GTAnalyzer-lucene中文分词
此分词算法主要来源于:http://xiecc.blog.163.com/blog/static/14032200671110224190/jar包下载(不推荐,因为csdn的资源都不能更新,删除,所以这个可能是旧的,只是google svn有时候不能访问,现在迁移到淘宝svn上了(很方便了),所以在这里才搞了个jar包下载)地址:http://download.csdn.net/d原创 2013-12-02 16:56:23 · 1086 阅读 · 0 评论