lucene_wuda0112的博客-CSDN博客

lucene

关注

文章平均质量分 77

关注数：文章数：4 文章阅读量：10680 文章收藏量：4

作者: wuda0112

熟练使用lucene，看过lucene搜索模块源码,自己写过lucene分词器；熟练使用mysql,linux;熟悉hadoop生态圈;当然web,seo，服务器，缓存等其他方面的IT技术也都能熟练使用。致力于成为一个合格的架构师！

展开

lucene读取索引文件到内存-源码解析

1.抛出问题：2.环境说明lucene索引保存在倒排表文件中，那么lucene是如何将这些索引数据读取到内存中的呢？首先需要说明下我的源码环境：我用的是lucene4,然后codec用的是SimpleTextCodec，这个codec的作用是格式化索引，把“黑箱”的索引格式转化成我们可以看得懂的格式，比如,用了SimpleTextCodec以后，我的倒排表文件的后缀是".pst"，然后

原创 2014-03-17 16:33:35 · 2822 阅读 · 1 评论
lucene搜索过程详解

这篇文章的查询以最简单的TermQuery为例，从searcher.search()方法为入口：1.为各个查询的term计算权重。createNormalizedWeight(Query query)；具体是在new TermWeight()完成权重计算2.loadTerms()方法用于从索引文件中加载terms到内存，并且缓存。比如我这里用的codec是SimpleTextCod

原创 2013-12-04 10:12:07 · 1284 阅读 · 0 评论
Lucene索引在文件和内存中的数据结构

Lucene索引文件结构:Lucene的索引由多个不同后缀格式的文件组成，本文准确来说应该是lucene索引倒排表的文件结构,具体的组织形式如下：field fieldName --域的名称term termName --term的名称，也就是分出的词doc docId --文档id,在指定域下，出现指定term（分词）的文档的idFreq count --term在文档中出

原创 2014-07-14 22:42:03 · 5490 阅读 · 0 评论
GTAnalyzer-lucene中文分词

此分词算法主要来源于：http://xiecc.blog.163.com/blog/static/14032200671110224190/jar包下载（不推荐，因为csdn的资源都不能更新，删除，所以这个可能是旧的，只是google svn有时候不能访问，现在迁移到淘宝svn上了（很方便了），所以在这里才搞了个jar包下载）地址：http://download.csdn.net/d

原创 2013-12-02 16:56:23 · 1086 阅读 · 0 评论

lucene

作者: wuda0112

lucene读取索引文件到内存-源码解析

lucene搜索过程详解

Lucene索引在文件和内存中的数据结构

GTAnalyzer-lucene中文分词