Lucene
洛枫偃月
骑自行车也能上月球! /r/n
You can go to the moon by bike!
展开
-
全文检索的基本原理
一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或转载 2013-09-03 10:00:38 · 639 阅读 · 0 评论 -
lucene产生的索引文件格式详解
本文介绍lucene中segment,.fnm,.fdx,.fdt,.tii,.tis,deletable ,.cfs等格式文件的用途。 这个是lucene创建索引产生的文件:1.索引的segment每个segment代表lucene的一个完整索引段。通常,在一个索引中,会包含有多个segment。每个segment都有一个统一的前缀,这个前缀是根据当前索引原创 2013-09-03 09:51:45 · 1097 阅读 · 0 评论 -
Lucene的总体架构
Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。转载 2013-09-03 09:58:02 · 684 阅读 · 0 评论 -
Lucene学习笔记(1):Lucene的索引文件格式
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。本文详细解读了原创 2013-09-03 09:53:28 · 800 阅读 · 0 评论 -
Lucene学习笔记(4):Lucene Index 删除、更新
public void deleteAll(){ IndexWriter iw=null; try { iw = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35))); iw.deleteAll();//清空原创 2013-09-04 16:14:38 · 728 阅读 · 0 评论 -
Lucene学习笔记(2)::Lucene的索引文件格式
四、具体格式上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。4.1. 正向信息Index –> Segments (segments.gen, segments_N) –> Field(fnm原创 2013-09-03 09:56:47 · 760 阅读 · 0 评论 -
Lucene 学习笔记(3) :Hello Lucene(Lucene Index的创建和查找)
1、创建索引public void Index() { IndexWriter iw = null; try { /** * 1、创建文件目录 */ // Directory directory=new RAMDirectory();//建立在内存中 Directory directory = FSDirectory.open(new File(原创 2013-08-31 21:10:12 · 694 阅读 · 0 评论