apache lucene 结构和主要的类

Apache lucene提供的功能大体可以看作是给一些资料建成索引, 再根据搜索词搜索出资料中一些内容。 当中的类主要分为建索引和搜索两种。

[img]http://dl.iteye.com/upload/attachment/344608/305eff04-c6a8-316a-9938-da1ed53b07dc.gif[/img]

[b]一、建索引[/b]
建索引的过程为: 输入一串源字符串, 经过Analyzer分词处理,生成Document, 其中各Field要索引的索引, 要存储的存储, 最终通过IndexWriter写入内存或磁盘。

写入相关:同
[list]
[*]1. IndexWriter 主要是写索引,
[*]2. Directory类分为FSDirectory和RAMDirectory。
[*]3. Document 一个文档,是多个字段的集合,可以看作是数据库的一条记录,组合成Segment, document先在内存中保存一定的条数, 到了加入到Segment,多个Segment有个MaxMerge, 到达这个数时合并成新的一个. Segment中Document有最多条数, 一般是Integer.MAX_VALUE
[*]4. Field 具体字段, Store, Index[NO_NORMS, NO, UN_TOKENIZED, TOKENIZED], 可能设置权值,以便搜索时排在前面。
[*]5. Analyzer分析器, 含Filter, Tokoner, 主要的功能是按一定的规则进行分词、去除StopWord使输入串成一个个单词组
[/list]

[b]二、搜索索引[/b]
搜索的过程是:输入搜索词, 通过Analyzer处理, 再通过Parser组合成基本TermQuery搜索项。 最终通过IndexSearch的search(query),搜索出Document集合。

搜索相关的:
[list]
[*]1. IndexSearcher 以只读的方式找开索引来搜索,(新的内容可以通过reopen)
[*]indexSearcher.search(query, filter, sort)
[*]2. Term:搜索的基本单元, 一般与TermQuery相关, Term[key, content]
[*]3. Query: TermQuery, BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery,
[*] RangeQuery, FilterQuery, WildcardQuery
[*]4. Filter 要查询时做预处理, 并不是对结果集进行过滤。资源消耗比较大的
[*]5. Sort 排序, 对结果进行排序
[*]5. Hits, hits.doc(i)
[/list]


IndexReader
索引更新采用先根据IndexReader.deleteDocuments删除,然后再用IndexWriter.addDocument增加.

[b]三、注意点:[/b]
[list]
[*]1. 对于大数据量的建索引, 可以分多线程, 先RAMDirectory再到FSDirectory
[*]2. 选择合适的分词器, 对于索引时间和索引大小都有很大的影响
[*]3. 对于搜索我们可以缓存一些结果或者是Query, 以便不搜索索引或解析特别是于RangeQuery解析,对整个索引记录标记是特别耗时的。
[*]4. 索引写的时候可以同时索引(写时在文件目录生成一个锁文件), 写完索引搜索不出来新加入的问题的, 要Indexsearch.reopen
[*]5. 搜索时多个条件时一般都是BooleanQuery来组合TermQuery
[/list]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java Lucene-Core 是 Apache Lucene 项目的核心依赖库。Lucene 是一个开源的全文检索引擎工具包,提供了强大的全文检索功能,可用于构建各种基于文本的应用程序。 在使用 Lucene 时,需要添加 Lucene-Core 依赖到项目中,以便能够使用 Lucene 提供的各种功能。Lucene-Core 是 Lucene 项目最基本的依赖库,包含了一些必备的和方法,用于索引和搜索文档。 通过 Lucene-Core,可以使用 Lucene 提供的各种 API 来创建索引、搜索和加权查询。Lucene 使用倒排索引的方式来快速定位包含搜索词的文档,而不需要遍历整个文档集合。这种索引结构使得 Lucene 具有出色的搜索效率和性能。 Lucene-Core 还提供了各种分析器(Analyzer)和查询解析器(Query Parser),用于处理文本的分词、词干处理和查询解析等操作。分析器可用于将文本分割成词语,并根据需要进行一些文本处理操作。查询解析器则用于将用户的查询语句解析成 Lucene 可以理解的查询对象。 除了 Lucene-Core,还存在其他的 Lucene 依赖库,如 Lucene-Analyzers、Lucene-Queries 等,它们提供了更高级的功能和扩展,用于处理多语言分词、模糊查询、范围查询等等。 总之,Java Lucene-Core 依赖是使用 Lucene 的必备库,它提供了构建全文检索应用程序所需的基本功能和工具。通过使用 Lucene-Core,开发人员可以更方便地利用 Lucene 的强大功能来实现高效的全文检索。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值