![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene系列
胡桃七子
这个作者很懒,什么都没留下…
展开
-
文本搜索引擎lucene之分词器和luke工具介绍
1、分词器在搜索时,我们通常通过词来搜索目标文本,所以我们在创建索引的时候要对文本进行分词处理。在lucene中有个Analyzer类,他是一个abstract class,他的主要实现是createComponents(String fieldName);的抽象方法,所以其分词的具体规则由子类实现。从而实现一个分词器只要Override这个方法就可以了。本文介绍一下常用的分词器:标准分词器:也叫单字分词,将中文一个字一个字的分词。简单分词器:根据标点符号进行分词。二分法分词器:两个字两个字进行原创 2020-05-20 16:08:49 · 789 阅读 · 0 评论 -
文本搜索引擎Lucene之filed详解和代码测试
1、索引创建和查询过程文档数据采集,一般是数据库的数据和爬虫获取的数据。而Lucene不提供信息采集的类库,需要自己编写一个爬虫程序实现信息采集,也可以通过一些开源软件实现信息采集,如下:Solr (http://lucene.apache.org/solr), solr是apache的一个子项目,支持从关系数据库、xml文档中提取原始数据。Nutch http://lucene.apache.org/nutch) , Nutch是apache的一个子项目,包括大规模爬虫工具,能够抓取和分辨we原创 2020-05-18 15:27:53 · 993 阅读 · 0 评论 -
文本搜索引擎lucene
1、介绍Apache Lucene 是完全用Java编写的高性能,功能齐全的文本搜索引擎库。它是一项适用于几乎所有需要全文搜索的应用程序的技术,尤其是跨平台的应用程序。2、Lucene、Solr、Elasticsearch之间的联系Solr、Elasticsearch都是Lucene实现的产品。Solr功能相对于Elasticsearch更强大,但Elasticsearch的实时搜索更强。3、常见的数据结构有哪些?结构化数据: 用表、字段表示的数据。每个字段都是固定结构半结构化数据: json原创 2020-05-14 18:47:47 · 1026 阅读 · 0 评论