文本搜索引擎Lucene之filed详解和代码测试

1、索引创建和查询过程

在这里插入图片描述
文档数据采集,一般是数据库的数据和爬虫获取的数据。而Lucene不提供信息采集的类库,需要自己编写一个爬虫程序实现信息采集,也可以通过一些开源软件实现信息采集,如下:
Solr (http://lucene.apache.org/solr), solr是apache的一个子项目,支持从关系数据库、xml文档
中提取原始数据。
Nutch http://lucene.apache.org/nutch) , Nutch是apache的一个子项目,包括大规模爬虫工具,能
够抓取和分辨web网站数据。
jsoup (http://isoup.org/ ),jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文
本内容。它提供了一套非常省力的API,可通过DOM CSS以及类似于jQuery的操作方法来取出和操作数据。
heritrix (http://sourceforge.net/proiects/archive-crawler/files/),Heritrix 是一个由java 开发的、开
源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用
户实现自己的抓取逻辑。

2、文档和域
2.1、Field属性
性别  	男
简介  	我是阿里人
座右铭    Write the code, Change the world!
身份证号  43250***********6666

已上面数据为例。

2.1.1、是否分词(Tokenized)

是:对该field的内容进行分词,分词的目的,就是为了索引。

比如:座右铭、简介

否:不分词,但不代表不索引,而是将内容做为一个整体进行索引。

比如:性别、身份证号

2.1.2、是否索引(Indexed)

是:将分好的词进行索引,索引的目的,就是为了搜索。

比如:性别、简介、座右铭、身份证号

否:不索引,也就是不对该field域进行搜索。

2.1.3、是否存储(Stored)

是:将field域中的内容存储到document文档对象中。用于查询结果返回。

比如:性别、座右铭、身份证号

否:不将field域中的内容存储到document文档对象中。

比如:简介,由于简介在搜索页面中不需要显示,再加上简介的内容比较多,所以就不需要进行存储

2.2、常用的Field类型
Field类型数据类型是否分词是否索引是否存储说明
StringField(FieldName, FieldValue, Store.YES)字符串NYY/N字符串类型Field, 不分词, 作为一个整体进行索引(如: 性别、身份证号), 是否需要存储由Store.YES或Store.NO决定
LongField(FieldName, FieldValue, Store.YES)数值型代表YYY/NLong数值型Field代表, 分词并且索引(如: 价格), 是否需要存储由Store.YES或Store.NO决定
StoredField(FieldName, FieldValue)重载方法, 支持多种类型NNY构建不同类型的Field, 不分词, 不索引, 要存储. (如: 简介)
TextField(FieldName, FieldValue, Store.NO)文本类型YYY/N文本类型Field, 分词并且索引, 是否需要存储由Store.YES或Store.NO决定
Field(FieldName, FieldValue, FieldType)自定义类型YYY/N自定义是否存储、索引、分类、设置权重等

可以根据不同的业务需求,灵活定义Field类型。

3、创建和查询索引
3.1、引入的包
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers-common</artifactId>
    <version>${lucene.version}</version>
</dependency>

<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
    <version>${lucene.version}</version>
</dependency>

<!-- https://mvnrepository.com/artifact/commons-io/commons-io -->
<dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.6</version>
</dependency>

lucene的版本用的是7.7.2

<lucene.version>7.7.2</lucene.version>
3.2、测试代码
3.2.1、创建索引
@Test
public void createIndex() throws Exception {
    //1.创建一个Director对象,指定索引库的位置。
    //把索引保存在磁盘中
    Directory directory = FSDirectory.open(new File("D:\\lucene\\index").toPath());
    //2.基于Directory对象来创建一个indexWriter对象
    IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig());
    //3.读取磁盘上的文件,对应每个文件创建一个文档对象。
    File file = new File("D:\\lucene\\DataFiles");
    File[] files = file.listFiles();
    for (File file1 : files) {
        //取文件名
        String file1Name = file1.getName();
        //文件的路径
        String path = file1.getPath();
        //文件的内容
        String fileContext = FileUtils.readFileToString(file1, "utf-8");
        //文件的大小
        long size = FileUtils.sizeOf(file1);
        //创建Field
        //参数1:域的名称,参数2:域的内容,参数3:是否储存
        Field fieldName = new TextField("name", file1Name, Field.Store.YES);
        Field fieldPath = new TextField("path", path, Field.Store.YES);
        Field fieldContext = new TextField("context", fileContext, Field.Store.YES);
        Field fieldSize = new TextField("size", size + "", Field.Store.YES);
        //创建文档对象
        Document document = new Document();
        //4.向文档对象中添加域
        document.add(fieldName);
        document.add(fieldPath);
        document.add(fieldContext);
        document.add(fieldSize);
        //5.把文档对象写入索引库
        indexWriter.addDocument(document);
    }
    //6.关闭indexWriter对象
    indexWriter.close();
}

执行代码,索引文件生成如下:
在这里插入图片描述

3.2.2、查询索引

在这里插入图片描述
这是我之前用来创建索引文件的数据文件。

@Test
public void testTermQuery() throws Exception {
    FSDirectory directory = FSDirectory.open(Paths.get("D:\\lucene\\index"));
    IndexSearcher is = new SearcherManager(DirectoryReader.open(directory), new SearcherFactory()).acquire();
    // 查询filed为name,文本为java
    Term t = new Term("name", "java");
    // 为Term构造查询。使用Term,d必需为单词,不然查不到
    Query query = new TermQuery(t);
    TopDocs hits = is.search(query, 10);
    // hits.totalHits:命中的总次数。即在几个文档中查到给定单词
    System.out.println("匹配 'java',总共查询到" + hits.totalHits + "个文档");
    for (ScoreDoc scoreDoc : hits.scoreDocs) {
        Document doc = is.doc(scoreDoc.doc);
        System.out.println(doc.get("name"));
    }
}

执行上述查询代码,输出结果如下:

匹配 ‘java’,总共查询到1个文档
阿里巴巴Java开发手册(详尽版)1.4.0.pdf

这里只介绍了TermQuery的查询方式,后面会更新各种Query的使用方式。

3.3、总结

​ lucene整体使用上不难,但是用好,以及对细节上的理解和使用,确也不简单。重点对象:Field、Document、IndexWriter、IndexSearcher和Query。

欢迎扫描下面图片关注我的个人公众号,回复“资源”可以获取java核心知识整理和经典书籍

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值