【第一节】 lucene HelloWord

最新推荐文章于 2024-09-26 03:15:00 发布

AndyYuan10000

最新推荐文章于 2024-09-26 03:15:00 发布

阅读量650

点赞数

分类专栏： lucene 文章标签： lucene 全文检索文档

本文链接：https://blog.csdn.net/wwwyuanliang10000/article/details/7235532

版权

lucene 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、全文检索

全文检索是计算机程序通过文章中每一个词，对每一个词建立一个索引，指明该词在文章的次数和位置。当用户查询时根据建立的索引查找，类似于通过字典的检索字表查找字的过程。

二、lucene 的索引是存放在一个索引库，是包括索引表和数据文档，一个反向索引结构图。

三。索引数字和查询

doc.add(new NumericField("price", Field.Store.YES, true).setIntValue(123456));

Query q = NumericRangeQuery.newIntRange("price", 1, 1111111, true, true);

//排序
TopDocs tDocs =searcher.search(q, null, 100, new Sort(new SortField("price", SortField.FLOAT, true)));
System.out.println(tDocs.totalHits);

四.创建索引各种配置如:

Index选项

Index.ANALYZED – 索引并分词(适用于body, title, abstract等.).
Index.NOT_ANALYZED – 索引但不分词,可以使用NORM方式.(可以人为干预提权)

Index.ANALYZED_NO_NORMS – 索引并分词但不使用NORM方式(不可认为提权)

Index.NOT_ANALYZED_NO_NORMS – 索引但不分词也不使用NORM方式(经常用到,存储标志值最好的方式.)

Index.NO – 不索引

 

Store选项

Store.YES – 存储

Store.NO  – 不存储

 

TermVector选项

(除TermVector.NO外其他必须要求Index选项为Index.ANALYZED或Index.NOT_ANALYZED)

TermVector.YES – 最基本的向量存储(特殊性,数量,在哪个文档)

TermVector.WITH_POSITIONS – TermVector.YES+位置
TermVector.WITH_OFFSETS – TermVector.YES+偏移

TermVector.WITH_POSITIONS_OFFSETS – TermVector.YES+位置+偏移

TermVector.NO – 不做向量存储

各选项组合应用场景

Index	Store	TermVector	事例
NOT_ANALYZD ED_NO_NORMS	YES	NO	主键,电话,身份证号,URLs,日期和需要排序的字段
ANALYZED	YES	WITH_POSITIONS_OFFSETS	文档标题,摘要.
ANALYZED	NO	WITH_POSITIONS_OFFSETS	文档主体
NO	YES	NO	文档类型,数据库主键(如果不需要检索该字段的话)
NOT_ANALYZED	NO	NO	隐藏字段