【Elasticsearch】ES精确查询和范围查询，ES时间字段排序实例，ES倒排索引介绍

本文链接：https://blog.csdn.net/wenchun001/article/details/131678255

本文ES版本是7.X以上，之前的版本语法可能会有些差异，请注意这些比较重要的细节。问海量数据搜索时为什么ES会比较快？

精确查询

termQuery

BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();

boolQuery.must(QueryBuilders.termQuery("name", queryVO.getKey()));

matchQuery 模糊查询

# paras在后
boolQuery.must(QueryBuilders.matchQuery("Name",queryVO.getKey());

multiMatchQuery 多个字段模糊查询

# paras在前，字段在后
boolQuery.must(QueryBuilders.multiMatchQuery(queryVO.getKey(),
                    "P1.text",
                    "Log",
                    "Name",
                    "Desc"));

排序字段

如果时间字段写入时用的类型是Text，可以用“时间字段.keyword”来处理

#只有字段是Text时，字段后面才加“.ketword”
searchSourceBuilder.sort("createTime.keyword", SortOrder.DESC);

范围查询

#范围查询
boolQuery.must(QueryBuilders
.rangeQuery("createTime.keyword")
.gt(queryVO.getCreateTimeStart())
.lt(queryVO.getCreateTimeEnd()));

ES分页查询

#查询前传入分页参数

#查询前传入分页参数
searchSourceBuilder.from((queryVO.getPageIndex() - 1) * queryVO.getPageSize()).size(queryVO.getPageSize());

#分页后拿到总记录数

searchHits.getTotalHits()

ES倒排索引

把文档D对应到关键词的映射转换为关键词到文档ID的映射，每个关键词都对应着一系列的文档，这些文档中都出现这个关键词。

带有单词频率、文档频率和出现位置信息的倒排索引

倒排表的压缩算法-FOR（Frame Of Reference）

倒排索引中采取的方案

（1）无损压缩，文档编号重排序后用压缩算法进行压缩：确保在倒排表中相邻的两个文档的文档编号也相邻，这样D-Gap值也较小。希望内容越相似的文档其文档编号也越相似。例子：包含“百度”的文档冲排序为文档编号相邻的文档，则创建“百度”倒排表时候，相邻的差值(D-Gap)则较小。百度-----D-Gap{1,4,9} 转化为百度------D-Gap{1,1,1}，要压缩的原始数据值变小，则获得较高的压缩率。文档编号重新排序，可以依靠按照某些主题词来聚类，将同一个类的文档编号排成相邻的。

（2）有损压缩，静态索引裁剪：将不重要的索引项从倒排索引中清除，只保留重要的索引项。静态索引裁剪分为：

a、以单词为中心的索引裁剪根据默认返回数目，设定每个单词的倒排表的项至少为k个，设计相似性函数，计算单词和文档的相似性得分，把分数小于设定阈值的文档信息从倒排表中裁剪掉。

b、以文档为中心的索引裁剪在建立索引之前，把文档中不重要的词语删除掉。这样的话可能导致通用词或者停用词的倒排表为空。

*******故以单词为中心的索引裁剪是更加常用的方法。