Lucene8.0新特征 DocValues改进

最新推荐文章于 2024-08-22 22:48:15 发布

破晓初

最新推荐文章于 2024-08-22 22:48:15 发布

阅读量3.5k

点赞数 8

分类专栏： lucene Lucene/Solr 文章标签： Lucene Solr DocValues ElasticSearch IndexedDISI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zteny/article/details/85245967

版权

本文深入探讨了Lucene中的IndexedDISI设计，特别是针对DocValues的DocIdSet数据结构进行了优化，旨在提高DocValues的性能。IndexedDISI的改进包括分片规则、数据分布特性和DocID与Value的对应关系。通过引入Jump Table和Rank Table，优化了查找效率，降低了随机访问的时间复杂度。

摘要由CSDN通过智能技术生成

文章目录

一、前言

IndexedDISI是DocValues核心存储结构之一，主要用于存储DocValues中的DocIdSet数据，它的性能直接影响DocValues的整体使用体验。DocIdSet是一种非常特殊的数据集，它是Lucene的DocID集合，所以这是有序的整型数。同时它除了用于存储DocIdSet之外，还必须能够将DocId查找到对应有Value，实现DocID与Value的映射关系从而找到对应的值。

DocValues是通过DocId能快速找到对应Value的数据结构，所以它的功能就是维护DocID到Value之间的关系。关于DocValues索引存储采用结构和格式，在《Lucene DocValues索引文件详解》中有详细的介绍，也简单的介绍了IndexedDISI。这里针对IndexedDISI的实现细节继续展开，然后再看Lucene-8585做哪些改进，所以配合一起食用味道更佳。

二、IndexedDISI设计

在一个完整的Segment中，DocID当然是有序且连续的，但由于某些文档的DocValues字段都可能存在缺省情况。当某个文档DocValues字段缺省时，在DocValues中自然也不会记录该文档的DocID了，从而造成DocIdSet可能不连续，甚至非常稀疏。

当然，即使DocIdSet的数据分布十分稀疏同样可以使用BitSet来存储（Lucene7.0之前就是这么实现的），但会非常浪费空间，也会影响读写的性能。因此开始着手优化BitSet的底层存储方式，最终Lucene借用Roaring Bitmaps的思想设计了IndexedDISI（其中DISI是DocIdSetIterator的缩写）。

下面是7.0改进之后IndexedDISI的结构示意图，名字也是Lucene7新起的。

在Numeric类型，Values与DocIdSet有相同的顺序，也是说DocIdSet的第一个DocID对应的Value在Values的第一个位置。其它的类型则通过记录中间变量Address转化，DocIdSet的第一个DocID对应Address的第一个值是DocId对应的Value在Values的指针。所以我们可以简单的理解为DocIDSet与Values同序，DocIdSet中第n个DocID对应的Value在Values中的第n个位置。

通过NumOfDocs可以容易算得每个Slice的第一个Doc对应的Value在Values的位置（StartDoc），下文我们可以认为StartDoc是直接记录在Slice上的已知参数。

1. 分片规则

IndexedDISI将D

最低0.47元/天解锁文章

关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

破晓初

CSDN认证博客专家 CSDN认证企业博客

码龄15年

31: 原创

3万+: 周排名

118万+: 总排名

10万+: 访问

: 等级

1452: 积分

113: 粉丝

63: 获赞

40: 评论

67: 收藏

私信

关注

热门文章

分类专栏

Lucene/Solr 19篇
lucene 11篇
SolrCloud 14篇
JUC 7篇
hive 1篇

最新评论

Solr搜索统计 JSON Faceting API
梦梁鹿: 请教一下，这段json facet在旧API中如何表示？'platform' : { type : terms, // facet_type field : platform, // facet_facet_parameters facet : { user_amount : 'unique(user_id)', total_price : 'sum(price)', mean_price : 'avg(price)' } }
Lucene倒排索引简述之索引表
Code洞洞妖: 好像明白了一些，因为FST结构，检索时，先从tip上取出要检索字段的FST结构(因为一个字段一个FST), 按照检索内容的前缀从FST上判断有没有。如果不存在，不命中。如果存在，关联到可能的Block。从tim上找出这几个Block，在每个Block上的FieldMetaData找符合的【MinTerm-MaxTerm】范围，找不到就不命中，省去读Block里的全部词；找到符合范围的才去读这个Block里Entry的内容，获取出词频位置等信息。这次应该理解应该是对了吧。请指教。
Lucene倒排索引简述之索引表
Code洞洞妖: 您好，想请教一下，“从搜索流程上，Lucene先读到FieldMetadata的信息.......MinTerm和MaxTerm可以有效的避免读取不必要的.tip。”这句里【有效避免读取不必要的.tip】不是很理解。搜索流程上，不是先通过tip里每个FST去定位到tim上的Block吗？在哪一步去读tim的FieldMetadata呢？我可能没理解这个过程。请指教一下，麻烦了，谢谢。
企业级搜索引擎Solr再次焕发青春
向彪-blockchain: 文采四溢，大佬这是被耽搁的文学家啊！
Lucene倒排索引简述番外篇
obkof: 赞

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。