倒排索引的数据结构：Term index、Term Dictionary、Posting List

最新推荐文章于 2025-03-29 15:09:33 发布

Elastic开源社区

最新推荐文章于 2025-03-29 15:09:33 发布

阅读量2.8k

点赞数 1

分类专栏： Elastic底层原理文章标签： lucene 全文检索 elasticsearch 搜索引擎数据结构

本文链接：https://blog.csdn.net/wlei0618/article/details/125847621

版权

Elastic底层原理专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了Lucene的倒排索引结构，包括倒排表、词项字典和词项索引。倒排表存储词项的id和相关统计信息，词项字典包含规范化后的词项，而词项索引用于加速查找。FSTIndex在.tip文件中提供块级索引，用于定位.tim文件中的数据。每个Block包含Header、Suffix、Stats和Metadatas信息，其中TermStats保存词频和文档频率。倒排表的压缩算法将在后续章节讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2、倒排索引的数据结构

倒排索引其实包含了三种数据，分别是

倒排表（Posting List）
词项字典（Term Dictionary）
词项索引（Term Index）

这几种文件分别存储了不同的数据

其中倒排表包含某个词项的所有id的数据存储了在.doc文件中；

词项字典包含了index field的所有经过normalization token filters处理之后的词项数据，最终存储在.tim文件中。

所谓normalization其实是一个如去重、时态统一、大小写统一、近义词处理等类似的相关操作；词项索引就是为了加速词项字典检索的一种数据结构，落地文件为.tip。.tip文件和.tim文件的数据结构如下图所示：
词项索引和词项字典的文件结构
Lucene中通过FST Index信息来读取当前域在索引文件.tim的具体信息，而同一个索引所有域的FSTIndex都被连续的写入在同一个.tip文件中，所以就需要indexStartFP 来索引 FSTIndex。

FSTIndex底层是一个字节数组，存储了每个Block在.tim中的起始位置，如上图所示，Block f和Block g对应的Block分别被保存在了.tim文件的Block 0和Block 1的位置。

每个Block内部又保存了Block Header、Suffix和Stats信息以及Metadatas信息，其中Block Header中存储了当前Block中的Pending Block和Pending Term的总计数，也就是EntryCount，Sufix则是保存了当前Block后缀的个数以及分别是什么，如block b的SufixLength=2，为f、g。Stats则保存了当前Term的词频和文档频率，参见org.apache.lucene.index.TermsEnum.TermStats。

其中docFreq为包含当前Term的doc数量，totalTermFreq为当前term在所有文档中的当前字段中出现的总次数，但实际保存的是和docFreq的差值，这也是遵循通用最小化算法的法则表现。需要注意的是，两者均是指在同一个域内的计数。Metadatas这里不着重介绍。

关于倒排表的文件结构，我们仅需知道其内部存储了包含Term的id数组、词频、postion、payload、offset等信息，需要重点注意的是ES内部采用怎样的压缩算法。这一点在下一节内容展开来讲。