前言
倒排索引是在ES中问到的多,一般来说,面试官谈到ES时,面者就要详细讲述一下倒排索引及其原理。
一、倒排索引是什么?
顾名思义,正向索引的反转就是反向索引(倒排索引)。一般来说,正向索引是想找文档ID,然后找单词,而倒排索引是先找单词,再去找对饮文档和位置。
二、基本原理
倒排索引分为两部分:单词词典和倒排文件
1.单词词典
单词词典是文档集合中出现过的所有单词构成的集合,其中存放了单词的ID,单词内容以及单词所至指向的倒排列表的指针。
单词词典的可以由两种方式实现:哈希表+冲突链表、B(B+)树。
1.哈希表+链表
以哈希表为主体,每个节点存放指向冲突链表的指针,将哈希值一致的单词存放在一条冲突链表中。
2.B(B+)树
B树是另外一种高效查找结构,但是他要求字典进行排序(数字或字符序),而哈希表+链表不需要。
B树由层级查找结构,中间结点的作用是支出一定范围内的单词在哪个子树中,而叶子结点存放的是存储单词的地址信息,可以根据该信息找到单词的具体位置。
2.倒排文件
倒排索引的所有倒排列表往往顺序的存储在磁盘的某个文件中,该文件被称为倒排文件。倒排文件是存储倒排索引的物理文件。
倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。