【学习笔记】倒排索引简说


前言

倒排索引是在ES中问到的多,一般来说,面试官谈到ES时,面者就要详细讲述一下倒排索引及其原理。


一、倒排索引是什么?

顾名思义,正向索引的反转就是反向索引(倒排索引)。一般来说,正向索引是想找文档ID,然后找单词,而倒排索引是先找单词,再去找对饮文档和位置。

二、基本原理

倒排索引分为两部分:单词词典和倒排文件

1.单词词典

单词词典是文档集合中出现过的所有单词构成的集合,其中存放了单词的ID,单词内容以及单词所至指向的倒排列表的指针。

单词词典的可以由两种方式实现:哈希表+冲突链表、B(B+)树。

1.哈希表+链表

以哈希表为主体,每个节点存放指向冲突链表的指针,将哈希值一致的单词存放在一条冲突链表中。

2.B(B+)树

B树是另外一种高效查找结构,但是他要求字典进行排序(数字或字符序),而哈希表+链表不需要。
B树由层级查找结构,中间结点的作用是支出一定范围内的单词在哪个子树中,而叶子结点存放的是存储单词的地址信息,可以根据该信息找到单词的具体位置。

2.倒排文件

倒排索引的所有倒排列表往往顺序的存储在磁盘的某个文件中,该文件被称为倒排文件。倒排文件是存储倒排索引的物理文件。

倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值