什么是倒排表（倒排索引）

最新推荐文章于 2024-09-15 21:19:56 发布

BearPot

最新推荐文章于 2024-09-15 21:19:56 发布

阅读量2.7k

点赞数 2

分类专栏： # MySQL Go 文章标签： mysql

csdn-@oorik/大臣

本文链接：https://blog.csdn.net/weixin_51609435/article/details/128730925

版权

MySQL 同时被 2 个专栏收录

7 篇文章

订阅专栏

3 篇文章

订阅专栏

这种搜索引擎的实现常常用的就是倒排的技术

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象，相比网页来说，涵盖更多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档。再比如一封邮件，一条短信，一条微博也可以称之为文档。在本书后续内容，很多情况下会使用文档来表征文本信息。

索引库(Index): 若干个文档的合集.

词条:原始文档数据按照一定的算法进行分词,得到的每一个词.例如:我是中国人.其中就有中国,中国人等等.未来可以通过这些分词后的词条,来索引到文档.

所以可以这么回答面试官:所谓的倒排索引,就是将原始的文档进行编号,创建文档索引,形成文档列表.然后对文档进行分词,得到词条.再对词条进行编号,并以词条创建索引.然后记录下包含该词条的所有文档编号.(单个分词映射到对应的若干个文档,所有分词和文档映射关系组合起来的就是倒排列表,辅助理解,不用说出). 未来搜索时,就可以通过对搜索关键字的分词,然后找到索引库中对应的文档,这就是倒排索引的原理.

以上转自：面试时被问到倒排索引是什么该如何快速明了的回答

我用图来解释一下倒排表的实现过程：

倒排索引是目前搜索引擎公司对搜索引擎最常用的存储方式，也是搜索引擎的核心内容，在搜索引擎的实际应用中，有时需要按照关键字的某些值查找记录，所以是按照关键字建立索引，这个索引就被称为倒排索引。

首先要明确，索引这东西，一般是用于提高查询效率的。举个最简单的例子，已知有5个文本文件，需要我们去查某个单词位于哪个文本文件中，最直观的做法就是挨个加载每个文本文件中的单词到内存中，然后用for循环遍历一遍数组，直到找到这个单词。这种做法就是正向索引的思路。

百度搜索的话这个文档件的个数可想而知

举个例子：

D1：Hello, conan!

D2：Hello, hattori!

第一步，找到所有的单词

Hello、conan、hattori

第二步，找到包含这些单词的文本位置

Hello（D1，D2）

conan（D1）

hattori（D2）

我们将单词作为Hash表的Key，将所在的文本位置作为Hash表的Value保存起来。

当我们要查询某个单词的所在位置时，只需要根据这张Hash表就可以迅速的找到目标文档。

结合之前的说的正向索引，不难发现。正向索引是通过文档去查找单词，反向索引则是通过单词去查找文档。

倒排索引的优点还包括在处理复杂的多关键字查询时，可在倒排表中先完成查询的并、交等逻辑运算，得到结果后再对记录进行存取，这样把对文档的查询转换为地址集合的运算，从而提高查找速度。

博客等级

码龄5年

后端领域优质创作者

227
原创

3718
点赞

9443
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

Linux 付费 19篇
数据结构与算法付费 20篇
现代C++ 6篇
C++11 12篇
C++ 26篇
STL 19篇
Python 10篇
Qt 7篇
Go 3篇
经典150题 1篇
C 25篇
Redis 2篇
Java 2篇
设计模式 4篇
谭浩强c语言程序设计第四版 8篇
project问题 8篇
优秀源码 4篇
杂谈 28篇
git 6篇
MySQL 7篇
数据库 1篇
网络 12篇
大臣的刷题日志 43篇

最新评论

堆排序详细图解（通俗易懂）
mikey桑: 堆排序不稳定
堆排序详细图解（通俗易懂）
2301_79517074: 中间写差了吧，堆排序是稳定的排序算法
fork函数详解
OLDTNT: 我想问一下，如果连续给出三个fork()函数，生成的进程家族树应该怎么画啊我之前没学过fork函数
fork函数详解
子午~: 缓冲区不是共用的，只是子进程会复制父进程的缓冲区
堆排序详细图解（通俗易懂）
selfboot0: 还看不懂的话，可以来[堆可视化页面](https://gallery.selfboot.cn/zh/algorithms/heap)看下动画演示吧。提供了多种堆操作的可视化演示。你可以通过界面上的切换按钮在大根堆和小根堆之间自由切换，切换时系统会**自动重新构建整个堆结构**。在输入框中输入数字并点击"插入节点"按钮，可以观察新节点如何通过上浮（heapify up）操作找到其正确位置。当点击"删除根节点"按钮时，你将看到堆顶元素被移除，以及最后一个节点如何通过下沉（heapify down）操作重建堆的平衡。删除的节点会在右侧短暂显示，随后会消失。此外，页面还提供了随机初始化功能，可以快速生成一个包含10到50个随机数值的新堆，方便进行各种测试和观察。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BearPot 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。