谈谈索引的底层原理

最新推荐文章于 2024-03-21 17:29:00 发布

超域

最新推荐文章于 2024-03-21 17:29:00 发布

阅读量1.8k

点赞数 3

分类专栏：数据库前端

本文链接：https://blog.csdn.net/weixin_43727372/article/details/105296448

版权

数据库前端专栏收录该内容

5 篇文章 0 订阅

订阅专栏

都知道数据库建立索引可以在一定程度上提高查询效率。

但是为什么呢？很多人并不知情。

索引使用原则网络上那么多条，如果要靠死记硬背，太生范，进而导致我们在使用的时候会感觉艰难，其实可以从底层原理上去理解这些规则。

首先我们要知道，查询是信息的获取。在获取信息的时候，我们有时候可以很容易获得，有时候却很难。比如，你想要知道一条绝密的信息，如果光是凭借你自己去寻找答案，可能会找到，但是需要花费你巨量的时间，但是若是有人之前已经花费过巨量时间从而得到了这个信息，记录了下来，你仅仅需要找到这个人即可。

索引其实就是这个人，他知道后将整个消息记录了下来，每次你想要获得信息的时候，找到他，他可以很快的告诉你。

多快呢？

可以将这个人想象成一个记忆无限大，并且过目不忘之人，他可以几乎瞬间告诉你任何信息。

在mysql底层这个速度可以达到千万比一的速度。

说了这么多，还是没说到底是如何实现的

首先来看着这样的一个东西，这是一棵树，按照规律进行排列组合成这样一颗二叉树，说到规律，既然有了规律，自然是有了有用的信息（混沌状态是没有任何信息的），而且这是人为地，我们可以将信息按此规律存储进去，自然也有办法将之提取出来。

在这个过程中，由于我们已经在过去的时间将有用的信息存储了起来，在未来我们想要获取信息，自然就会比混沌状态更加容易的得到信息。

这就是二叉树的哲学原理。

花费了过去的时间加上一些空间能够得到现在时间的减少，当然，处在物理世界，这自然也是符合物理学原理的，相对论，只不过此刻是空间过多地转化为时间

不过，我们mysql索引的底层，并没有这么简单！

很多小伙伴估计都知道，红黑树是二叉树的进化体，因为它具有一些二叉树没有的优点。

其实这就像是规律的综合，如果一种规律过于简单，那么自然就会导致好像没有规律，于是信息就相对来说没有那么多了，因为信息就是复杂的诞生物。

哎呦，忍不住扯淡了。

其实说白了，就是二叉树首先会瘸腿，这是这个规律的一些bug造成的(不清楚的小伙伴可以去万能的搜索引擎求助)，然后有了平衡二叉树，弥补了这个bug，这样就没有什么问题了。

然而.....

由于过于追求平衡，自然就会导致各种各样的问题，规律太死板的情况下，自然是没有什么好处的。具体到实际情况就是平衡二叉树维护起来更加消耗时间。

所以为了避免这种情况，就有了另一种规则，那就是红黑树，红黑树就是一种妥协，既然完全的平衡不好实现，那我们就退让一步，实现相对平衡，中庸之道的飞车飙到了极致，哈哈，开个玩笑，不过这确实是一种让步。

因此，一些牛逼的科学家就在理想与现实之间开始了挣扎，最终依靠强大的大脑，曲奇之中，红黑树之大法便生发了出来，顿时令世间其它大法销声匿迹。

到这里，真相大白。

索引的底层就是采用了红黑树的模型。

为什么说模型呢？

其实就是大概上采用的是红黑树的规律，但是具体的确是比这个要丰满的。

就像这样——

看到没，它不是一个节点存储一个东西，而是存储了两个，当然在我们索引的底层上也并不是两个，而是更多。不过，仔细观察，每一个节点和它的两个临近的子节点构成二叉树的结构

因为，内存区域是连续的，如果一个节点只是存储一条信息，那么未免就太浪费，所以，一个节点是存储多条信息，具体是多少，大家有兴趣可以自己算一算，大概一个节点占用16k的内存，每一个索引信息8B，外加上一个指针6B，就是14B

所以一个节点大概存储1170个吧

如果这棵树有三层，那么大概就是1170*1170*16

为什么最后一层说是16呢，因为在叶子结点中有数据存储（当然这是仅仅在innodb中，即聚簇索引），所以算做每一行数据为1K，那么大概，一棵树，就能够为两千多万个数据建立索引。

在查找两千多万的巨额信息中，我们只需要进行三次查找就可获得答案，你说，快不快！

大家还是忘了这个图吧，它不正规，来看下面这张(当然它还有个前辈BTree，需要得到前辈信息的自行修炼)

B+Tree

B+tree上存储是以Key-value的方式存储的，key就是索引建立的字段的值，value就是指针，即节点指向子节点的那个指针（存储着子节点的存储地址）。

每一个叶子结点没有指针（除了横向的指针），其中存储的是数据。

这个数据，在INNODB中（聚簇索引），就是我们真正的数据，因为聚簇索引的数据文件和索引文件是一体的，一句话说，INNODB存储数据的形式就是采用的是这样一棵树，并且每个节点的KEY就是表的主键，因此，INNODB必须要有主键，即使你不建立，它也会自动为你维护一个主键，不过，这个自动的主键你应该是看不到的

就像这样，哈哈

所以，对于innodb存储引擎来说，我们使用自增主键的效果就很明显了，由于数据库本身的数据结构是依靠着主键去进行构建的，因此，当我们使用在自增主键的时候，我们会发现事半功倍。

另外，由于整颗树的每一层是顺序构建的，当我们使用字符串来存储数据的时候，我们就会需要首先将字符串转化为ascll码值进行比较，这是不仅会再次消耗性能，而且当我们在插入一个字符串主键的时候，若是需要将当前字符串插入到已经之前的节点中，那么就需要巨大的的改动，因此会带来整体的数据迁移和结构重构，这样损失的性能是超级强大。

这种就是MYISAM存储引擎，大家可以看到叶子结点中存储的是一个地址，这个地址要去另外的文件中获取信息。由于数据和索引是分离的，因此，MYISAM成为非聚簇索引

超域

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
谈谈索引的底层原理

都知道数据库建立索引可以在一定程度上提高查询效率。但是为什么呢？很多人并不知情。索引使用原则网络上那么多条，如果要靠死记硬背，太生范，进而导致我们在使用的时候会感觉艰难，其实可以从底层原理上去理解这些规则。首先我们要知道，查询是信息的获取。在获取信息的时候，我们有时候可以很容易获得，有时候却很难。比如，你想要知道一条绝密的信息，如果光是凭借你自己去寻找答案，可能会找到，但是需要花费你巨...
复制链接

扫一扫