MySQL中的索引为什么使用B+tree实现?

16 篇文章 0 订阅
4 篇文章 0 订阅

我们都知道MySQL底层实现借助了B+Tree的数据结构。那么这是为什么呢?下面我将以二叉树->红黑树->B树->B+树的顺序从数据结构的优劣来讲解为什么会有这样的选择。

 

索引存在的意义

索引的建立是为了提高MySQL的检索速度,而提高这个检索速度的方法无非就是将要检索的数据组成更加利于增删改查操作的结构,从而从时间和空间上进行优化。

 

二叉搜索树

利用什么结构来实现索引?我想很多人第一个想到的就是二叉搜索树。如下图。左边是数据表,这里为col2列添加索引,如右边所示使用二叉搜索树实现。树的每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针。

 

对于普通的二叉搜索树,时间复杂度是其树高,比如说要查找77,查找路径为34->89->77。这看起来是一个不错的想法,然而当树极度倾斜的情况下它却会退化成一个链表,可以想象一下对col1添加这种索引的效果。

 

红黑树

为了让搜索树的结构不退化为链表,并尽量的保持左右高度差较小,二叉平衡树便出现了,而红黑树就是一个“近似平衡”的二叉树。它通过某些策略保证了树高,从而使时间复杂度维持在O(logn)。
那为什么这个结构也没有入选呢?这个就要考虑到数据库本身的量级,当数据量很大时,如果将索引存储在内存中,虽然访问速度快,但是占用的内存会非常多。因此常把索引存在磁盘中,然而这样的话每次访问节点就是一次IO操作,树的高度就相当于操作磁盘的次数,因此优化的重点就放在了如何减少IO操作次数即减少树的高度上。
那么为了尽量的减少这个树高,一种想法就是让树“多分叉”,分叉越多,树的高度自然就会降低。

 

B树

而B树就是这样一个平衡且多叉的结构。他的每个节点不再只存储一个数据,而是存储多个,如下图(其中data存储键值对应行的地址)。

 

  • 叶节点具有相同的深度,叶节点的指针为空

  • 所有索引元素不相同

  • 节点中的数据索引从左到右递增排列

 

我们可以通过对节点中存储值数量的控制来控制整个树高。
至此,上面所说的“硬性”问题差不多都已经解决了,但是本着追求极致的态度,我们要想办法进一步进行优化。

 

B+树

B+树是在B树基础上的改进,如下图:


 

他的改变包括如下几点:

  1. 非叶子节点不存储data,只存储索引
    我们想要每次加载进内存的节点尽可能的包含更多的索引,以使树的高度尽可能的低,但由于内存空间限制,节点中可放的内容也是有限制的,故B+树在B树的基础上去掉了data部分,以存储更多的索引。

  2. 叶子节点包含所有索引字段
    上面造成的结果。

  3. 叶子节点用指针
    如果没有叶子节点间的指针,当我们想要查找某个区间时,比如[20,50],我们需要先查询一遍20位置,再查询一遍49位置,才能把所有查询出来。叶子节点间指针的存在提高了区间访问效率。

 

顿悟ing

为什么InnoDB表必须有主键,并且推荐使用整型的自增主键?

  • 整型:容易比较排序形成B+树

  • 自增:每次在最后添加,避免B+树中间叶子节点再分裂导致的大量运算

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MySQL 使用 B-Tree 而不是 Hash 索引是因为 B-Tree 有许多优点。 1. 支持排序:B-Tree 索引可以支持排序,因此支持顺序查找。Hash 索引则不能支持排序,因此只支持随机查找。 2. 支持范围查询:B-Tree 索引可以支持范围查询,因此支持区间查询,而 Hash 索引则不能。 3. 支持分块查询:B-Tree 索引使用分块查询,因此可以支持大数据量的查询,而 Hash 索引则不能。 4. 支持磁盘存储:B-Tree 索引可以使用磁盘存储,因此占用内存较少,而 Hash 索引则需要使用内存,因此内存占用较多。 因此,B-Tree 索引比 Hash 索引更适合用于大数据量的数据库系统,特别是在排序和范围查询等方面。 ### 回答2: MySQL使用B-tree而不是Hash索引是为了更好地支持范围查询和排序操作。Hash索引是基于哈希算法的索引,它将索引值直接映射到哈希表的位置,可以实现非常快速的查找操作。但是,它并不适合处理范围查询和排序操作。 首先,Hash索引是无序的,无法支持范围查询。范围查询需要按一定的顺序访问索引的数据,而Hash索引无法提供这样的顺序。 其次,Hash索引在处理排序操作时效率较低。排序操作需要根据索引的数据值进行排序,但是Hash索引的数据值是无序的,因此需要额外的操作来实现排序。 而B-tree索引是一种平衡的树状数据结构,可以支持按范围查询和排序操作。B-tree索引索引值按顺序组织在树的节点,可以在树的节点之间进行高效的跳跃和遍历,从而实现快速的范围查询和排序操作。 此外,B-tree索引适用于磁盘存储,而不仅仅是内存存储。数据库的数据通常存储在磁盘上,而不是全部加载到内存。B-tree索引的结构特性能够适应磁盘存储的特点,减少磁盘IO次数,提高索引的检索效率。 综上所述,为了更好地支持范围查询和排序操作,并适应磁盘存储的特点,MySQL选择使用B-tree而不是Hash索引。 ### 回答3: MySQL索引使用B树而不是哈希的主要原因有三个。 首先,B树适合磁盘存储,而哈希适合内存存储。在磁盘上,数据是分块存储的,每个块可以容纳多个数据。B树的结构能够更有效地利用磁盘上的块,减少磁盘I/O次数,提高数据的读取效率。而哈希则不适合磁盘存储,因为哈希表需要一次完成整个表的读取,对于大型数据量的表来说,哈希表会导致大量的磁盘I/O,性能较差。 其次,B树适合范围查询,而哈希不适合。在MySQL,经常需要使用范围查询,如大于、小于、区间等。B树的有序特性使得范围查询非常高效,只需要遍历指定范围的节点即可。而哈希表的数据分布是随机的,无法提供有序性,无法高效地支持范围查询。 最后,B树支持数据的顺序访问,而哈希不支持。B树的左子树保存的是小于父节点的数据,右子树保存的是大于父节点的数据,这种有序性使得B树能够很好地支持数据的顺序访问。而哈希表的数据分布是随机的,无法提供有序性,不能有效地支持数据的顺序访问。 综上所述,由于MySQL索引需要适应磁盘存储、范围查询和数据的顺序访问,B树是一种更适合的数据结构,而哈希表在这些方面表现较差,因此MySQL索引选择使用B树而不是哈希。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值