B树和B+树作为索引的结构

xinyihhh

已于 2022-04-05 20:47:58 修改

阅读量273

点赞数 1

文章标签： mysql

于 2022-03-06 11:08:13 首次发布

原文链接：https://www.cnblogs.com/cangqinglang/p/15042752.html

版权

本文深入解析B+树数据结构，重点阐述其在数据库索引中的应用。B+树相比于B树的优势在于减少磁盘访问，优化范围查找。在MySQL中，B+树索引用于聚集索引，使得范围查询和排序变得高效。查找过程涉及内存与磁盘交互，通过指针定位数据。B+树的叶子节点存储所有数据，形成有序链表，便于连续数据的遍历。

摘要由CSDN通过智能技术生成

用树这种数据结构作为索引的数据结构，那我们每查找一次数据就需要从磁盘中读取一个节点，也就是我们说的一个磁盘块，每个磁盘块称为一页。B、B+都是平衡多路查找树

根节点至少有两个子节点
每个中间节点都包含k-1个元素和k个孩子，其中 m/2 ≤ k ≤ m （m为树的阶）
每个叶子节点都包含k-1个元素，其中 m/2 ≤ k ≤ m （m为树的阶）
每个节点中的元素从小到大排列，节点当中k-1个元素正好是k个孩子包含的元素的值域划分（一个结点有k个孩子时，必有k-1个元素才能将子树中所有元素划分为k个子集）

B+树是B树的一种变形体，它与B树的差异在于：

B+树和B树的不同点：

在数据库中页的大小是固定的（如InnoDB存储引擎的最小储存单元——页（Page），一个页的大小是16K）；由于B+树的非叶子节点不存放实际的数据，所以每个节点可容纳的元素个数比B-树多，树高比B-树小，这样带来的好处是减少磁盘访问次数
因为 B+ 树索引的所有数据均存储在叶子节点，而且数据是按照顺序排列的。那么 B+ 树使得范围查找，排序查找，分组查找以及去重查找变得异常简单。而 B 树因为数据分散在各个节点，要实现这一点是很不容易的。

还是这张 B+ 树索引图，现在我们应该知道这就是聚集索引，表中的数据存储在其中。

现在假设我们要查找 id>=18 并且 id<40 的用户数据。对应的 sql 语句为：

select * from user where id>=18 and id <40

其中 id 为主键，具体的查找过程如下：

①一般根节点都是常驻内存的，也就是说页 1 已经在内存中了，此时不需要到磁盘中读取数据，直接从内存中读取即可。

从内存中读取到页 1，要查找这个 id>=18 and id <40 或者范围值，我们首先需要找到 id=18 的键值。

从页 1 中我们可以找到键值 18，此时我们需要根据指针 p2，定位到页 3。

②要从页 3 中查找数据，我们就需要拿着 p2 指针去磁盘中进行读取页 3。

从磁盘中读取页 3 后将页 3 放入内存中，然后进行查找，我们可以找到键值 18，然后再拿到页 3 中的指针 p1，定位到页 8。

③同样的页 8 页不在内存中，我们需要再去磁盘中将页 8 读取到内存中。

将页 8 读取到内存中后。因为页中的数据是链表进行连接的，而且键值是按照顺序存放的，此时可以根据二分查找法定位到键值 18。

此时因为已经到数据页了，此时我们已经找到一条满足条件的数据了，就是键值 18 对应的数据。

因为是范围查找，而且此时所有的数据又都存在叶子节点，并且是有序排列的，那么我们就可以对页 8 中的键值依次进行遍历查找并匹配满足条件的数据。

我们可以一直找到键值为 22 的数据，然后页 8 中就没有数据了，此时我们需要拿着页 8 中的 p 指针去读取页 9 中的数据。

④因为页 9 不在内存中，就又会加载页 9 到内存中，并通过和页 8 中一样的方式进行数据的查找，直到将页 12 加载到内存中，发现 41 大于 40，此时不满足条件。那么查找到此终止。

关注