B+树是基于B-树一种变体,有着比B-树更高的查询性能
一颗经典的B树
从上面可以看出B树的一些经典的特征:
-
每一个父节点的元素都出现在子节点中,并且是子节点的最大(或者最小)元素
需要注意的是,根节点的最大元素(这里是15)也是整个B+树的最大元素。以后无论插入删除多少元素,始终要保持最大元素在根节点当中 -
至于叶子节点,由于父节点的元素都出现在子节点中,因此所有叶子节点包含了全部元素的信息,并且每一个叶子节点都带有指向下一个节点的指针,形成了一个有序链表
换句话说就是:所有的叶子节点中包含了全部元素的信息,以及指向含这些元素记录的指针,而且叶子节点本身依据关键字的大小自小到大顺序链接
-
有 k 个子树的中间节点包含有 k 个元素(B 树中是 k-1 个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
卫星数据的位置:
-
所谓卫星数据,指的是索引元素所指向的数据记录,比如数据库中的某一行。
-
在B-树中,无论中间节点还是叶子节点都带有微型数据
-
在B+树中,只有叶子节点带有卫星数据,其余中间节点仅仅是索引,没有任何数据关联
ps:在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针
B+树的卫星数据为什么要这样设计
对于查询单个数据:
- B+树的中间节点没有卫星数据,所以同样大小的磁盘叶可以容纳更多的节点数据,这意味着,数据量相同的情况下,B+树的结构比B-树更加“矮胖”,因此查询时IO次数也更少
- B+树的查询必须最终查找到叶子节点,而B-树只要找到匹配元素即可,无论匹配元素处于中间节点还是叶子节点。因此,B-树的查找性能并不稳定,而B-树的每一次查找都是稳定的
对于查询某个范围
B+树多用于数据库中的索引。
- 在数据库中select常常不只是查询一条记录,常常要查询多条记录。比如:按照id的排序的后10条。如果是多条的话,B树需要做中序遍历,可能要跨层访问。而B+树由于所有数据都在叶子结点,不用跨层,同时由于有链表结构,只需要找到首尾,通过链表就能够把所有数据取出来了。
- B-树的范围查找过程
- B+树的范围查找过程