1.B树
又叫二叉查询树/二叉搜索树
特点:
- 每个节点最多两个孩子。
- 所有节点都是一个关键字。
- 左孩子<根<右孩子
搜索过程
从根开始,相等就结束,小于根就向左子树寻找,否则向右子树查找。
性能:
逼近二分查找,相比于二分查找的优点是,改变B树的结构时(插入或删除节点时)不需要移动大量的内存数据,甚至通常是常数开销。
但是进故宫多次插入与删除后,有可能导致一种不好的情况,如图:
这样就相当于线性操作了,这会使性能降低。因此要考虑树要保持平衡的问题。那么就提出了B-树。
2.B-树
特点:
- 所有的每个节点最多m个孩子。(m>=2)
- 是一个多路搜索树(m阶)m—非叶子节点中最多的孩子个数
- 根的孩子范围为[2,m].
- 出根以外,非叶子节点的孩子个数范围为[m/2,m]。(m/2取上限)
- 每个节点包含的关键字个数为[m/2-1,m-1]。(至少两个关键字)
- 非叶子节点的关键字个数=所包含的指向孩子的指针数-1
- 非叶子结点的关键字:K[1], K[2], …, K[M-1];且K[i] < K[i+1];
- 非叶子节点的指针:P[1], P[2], …, P[M];其中P[1]指向关键字小于K[1]的
子树,P[M]指向关键字大于K[M-1]的子树,其它P[i]指向关键字属于(K[i-1], K[i])的子树; - 所有的叶子节点都在同一层。
搜索过程:
B-的搜索,从根节点开始,对节点内的关键字(有序)序列进行二分查找,如果命中就结束。
否则进入查找关键字所属范围的孩子节点;重复这两部操作,直到所对应的的指针是空的,或者已经到叶子节点。就代表不存在做查找的数据。
1)节点内关键字是二分查找
2)进入查找关键字所属范围的孩子继续查找。
插入和删除过程
插入一个数据(关键字)时:当一个节点满了,分配一个新的节点,将原来的节点中1/2的数据复制给这个新节点,最后父节点中增加新节点的指针。
删除一个数据(关键字)时:需将两个不足m/2的兄弟节点合并,修改父节点的指针范围。
性能
B-树的性能总是等价于二分查找(与M值无关),也就没有B树平衡的问题;
特性
- 关键字集合分布在整棵树中。
- 任何一个关键字出现且只出现在一个节点中
- 搜索有可能在非叶子结束。
- 搜索性能等价于关键字全集内做一次二分查找。
- 自动层次控制;
由于限制了除根结点以外的非叶子结点,至少含有M/2个儿子,确保了结点的至少
利用率,其最底搜索性能为:O(logN)(以2为底)
3.B+树
特点
- 是B-树的变体,也是一种多路搜索树。
- 其定义基本与B-树相同,
1)所有的每个节点最多m个孩子。(m>=2)
2)根的孩子范围为[2,m].
3)根以外,非叶子节点的孩子个数范围为[m/2,m]。(m/2取上限)
4)非叶子结点的关键字:K[1], K[2], …, K[M-1];且K[i] < K[i+1];
5)所有的叶子节点都在同一层。
除了: - 非叶子节点的字数指针数=关键字个数。
- 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树
(B-树是开区间); - 为所有叶子结点增加一个链指针
- 所有关键字都在叶子结点出现;
B-树和B+树的区别
不同: B+树只有达到叶子节点才能命中
B-树可以再非叶子节点
相同:性能都是相当于在关键字全集做一次二叉查找。
性能
相当于在关键字全集做一次二叉查找。
特性
- 所有的关键字出现在哎叶子节点的链表中(稠密索引),且链表中的关键字恰好是有序。
- 不可能在非叶子节点命中。
- 非叶子节点相当于叶子节点的做引(稀疏索引),叶子节点相当于是存储(关键字)数据的数据层。
- 更适合文件索引系统。
4.B*树
在B+树的基础上,每个节点加入指向兄弟节点的指针。
B*树和B+树的区别
区别:
- B+树的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据
复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父
结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针;
- B树的分裂:当一个节点满时,如果它的下一个兄弟节点未满,那么将一部分数据移到兄弟节点,再在原来节点中插入关键字,最后修改父节点中兄弟节点的关键字(因为兄弟节点的关键字范围改变了);如果兄弟满了,则在源节点芋兄弟之间增加新节点,并各复制1/3的数据到新节点,最后在父节点增加新节点的指针;B树分配新结点的概率比B+树要低,空间使用率更高;
性能
B*树定义了非叶子节点关键字个数至少为(2/3)m,即块的最低使用率是2/3.
总结:B树、B-树、B+树、B*树
B树:每个节点只存储一个关键字,等于则命中,否则在自己左右孩子中查找。但是存在树的平衡问题。
B-树:多路搜索树,每个节点存储[m/2-1,m-1]个关键字,非叶子节点存储指向关键字范围的子节点的指针。
B+树:在B-树基础上,为叶子节点增加链表指针,所有关键字都在叶子节点出现,费叶子及诶点是叶子节点的索引,B+树总是在叶子节点中命中。
B*树:在B+树基础上,为非叶子金额带你也增加指向兄弟的指针,将节点的最低利用率从1/2提高到2/3。
应用场景(数据库中的索引)
相比于B-树B+树更加适合用来做存储索引,好处如下:
- B+树的磁盘读写代价更低。
- B+树的查询效率更加稳定。
- B+树更有利于对数据库的扫描。
针对索引的应用场景要记住几点: - 内部节点 存储的不是数据,只存放索引信息。减少了IO次数。
- 非叶子节点不存储数据,所以每次查询都要走一条根到叶子节点的道路,保证每次查询的效率是一样的。
- 只需要对叶子节点的遍历就可以完成对全部节点的扫描,适用于数据库中频繁使用的范围查询。(因为叶子节点之间有链接)
出自https://www.jianshu.com/p/332caf8bed3a
红黑树
平衡二叉查找树
特点
- 根一定是黑。
- 节点非黑即红。
- 红结点的孩子都是黑色的。
- 叶节点都是黑色的空节点。
- 任意节点到其每个叶子节点路径上的黑色节点的个数都是一样的。
红黑树和B树的应用场景的区别
相同:都是有序数据结构,可用作数据容器
不同:
- 红黑树多用在内部排序,即全放在内存中的,微软STL的map和set的内部实现就是红黑树。
- B树多用在内存里放不下,大部分数据存储在外存上时。因为B树层数少,因此可以确保每次操作,读取磁盘的次数尽可能的少。
因此,在数据较小,可以完全放到内存中时,红黑树的时间复杂度比B树低。反之,数据量较大,外存中占主要部分时,B树因其读磁盘次数少,而具有更快的速度。