二叉树和数据库索引

二叉树:左节点<根节点,右节点>根节点,没有键值相等的节点,二叉树效率取决于树的深度。普通二叉树有可能退化为线性链表。因此有了平衡二叉树来提高效率保证数据平衡的情况下查找数据的速度近于二分法查找;

平衡二叉树:左右子树高不超过1,所以在做增加删除操作,需要进行旋转来维护树的平衡(耗资源)。

 

红黑树:是二叉查找树,但是在每个节点增加了颜色值(red black)

  1. 每个节点非红即黑
  2. 根节点是黑的; 
  3. 每个叶节点(叶节点即树尾端NULL指针或NULL节点)都是黑的; 
  4. 如果一个节点是红的,那么它的两儿子都是黑的; 
  5. 对于任意节点而言,其到叶子点树NULL指针的每条路径都包含相同数目的黑节点;

我们知道链表的查询效率是O(n)。就像上面的例子,遍历了n次才找到第一条符合条件的记录,这是很低效的。而我们知道,数组+二分查找的效率是O(lgn),但是数组的插入元素以及删除元素的效率很低,因此使用数组做为索引结构并不合适。

红黑树这种结构,h明显要深的多。由于逻辑上很近的节点(父子)物理上可能很远,无法利用局部性,所以红黑树的I/O渐进复杂度也为O(h),效率明显比B-Tree差很多。

 

局部性原理与磁盘预读

由于存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,磁盘的存取速度往往是主存的几百分分之一,因此为了提高效率,要尽量减少磁盘I/O。为了达到这个目的,磁盘往往不是严格按需读取,而是每次都会预读,即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理: 
当一个数据被用到时,其附近的数据也通常会马上被使用。 
程序运行期间所需要的数据通常比较集中。 
由于磁盘顺序读取的效率很高(不需要寻道时间,只需很少的旋转时间),因此对于具有局部性的程序来说,预读可以提高I/O效率。

 

B树:有序数组+平衡多叉树; 
B+树:有序数组链表+平衡多叉树;

 

在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针,就形成了带有顺序访问指针的B+Tree。做这个优化的目的是为了提高区间访问的性能,例如图4中如果要查询key为从18到49的所有数据记录,当找到18后,只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点,极大提到了区间查询效率。

 

 

参考文章
1.MySQL索引背后的数据结构及算法原理(超赞的文章,2011年写的文章,厉害……) 
2.从B树、B+树、B*树谈到R 树(这篇文章作者也是好厉害,其博客访问量达千万) 
3.浅谈算法和数据结构: 十 平衡查找树之B树,而这篇博文里有B树和B+树插入元素的过程GIF图,超赞,有助于对B树和B+树的理解!
--------------------- 
作者:LLLLLLLLEE 
来源:CSDN 
原文:https://blog.csdn.net/weixin_30531261/article/details/79312676 
版权声明:本文为博主原创文章,转载请附上博文链接!

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值