ADT 随笔 b树

肯尼思布赖恩埃德蒙

已于 2022-04-07 15:17:20 修改

阅读量1.7k

点赞数 1

分类专栏：数据结构文章标签： b树 mysql 数据结构

于 2021-11-13 10:38:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43638238/article/details/121301095

版权

面试同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

0. 希望后面可以写一些有趣的代码

MySQL&B树&B+树

MySQL索引&物理存储

《数据结构与算法分析(Java语言描述) 第三版》第4章树 4.7 B树

1.索引的物理存储

几种最小存储单元：
请添加图片描述

磁盘IO=寻道+旋转：
请添加图片描述

内存IO基于电位的特性
	物理层面来看，像是在一块二维空间中寻址
	效率之高，几乎可以说是线性的
		两次读取可以不考虑之间的"距离"，即两块物理地址之间的连续性

磁盘IO主要依赖于机械运动(寻道+旋转)
	寻道：移动磁头到指定的物理空间(一片磁盘的某一个同心环)，相对来说，这个过程比较耗费时间
	旋转：旋转该片磁盘以读取一段连续的存储空间(同心环中的某一段扇区，也是磁盘IO最小存储单元)，相对来说是非常快的

最小存储单元
	物理层面：
		计算机存储：扇区
	逻辑层面：	
		InnoDB存储引擎：页page
		文件系统（例如XFS/EXT4）:块block
	虽然以上的字节大小不尽相同，但实际的数据交换时并不冲突
		举个栗子：硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块，每个存储块称为一页（所以IO一次就是读一页的大小）
	
索引文件的体积很大&内存IO的效率是远高于磁盘IO的
	索引文件存储在磁盘中
	需要使用到的索引从磁盘中按页读取并缓存到内存中
		预读=>磁盘IO的局部性原理：如果一个存储器的某个位置被访问，那么将它附近的位置也会被访问

2. 快速索引的瓶颈——磁盘IO

一般而言内存访问的时间约为 50 ns，而磁盘在 10 ms 左右。速度相差了近 5 个数量级，磁盘读取时间远远超过了数据在内存中比较的时间。这说明程序大部分时间会阻塞在磁盘 IO 上。

因此，我们需要一种可以迎合磁盘顺序存储、局部读取特征的数据结构来存储索引

从性能的代价角度出发：处理器的计算代价远比磁盘IO来的小的多=>可以尝试更多计算，从而减少磁盘IO次数=>增加树的分支，减少树的高度=>而又因为磁盘按页进行数据交换=>增加树节点上的索引个数(节点中索引当然也是连续的，这就不解释了)

2. 为什么不是AVL?

最主要的，树深度太大，没有充分利用磁盘读取的局部性，将招致非常糟糕的磁盘IO次数，不适合磁盘IO的特征

平衡二叉树是通过旋转来保持平衡的，而旋转是对整棵树的操作，若部分加载到内存中则无法完成旋转操作

3.为什么是b树？

B-树每次将范围分割为多个区间，区间越多，定位数据越快越精确。那么如果节点为区间范围，每个节点就较大了

多叉的好处非常明显，有效的降低了B-树的高度，为底数很大的 log n

3.1 b- 树

请添加图片描述

3.2 b+ 树

作为许多数据库默认的索引策略，相比较b-树，针对磁盘IO次数做了更多思考和优化

请添加图片描述

内节点并不存储 data，所以一般B+树的叶节点和内节点大小不同，而B-树的每个节点大小一般是相同的，为一页(这样一来，可以有效减少磁盘IO)。

由于B+树的叶子节点的数据都是使用链表连接起来的，而且他们在磁盘里是顺序存储的，所以当读到某个值的时候，磁盘预读原理就会提前把这些数据都读进内存，使得范围查询和排序都很快

B+树只有叶子节点存data，非叶子节点都只是索引值（算法书上也叫"关键字"），没有实际的数据，这就时B+树在一次IO里面，能读出的索引值更多。从而减少查询时候需要的IO次数

3.2.1 插入

如上所述，操作的节点数可以等同于磁盘IO次数

考虑叶子节点最大的字节空间，可能出现节点分裂的情况，详见算法书，书里有图，非常简单，这里就不放了，脑补即可

如果父节点允许再插入一个叶子节点，那么将额外多出2此磁盘写

如果父节点已经"装满"了，那么父节点将分裂，这将带来额外的a次磁盘写(a=父节点最大叶子节点数)，并将更新这两个父节点及其叶子节点的值

如果父节点的父亲也不能再容许更多的儿子节点，那么树高度+1

3.2.2 删除

同理，删除最小值，兄弟叶子节点则“领养”其叶子结点的值，并更新

如果父节点没有叶子了，则树高度-1

肯尼思布赖恩埃德蒙

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ADT 随笔 b树

0. 希望后面可以写有一些有趣的代码MySQL&B树&B+树《数据结构与算法分析(Java语言描述) 第三版》第4章树 4.7 B树
复制链接

扫一扫

专栏目录

肯尼思布赖恩埃德蒙 CSDN认证博客专家 CSDN认证企业博客

码龄6年

256: 原创

23万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

2773: 积分

320: 粉丝

75: 获赞

14: 评论

111: 收藏

私信

关注

热门文章

分类专栏

spring 39篇
documents 8篇
pajamas 2篇
开发工具 20篇
中间件 10篇
并发 36篇
Java 25篇
设计思想 4篇
分布式 14篇
协议 8篇
操作系统 7篇
计算机 3篇
SQL 13篇
算法 3篇
Dhtml 24篇
jvm 2篇
数据结构 2篇
支线任务 5篇
javaweb 4篇
蓝桥 58篇
经典模型 2篇
javase 1篇

最新评论

Spring boot 随笔 1 DatasourceInitializer
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
【读后感】Java Concurrency in Practice：6.取消与关闭
肯尼思布赖恩埃德蒙: 表达的过于随意了，看书的过程中留下来的备注，是挺抽象的。。。产、消者的数量较大的时候，仅在无界队列中，才能可靠的工作的原因是：无法预知这个数量到底有"多大"；而毒丸对象使用的队列(BlockingQueue)有界时，就注定会受到这个队列长度的限制；那么一旦关闭服务所需要的毒丸数量超过了队列长度，那么队列就会无法继续添加(queue.put())毒丸；最终导致未提交毒丸对象的生产者阻塞，服务无法在我们预期的时间内完成关闭
【读后感】Java Concurrency in Practice：6.取消与关闭
qq_42316947: “有界队列可能因为阻塞而错过”，这个解释没太明白，为啥阻塞就有可能错过呢，可以麻烦解一下惑吗
网络随笔 0-ISO模型 & 硬件设备
Passerby_Wang: 写得也太详细了吧，学到了好多也欢迎博主来我这里指点一二呀
蓝桥杯 18总决赛 B4 整理玩具(dfs/无dfs)
选择性失忆！17: 大佬，想问一下：可以这样想吗？把每一行数想为字符串，直接排序和原字符串比较不相等就为no，else为yes

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

肯尼思布赖恩埃德蒙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。