B-Tree

最新推荐文章于 2024-01-20 10:56:12 发布

Summer_ZJU

最新推荐文章于 2024-01-20 10:56:12 发布

阅读量1k

点赞数

分类专栏：【Data Structure】数据结构与算法

本文链接：https://blog.csdn.net/xiaqunfeng123/article/details/24478123

版权

数据结构与算法同时被 2 个专栏收录

25 篇文章 2 订阅

订阅专栏

【Data Structure】

21 篇文章 0 订阅

订阅专栏

先引用一段wiki上B-Tree的定义：http://en.wikipedia.org/wiki/Btree#Technical_description

Definition[edit]

According to Knuth's definition, a B-tree of order m is a tree which satisfies the following properties:

Every node has at most m children.
Every non-leaf node (except root) has at least ⌈^m⁄₂⌉ children.
The root has at least two children if it is not a leaf node.
A non-leaf node with k children contains k−1 keys.
All leaves appear in the same level, and internal vertices carry no information.

Each internal node’s keys act as separation values which divide its subtrees. For example, if an internal node has 3 child nodes (or subtrees) then it must have 2 keys: a₁ and a₂. All values in the leftmost subtree will be less than a₁, all values in the middle subtree will be between a₁ and a₂, and all values in the rightmost subtree will be greater than a₂.

书上的定义：一棵m阶B书是一棵m叉查找树，或者为空树，或者满足如下性质：

1、根节点至少有2个子女；

2、除根节点和失败节点以外，所有节点至少有⌈^m⁄₂⌉（向上取整）个子女；

3、所有失败节点都处于同一层次；——也就是叶子节点，每个结点中还应包含指向每个关键字的记录的指针

4、有 j 个孩子的非叶子节点有 j-1 个关键码，且关键码按递增排列；

5、假设具有如下结构：n, A0, ( K1, A1 ), ( K2, A2 ), ……, ( Kn, An )

其中Ai 是指向子树的指针，Ki是关键码，Ki< Ki+1

则在子树 Ai 中所有的关键码都小于Ki+1，且大于Ki；在子树 An 中所有的关键码都大于Kn；在子树 A0 中的所有关键码都小于K1。

高度h与关键码个数 N 之间的关系：

设在 m 阶B-树中，失败结点位于第 h +1层。

从B-树的定义知,

1层 1个结点

2层至少 2个结点

3层至少 2 ⌈^m⁄₂⌉结点

4层至少 2⌈^m⁄₂⌉^2 个结点

如此类推，

h层至少有2 ⌈^m⁄₂⌉^(h-2)个结点。所有这些结点都不是失败结点。

若树中关键码有 N 个, 则失败结点数为 N +1

N +1 = 失败结点数= 位于第 h+1 层的结点数>=2⌈^m⁄₂⌉^(h-1)

N>=2⌈^m⁄₂⌉^(h-1)-1;

关于m的选择：

1、如果提高B-树的阶数 m，可以减少树的高度，从而减少读入结点的次数，因而可减少读磁盘的次数。

2、事实上，m 受到内存可使用空间的限制。当 m很大超出内存工作区容量时，结点不能一次读入到内存，增加了读盘次数，也增加了结点内查找的难度。

B树的搜索

从root出发，对每个节点，找到大于或等于target关键字中最小的K[i]，如果K[i]与target相等，则查找成功；否则在P[i]中递归搜索target，直到到达叶子节点，如仍未找到则说明关键字不在B树中，查找失败。

B树的插入

B树的插入需要沿着搜索的路径从root一直到叶节点，根据B树的规则，每个节点的关键字个数在[t-1, 2t-1]之间，故当target要加入到某个叶子时，如果该叶子节点已经有2t-1个关键字，则再加入target就违反了B树的定义，这时就需要对该叶子节点进行分裂，将叶子以中间节点为界，分成两个包含t-1个关键字的子节点，同时把中间节点提升到该叶子的父节点中，如果这样使得父节点的关键字个数超过2t-1，则要继续向上分裂，直到根节点，根节点的分裂会使得树加高一层。

上面的过程需要回溯，那么能否从根下降到叶节点后不回溯就能完成节点的插入呢？答案是肯定的，核心思想就是未雨绸缪，在下降的过程中，一旦遇到已满的节点（关键字个数为2t-1），就就对该节点进行分裂，这样就保证在叶子节点需要分裂时，其父节点一定是非满的，从而不需要再向上回溯。

B树的删除

在删除B树节点时，为了避免回溯，当遇到需要合并的节点时就立即执行合并，B树的删除算法如下：从root向叶子节点按照search规律遍历：

（1）如果target在叶节点x中，则直接从x中删除target，情况（2）和（3）会保证当再叶子节点找到target时，肯定能借节点或合并成功而不会引起父节点的关键字个数少于t-1。

（2）如果target在分支节点x中：

（a）如果x的左分支节点y至少包含t个关键字，则找出y的最右的关键字prev，并替换target，并在y中递归删除prev。

（b）如果x的右分支节点z至少包含t个关键字，则找出z的最左的关键字next，并替换target，并在z中递归删除next。

（c）否则，如果y和z都只有t-1个关键字，则将targe与z合并到y中，使得y有2t-1个关键字，再从y中递归删除target。

（3）如果关键字不在分支节点x中，则必然在x的某个分支节点p[i]中，如果p[i]节点只有t-1个关键字。

（a）如果p[i-1]拥有至少t个关键字，则将x的某个关键字降至p[i]中，将p[i-1]的最大节点上升至x中。

（b）如果p[i+1]拥有至少t个关键字，则将x个某个关键字降至p[i]中，将p[i+1]的最小关键字上升至x个。

（c）如果p[i-1]与p[i+1]都拥有t-1个关键字，则将p[i]与其中一个兄弟合并，将x的一个关键字降至合并的节点中，成为中间关键字。

详细的插入删除操作图可以参考：http://blog.csdn.net/v_july_v/article/details/6735293

B+树：

与B树在实现上大致与B树类似，在几个细节稍有不同。

（1）有n 棵子树的结点中含有n 个关键码；
（2）所有的叶子结点中包含了全部关键码的信息，及指向含有这些关键码记录的指针，且叶子结点本身依关键码的大小自小而大的顺序链接。
（3）所有的非终端结点可以看成是索引部分，结点中仅含有其子树根结点中最大（或最小）关键码。

（4）叶子节点处中增加prev，next指针，用于将叶子节点串成有序双向链表。

（5）在节点分裂的时候，如果分裂的节点为叶子，则需要把中间节点保留在左(或右)边的分支上，并且需要更新prev和next。

（6）在节点合的时候，如果合并的节点为叶子，不需要把跟节点下降为中间节点，并且需要更新prev和next。

（7）在向邻接节点借节点时，借来的关键字并不是父节点的关键字，而是邻接点的关键字，并根据实际情况更新父节点的索引。

在数据库索引MYSQL中的应用

一般来说， MySQL 中的 B-Tree 索引的物理文件大多都是以 Balance Tree 的结构来存储的，也就是所有实际需要的数据都存放于 Tree 的 Leaf Node(叶子节点) ，而且到任何一个 Leaf Node 的最短路径的长度都是完全相同的，所以我们大家都称之为 B-Tree 索引。当然，可能各种数据库（或 MySQL 的各种存储引擎）在存放自己的 B-Tree 索引的时候会对存储结构稍作改造。如 Innodb 存储引擎的 B-Tree 索引实际使用的存储结构实际上是 B+Tree，也就是在 B-Tree 数据结构的基础上做了很小的改造，在每一个Leaf Node 上面出了存放索引键的相关信息之外，还存储了指向与该 Leaf Node 相邻的后一个 LeafNode 的指针信息（增加了顺序访问指针），这主要是为了加快检索多个相邻 Leaf Node 的效率考虑。

在数据库索引的应用中，B+树按照下列方式进行组织：

① 叶结点的组织方式。B+树的查找键是数据文件的主键，且索引是稠密的。也就是说，叶结点中为数据文件的第一个记录设有一个键、指针对，该数据文件可以按主键排序，也可以不按主键排序；数据文件按主键排序，且 B +树是稀疏索引，在叶结点中为数据文件的每一个块设有一个键、指针对；数据文件不按键属性排序，且该属性是 B +树的查找键，叶结点中为数据文件里出现的每个属性K设有一个键、指针对，其中指针执行排序键值为 K的记录中的第一个。

② 非叶结点的组织方式。B+树中的非叶结点形成了叶结点上的一个多级稀疏索引。每个非叶结点中至少有ceil( m/2 ) 个指针，至多有 m 个指针。