1.二分搜索树
每个节点的键大于其的左子树的所有键,小于其右子树中的所有键。
允许将值存储在树中所有节点中,如果在更高的层上找到了搜索到的键,则搜索可能在到达树底部前终止。
1.1 树的平衡
平衡树:高度为log2N,左右子树高度差小于1,在添加或删除节点后执行旋转:如果插入操作使分支不平衡,可绕中间节点旋转树。
1.2 基于磁盘存储的树
在磁盘上维护二分搜索树的问题:
- 局部性(不能保证新创建的节点在其父节点附近写入,可能跨多个磁盘页)。
- 树高:树高是log2N,必须执行O(log2N)次查找来定位要搜索的元素,就要求执行相同数量的磁盘传输。
更适合磁盘实现的树必须具有的属性:高扇出(以改善邻近键的数据局部性),低高度(以减少遍历期间的寻道次数)。
2.B树的层次结构
B树 由 多个节点组成,每个节点最多N个键和N+1个指向子节点的指针。
- 扇出:存储在每个节点中键的个数。
- 减少寻道次数:在单个块或多个连续块中存储指向子节点的键和指针。
- 平衡操作:节点的分裂和合并(在节点已满或几乎为空时触发)。
B树可以在任意节点中存储值,B+树仅在叶节点中存储值 ,其内部节点仅存储分隔键,用于指引搜索算法找到叶子节点上的关联值。所有的操作仅影响叶节点,这些操作在分裂和合并期间才会传播到更高层。
3.分隔键
节点中的键(索引条目、分隔键、分隔符单元格)是有序的,可使用二分查找。查找算法定位一个键,并跟随相应的指针来找到一个子树。
每个键的左指针指向子树的键小于该键值,右指针指向子树的键大于等于该键值(Kleft<=Ks<=Kright)。
一些B树在叶子节点具有指向同级节点的指针,在叶子层会形成一个双向链表。
构建方式:自下而上。
4.B树查找复杂度
块传输的数量:每个节点键数为N,向下走一层,节点个数多K倍,跟随一个子指针可将搜索空间减少至1/N。查找一个搜索键最多寻址logKM(M是节点总数)。
B树时间复杂度一般计为logM。
5.B树查找算法
算法流程:从根节点开始,进行二分查找,找到大于要查找的键的第一个分隔键。沿着相应的指针向下,继续上述查找过程,直到叶节点,查找结束。
单点查询时,找到或找不到要查找的键便结束;范围查找时,迭代从找到的最近键值对开始,顺着同级指针继续移动,直到到达范围末尾或范围谓词用尽为止。
6.B树的节点分裂
节点分裂条件:
- 叶节点:节点最多可容纳N个键值对,且再插入一个键值对将使其超过最大容量N。
- 非叶节点:节点最多可容纳N+1个指针,且再插入一个指针将使其超过最大容量N+1。
分裂过程:
- 分配一个新节点。
- 将一半元素从分裂节点复制到新节点。
- 将新元素放入相应节点。
- 在分裂节点的父节点处,添加一个分隔仅和指向新节点的指针。
7.B树的节点合并
节点合并条件:
- 叶节点:节点最多可容纳N个键值对,且两个相邻节点中的键值对数和<=N。
- 非叶节点:节点可容纳最多N+1个指针,且两个相邻节点中指针数量之和<=N+1。
合并过程:
- 从右节点复制所有元素到左节点。
- 从父节点删除右节点指针(如果非叶子节点合并,则将此指针进行降级)。
- 删除右节点。