背景及意义
计算机处理器的高速处理、处理器的高速发展,主存的高速及瞬时特性(不能持久存储数据),硬盘的低速读写、与处理器及主存发展的不协调,导致在处理大量数据时,数据读写成为了性能瓶颈,势必要优化存储结构以提升数据读取效率。
发展由来
在平衡树(AVL)的基础上衍生,但B+树加大了每个节点的分支数量,大大减少了树的高度,使得读取key(索引)链路更短,减少磁盘读取次数,从而减少I/O时间。
存储/计算规则
设B+树为M叉树,则
- 数据存储在叶节点,非叶节点至多存储M-1个key;
- 根节点的子节点数量2~M;
- 除根外的非叶节点的子节点数量在M/2~M,由磁盘区块大小及存储的key的大小决定;
- 所有叶节点深度相同,数据项为L/2~L,由磁盘区块大小及存储的数据项大小决定。
在增删数据时,
- 若插入数据导致叶节点数据项超过L,则分裂该叶节点;若分裂后其父节点的子节点数超过M,则分裂其父节点,或者相邻的父节点还有空间时可以领养超出的叶节点;若其父节点的父节点的子节点数亦超过M,亦然,以此类推,直至根节点;若根节点发生分裂,则生成新的根节点,原分裂后的两个根节点为其子节点,此为B+树增加高度唯一方式。
- 反之,删除数据项导致叶节点数据项不足L/2,若相邻节点叶节点数大于L/2,则可领养相邻节点的叶节点,若相邻节点的叶节点数小于最小值,可合并相邻节点;若合并相邻节点导致父节点的子节点数小于最小值,可以参考叶节点的方法;若最终导致根节点只有一个子节点,则删除原根节点,启用其唯一的子节点作为新的根节点,这是B+树降低高度的唯一方式。