数据结构选择标准
使用何种数据结构作为索引底层实现的一个重要衡量指标就是磁盘IO的操作次数。对于数据库而言,索引本身也很大,需要以索引文件的形式存储在磁盘上,因此磁盘IO操作次数直接决定了索引的性能。
使用B+树的原因
B+树能够有效利用系统对磁盘的块读取特性,在读取相同磁盘块的同时,尽可能多的加载索引数据,来提高索引命中效率,从而达到减少磁盘IO的读取次数。
B+树能有效减少磁盘IO的原理
概述:平均检索一次需要IO的次数=logdN-1,d越大IO次数越少,N为数据总量。
具体过程: 如下图所示,每个节点占用一个磁盘块空间,只有叶子节点存储数据,非叶子节点只存储指向其它节点的指针(提高节点的出度d)。B-Tree中一次检索最多需要h-1次I/O(根节点常驻内存),渐进复杂度为O(h)=O(logdN)。一般实际应用中,出度d是非常大的数字,通常超过100,因此h非常小(通常不超过3)。
参考: