Mysql索引--02---索引数据结构

知行合一。。。

已于 2023-12-06 18:05:53 修改

阅读量270

点赞数

分类专栏： Mysql高级文章标签：数据结构 mysql 数据库

于 2020-12-08 18:33:19 首次发布

本文链接：https://blog.csdn.net/weixin_48052161/article/details/108944867

版权

Mysql高级专栏收录该内容

74 篇文章 10 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

索引
索引数据结构
计算一个h=3的b+树能存多少个索引元素?
MyISAM和InnoDB对索引和数据的存储在磁盘上是如何体现的
MyISAM主键索引与辅助索引的结构
- 1. 主键索引：
- 2. 辅助（非主键）索引：
InnoDB主键索引与辅助索引的结构
- 1. 主键索引：
- 辅助（非主键）索引：
InnoDB 索引 & MyISAM索引区别
面试题

索引

索引是帮助MYsql高效获取数据的排好序的数据结构
索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构

索引数据结构

二叉树
红黑树
Hash
B+树

Data Structure Visualizations

https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

二叉树-- Binary Search Tree

我们先看下左边表格第二列Col2列的数据时如何查找的，如果我们希望查找where Col2 = 22的记录，我们在没加索引的情况下是按顺序从第一条记录查找，由此可知需要查找5次才能找到；

如果对Col2字段加上索引后，我们假设使用最简单的二叉树作为索引存储方式，再次查找where Col2 = 22的记录这次只需要查找2次就能找到目标记录，效率提高十分明显。

查找where Col2 = 22的记录
在这里插入图片描述
col1 数据是1-7 连续递增的数据

分析: 如果数据是从小到大 ,连续递增或递减函数,则二叉树呈线性结构,查询效率低

红黑树 (二叉平衡树)

插入数据从1-8 依次插入
在这里插入图片描述
分析:红黑树会主动平衡树的结构,使树两边数据尽量达到平衡.始终保证左子节点数 < 父节点数 < 右子节点数的规则。

但红黑树在大数据场景下面,树的高度不可控,那么存在叶子节点的数据,查找起来效率不会特别高.会多次IO读取磁盘中的数据(索引一般保存在磁盘当中).

Hash

优点：

对数据进行Hash（散列）运算，主流的Hash算法有MD5、SHA256等等，然后将哈希结果作为文件指针可以从索引文件中获得数据的文件指针，再到数据文件中获取到数据，按照这样的设计，我们在查找where Col2 = 22的记录时只需要对22做哈希运算得到该索引所对应那行数据的文件指针，从而在MySQL的数据文件中定位到目标记录，查询效率非常高。

缺点：

无法解决范围查询（Range）的场景，比如 select count(id) from sus_user where id >10；因此Hash这种索引结构只能针对字段名=目标值的场景使用。

不适合模糊查询（like）的场景。

B-Tree

在这里插入图片描述

B+Tree (多叉平衡树)

在这里插入图片描述

每一个索引旁边会分配一个指针.指针指向下一节点的存储地址信息
只有叶子节点的索引元素存储data
根节点元素,MySQL运行时一般直接加载进内存.

B+树和B树的差异：

非叶结点仅具有索引作用，也就是说，非叶子结点只存储key，不存储value；
树的所有叶结点构成一个有序链表，可以按照key排序的次序遍历全部数据。

所以

- b+树的高度边小了,io寻址效率更高

- 存放更多的key

- 叶子结点存储了全部数据,且有序,更方便遍历,也更方便区间查找和搜索

B+ 树的优点在于：

由于B+树在非叶子结点上不包含真正的数据，只当做索引使用，因此在内存相同的情况下，能够存放更多的key。(树的高度变小了)
B+树的叶子结点都是相连的，因此对整棵树的遍历只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连，所以便于区间查找和搜索。—更利于遍历,区间查找和搜索

B树的优点在于：

由于B树的每一个节点都包含key和value，因此我们根据key查找value时，只需要找到key所在的位置，就能找到value，但B+树只有叶子结点存储数据，索引每一次查找，都必须一次一次，一直找到树的最大深度处，也就是叶子结点的深度，才能找到value。

计算一个h=3的b+树能存多少个索引元素?

Mysql 默认底层给每个节点设置的容量大小是 16kb

在这里插入图片描述

假设一个主键索引类型为 bigint 8个字节,
Mysql 默认给指针分配的内存大小是 6个字节
每一个节点能存储 16*1024/(8+6)=1170个索引元素
叶子节点的索引元素因为要存储data,所以按1kb的大小计算的话,一个叶子节点能存储16个索引元素

count(索引元素)=1170 * 1170 * 16=21902400

经过上述计算得知,一个高度h为3 的 B+树,叶子节点,大约能容纳2100万个索引元素.

所以上千万的数据表,MySQL也只要经过1到2次的io磁盘查找,就能获取到指定元素的数据.

MyISAM和InnoDB对索引和数据的存储在磁盘上是如何体现的

先来看下面创建的两张表信息，

role表使用的存储引擎是MyISAM
而user使用的是InnoDB：

再来看下两张表在磁盘中的索引文件和数据文件：

1.role表有三个文件，对应如下：
role.frm：表结构文件
role.MYD：数据文件（MyISAM Data）
role.MYI：索引文件（MyISAM Index）

2. user表有两个文件，对应如下：

user.frm：表结构文件
user.ibd：索引和数据文件（InnoDB Data）

也由于两种引擎对索引和数据的存储方式的不同，我们也称MyISAM的索引为非聚集索引，InnoDB的索引为聚集索引。

MyISAM主键索引与辅助索引的结构

我们先列举一部分数据出来分析，如下：

在这里插入图片描述
上面已经说明了MyISAM引擎的索引文件和数据文件是分离的，我们接着看一下下面两种索引结构异同。

1. 主键索引：

上一篇文章已经介绍过数据库索引是采用B+Tree存储，并且只在叶子节点存储数据，在MyISAM引擎中叶子结点存储的数据其实是索引和数据的文件指针两类。

如下图中我们以Col1列作为主键建立索引，对应的叶子结点储存形式可以看一下表格。
在这里插入图片描述

通过索引查找数据的流程：

先通过索引文件中查找到索引节点，
从中拿到数据的文件指针，再指针定位了具体的数据。

2. 辅助（非主键）索引：

以Col2列建立索引，得到的辅助索引结构跟上面的主键索引的结构是相同的。

在这里插入图片描述

InnoDB主键索引与辅助索引的结构

1. 主键索引：

我们已经知道InnoDB索引是聚集索引，它的索引和数据是存入同一个.idb文件中的，因此它的索引结构是在同一个树节点中同时存放索引和数据，如下图中最底层的叶子节点有三行数据，对应于数据表中的Col1、Col2、Col3数据项。

这个索引的 key 是数据表的主键,因此 InnoDB 表数据文件本身就是主索引。

在这里插入图片描述
通过索引查找数据的流程：

先通过索引文件中查找到索引节点，
所有的主键索引元素都在叶子节点,并以kv结构,存储对应数据信息

上图是 InnoDB 主索引(同时也是数据文件)的示意图,可以看到叶节点包含了完整的数据记录。这种索引叫做聚集索引。因为 InnoDB 的数据文件本身要按主键聚集,

辅助（非主键）索引：

这次我们以数据表中的Col3列的字符串数据建立辅助索引，它的索引结构跟主键索引的结构有很大差别，我们来看下面的图：

在最底层的叶子结点有两行数据，第一行的字符串是辅助索引，按照ASCII码进行排序，第二行的整数是主键的值。

所有叶子节点,非主键索引关联的是对应主键的值

在这里插入图片描述
通过索引查找数据的流程：

先通过索引文件中查找到索引节点，
从中拿到对应的主键索引,并再次通过B+ 树结构查找一次

InnoDB 索引 & MyISAM索引区别

1.第一个重大区别是 InnoDB 的数据文件本身就是索引文件。

MyISAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。在InnoDB 中,表数据文件本身就是按 B+Tree 组织的一个索引结构,这棵树的叶点data 域保存了完整的数据记录。这个索引的 key 是数据表的主键,

2.InnoDB 要求表必须有主键(MyISAM 可以没有),
如果没有显式指定,则 MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键,如果不存在这种列,则MySQL 自动为 InnoDB 表生成一个隐含字段作为主键,类型为长整形。

3. InnoDB 的辅助索引 data 域存储相应记录主键的值而不是地址。
辅助索引搜索需要检索两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。

面试题

1. 为什么不建议使用过长的字段作为主键?

因为所有辅助索引都引用主索引,过长的主索引会令辅助索引变得过大。

2. 为什么 InnoDB 上尽量采用自增字段做表的主键?

因为 InnoDB 数据文件本身是一棵B+Tree,非单调的主键会造成在插入新记录时数据文件为了维持 B+Tree的特性而频繁的分裂调整,十分低效,
而使用自增字段作为主键则是一个很好的选择。如果表使用自增主键,那么每次插入新的记录,记录就会顺序添加到当前索引节点的后续位置,当一页写满,就会自动开辟一个新的页。

如下图所示:
在这里插入图片描述

这样就会形成一个紧凑的索引结构,近似顺序填满。由于每次插入时也不需要移动已有数据,因此效率很高,也不会增加很多开销在维护索引上。

3.为什么推荐使用整型自增主键而不是选择UUID？

UUID是字符串，比整型消耗更多的存储空间；
在B+树中进行查找时需要跟经过的节点值比较大小，整型数据的比较运算比字符串更快速；
自增的整型索引在磁盘中会连续存储，在读取一页数据时也是连续；UUID是随机产生的，读取的上下两行数据存储是分散的，不适合执行where id > 5 && id < 20的条件查询语句。
在插入或删除数据时，整型自增主键会在叶子结点的末尾建立新的叶子节点，不会破坏左侧子树的结构；UUID主键很容易出现这样的情况，B+树为了维持自身的特性，有可能会进行结构的重构，消耗更多的时间。

4. 为什么InnoDB 非主键索引结构叶子节点存储的是主键值？

保证数据一致性和节省存储空间，可以这么理解：商城系统订单表会存储一个用户ID作为关联外键，而不推荐存储完整的用户信息，因为当我们用户表中的信息（真实名称、手机号、收货地址···）修改后，不需要再次维护订单表的用户数据，同时也节省了存储空间。

知行合一。。。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Mysql索引--02---索引数据结构

索引索引是帮助MYsql高效获取数据的排好序的数据结构索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构索引数据结构二叉树红黑树HashB+树Data Structure Visualizationshttps://www.cs.usfca.edu/~galles/visualization/Algorithms.html二叉树-- Binary Search Tree我们先看下左边表格第二列Col2列的数据时如何查找的，如果我们希望查找where C
复制链接

扫一扫