mysql 底层索引结构、sql优化

气运超级加倍

已于 2022-04-01 16:05:39 修改

阅读量749

点赞数

分类专栏：索引 sql优化文章标签： mysql

于 2018-01-18 15:19:14 首次发布

本文链接：https://blog.csdn.net/x1060250502/article/details/79096718

版权

索引同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

sql优化

1 篇文章 0 订阅

订阅专栏

索引:

索引是帮助 mysql 高效获取数据的 排好序 的 数据结构

索引的数据结构:

二叉树
红黑树
Hash表
B - Tree

思考一下如果以下数据机构使用不同的索引类型有哪些优缺点?

如果不建立索引的情况下,我们搜索 select * from table where col2 = 89 , 在没加索引的情况下其实是逐行查找,每查找一次就做会和磁盘一次 I/O 交互 6次 I/O 交互才能找到。

二叉树:

如果我们根据二叉树的数据结构来寻找 col2 = 89 的话, (二分法,左边的元素比右边的元素小) 3次 I/O (第一次34,第二次89,第三次从磁盘中加载89所在的索引指向)。

优点:

二叉树是一种比顺序结构更加高效地查找目标元素的结构，它可以从第一个父节点开始跟目标元素值比较，如果相等则返回当前节点，如果目标元素值小于当前节点，则移动到左侧子节点进行比较，大于的情况则移动到右侧子节点进行比较，反复进行操作最终移动到目标元素节点位置。

缺点:

在特殊的情况下会形成链表结果的数据结构,(如下) 其实和全表扫描一样。

红黑树:

优点:

红黑树也叫平衡二叉树，它不仅继承了二叉树的优点，而且解决了上面二叉树遇到的自增整形索引的问题，从下面的动态图中可以看出红黑树会走动对结构进行调整，始终保证左子节点数 < 父节点数 < 右子节点数的规则。

缺点:

在数据量大的时候，深度也很大。从图中可以看出每个父节点只能存在两个子节点，如果我们有很多数据，那么树的深度依然会很大，可能就会超过十几二十层以上，对我们的磁盘寻址不利，依然会花费很多时间查找。(我们希望控制树的高度 h 矮一些)

Hash:

优点:

对数据进行Hash（散列）运算，然后将哈希结果作为文件指针可以从索引文件中获得数据的文件指针，再到数据文件中获取到数据，按照这样的设计，我们在查找where Col2 = 22的记录时只需要对22做哈希运算得到该索引所对应那行数据的文件指针(精确定位)，从而在MySQL的数据文件中定位到目标记录，查询效率非常高。

缺点:mysql索引为什么要自增,这里也可以设置成Hash

无法解决范围查询（Range）的场景，比如 select * from table where id >10；因此Hash这种索引结构只能针对字段名=目标值的场景使用，不适合范围查询的场景。

B-Tree:

既然红黑树存在缺点，那么我们可以在红黑树的基础上构思一种新的储存结构。既然觉得树的深度太长，就只需要适当地增加每个树节点能存储的数据个数即可，但是数据个数也必须要设定一个合理的阈值，不然一个节点数据个数过多会产生多余的消耗。

优点:

BTree的结构可以弥补红黑树的缺点，解决数据量过大时整棵树的深度过长的问题。相同数量的数据只需要更少的层，相同深度的树可以存储更多的数据，查找的效率自然会更高。

缺点：

在查询单条数据是非常快的。但如果范围查的话，BTree结构每次都要从根节点查询一遍，效率会有所降低，因此在实际应用中采用的是另一种BTree的变种B+Tree（B+树）。

B+Tree :

操作系统储存数据的最小单位是页（page）, 而mysql一般给我们分配的是 16KB的大小。

使用 B+ Tree 树高度h为3的的情况下,大概可以存放 2千万的数据。

常见的数据库存储引擎分为 :

MySAM 数据文件和索引文件是分离的 (非聚集) xxx.MYD是数据文件, xxx.MYI是索引文件。
InnoDB 索引实现 (聚集) xxx.idb 数据和索引都放在这里面，xxx.frm是数据结构(MySAM和InnoDB 都存在这个文件)。

联合索引:

MySQL可以使用多个字段同时建立一个索引，叫做联合索引。在联合索引中，如果想要命中索引，需要按照建立索引时的字段顺序挨个使用，否则无法命中索引。

最左前缀原则。
like以通配符开头（’%xxx…’）索引失效。
索引列上操作、计算、函数、自动或手动转换都会导致索引失效。
字符串不加单引号索引失效。
mysql在使用不等于（！=或者<>）的时候无法使用索引会导致全表扫描。

创建索引时需要注意什么？

非空字段：应该指定列为NOT NULL，除非你想存储NULL。在mysql中，含有空值的列很难进行查询优化，因为它们使得索引、索引的统计信息以及比较运算更加复杂。你应该用一个特殊的值或者一个空串代替空值。
取值离散大的字段：变量各个取值之间的差异程度大的列放到联合索引的前面，可以通过count()函数查看字段的差异值，返回值越大说明字段的唯一值越多字段的离散程度高。
索引字段越小越好：数据库的数据存储以页为单位一页存储的数据越多一次IO操作获取的数据越大效率越高。

mysql查询是否回表?

非聚簇索引情况下是需要根据索引指向再去数据文件根据索引地址搜索,需要回表。

InnoDB存储引擎的情况下当查询使用聚簇索引时，在对应的叶子节点，可以获取到整行数据，因此不用再次进行回表查询。

什么是聚簇索引？何时使用聚簇索引与非聚簇索引

聚簇索引：将数据存储与索引放到了一块，找到索引也就找到了数据
非聚簇索引：将数据存储于索引分开结构，索引结构的叶子节点指向了数据的对应行，myisam通过key_buffer把索引先缓存到内存中，当需要访问数据时（通过索引访问数据），在内存中直接搜索索引，然后通过索引找到磁盘相应数据，这也就是为什么索引不在key buffer命中时，速度慢的原因