MySQL高级-常见索引（聚簇索引/非聚簇索引/联合索引）

最新推荐文章于 2024-09-22 23:13:13 发布

Java-阿旭

最新推荐文章于 2024-09-22 23:13:13 发布

阅读量1.8k

点赞数 4

分类专栏： MySQL 文章标签： mysql 数据结构

本文链接：https://blog.csdn.net/weixin_45108959/article/details/128064293

版权

MySQL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文深入探讨了数据库索引的基础概念，包括聚簇索引和非聚簇索引的特性和查找过程。聚簇索引以其数据和索引的紧密结合提供高效查询，但更新成本高；非聚簇索引需要回表操作。B+树作为索引数据结构，通过多层级目录减少IO操作。文章还提到了B树和B+树的区别，以及B+树在数据存储上的优化。对于数据库管理员和开发者，理解这些概念有助于优化数据库性能。

摘要由CSDN通过智能技术生成

在学习索引的创建和如何使用索引之前，我们先来了解索引的基本概念。如常见的索引有哪些？InnoDB中B+树有哪些需要注意的？B+和和B树的区别？

一、常见索引

我们常见的索引有聚簇索引、非聚簇索引、联合索引。

1. 聚簇索引

聚簇索引是一种物理索引，也是数据存储的一种方式，是数据在磁盘中按照主键值重新进行排序，数据在磁盘中是连续的。聚簇索引是把所有的记录全部存放在B+树的叶子节点上面。我们上一章推演的索引数据结构主要以聚簇索引为例。

1.1 特点：

聚簇索引使用主键值的大小进行记录和页的排序。
页内的记录是按照主键的大小进行排序，成一个单向链表。
各个存放记录的页，也是根据用户记录的主键大小，排序成为一个双向链表。
每个记录页的记录项，也是按照记录页中记录的主键大小，排序成为一个单向链表。
每个记录项的页，也是根据页中的记录项的主键大小，排序成为一个双向链表。
B+树的每个叶子节点的数据，都是完整的记录数据，包含隐藏列。
一个表中只能由一个聚簇索引，聚簇索引不是人为创建的，默认就有。

1.2 优点和缺点

1.2.1 优点

数据查询更快，因为聚簇索引的索引和数据全都保持在一个B+树中，访问到索引后，就可以直接访问对应的索引列数据。比非聚簇索引快很多。
聚簇索引对排序查找和范围查找非常快。
聚簇索引的数据是紧密相连的，数据库不需要从多个数据模块中拿数据，减少了磁盘的io操作，因此在聚簇索引的排序规则下，查找范围数据是非常快的。

1.2.2 缺点

聚簇索引的插入数据非常依赖主键的顺序，如果插入的顺序不是按照主键顺序插入的话，可能就会出现页分裂的情况，因此，聚簇索引最好是按照主键顺序插入才是最快的。
在聚簇索引中，对主键的更新代价是非常大的，因为更新主键，会导致记录移动，因此，主键我们最好不要去更新。
非聚簇索引的访问，需要两次索引查找，第一次是查找到主键，第二次根据主键值去查找记录。

2. 非聚簇索引

非聚簇索引也称"二级索引"，指的是以非主键列创建出来的索引，生成一个新的B+树。
下图以student(id ,name,age)表中的age列作为非聚簇索引为例：
在这里插入图片描述

2.1 特点

B+树中的记录，只存放了非聚簇索引的列和主键，并不是存放了索引的数据。
目录项存放的是非聚簇索引的列和页编号，而不再是主键和页编号。
页中的记录，主要是按非聚簇索引的列大小进行排序成一个单向链表。
记录页，按非聚簇索引的列大小进行排序成一个双向链表。
存放目录项的页，也是按照非聚簇索引列的大小排序，形成一个双向链表。
在进行数据查找的时候，需要进行回表，也就是通过非聚簇索引进行查找的时候，要用到两个B+树。
一个表中可以由多个非聚簇索引。

2.2 非聚簇索引的查找过程

比如我们查找age为20的记录，首先我们要从页30开始找,因为16<20<39，快要快速定位到页3。
在页3中进行查找，因为16<20<24，可以快速定位到页5。
在页5的记录中，通过单向链表的查找，找到记录20的记录。
由于非聚簇索引的记录存储的是非聚簇索引列和主键值，索引需要根据主键值，再去聚簇索引树种，进行查询主键为5的记录。这个操作称为回表。

3. 联合索引

联合索引也叫做组合索引，指的是可以为多个列建立一个索引。
例如，给age和name创建一个索引，则成为组合索引。记录先按照age的值进行排序，如果age的值有相同时，按name再进行排序。
在这里插入图片描述

3.1 特点

叶子节点中的页，每条记录都是组合索引列（age、name）+主键(id)组成。
非叶子节点中的页，每个目录项都是由组合索引列（age、name）+页编号组成。
创建组合索引只会生成一个B+树。

二、B+树注意事项

数据插入的时候，是从根节点开始的：
- 当我们为某个表创建索引时，就会为这个索引创建一个B+树的跟节点页。最开始表中没有数据时，B+树的根据地是没有记录的，也没有目录项。
- 当我们向这张表插入数据后，数据记录都是存放在根节点的页中。
- 随后继续向表中插入数据，此时数据还是存放在根节点的页中，当根节点的页存放不下数据时，就会把根节点的记录复制到一个新的页（页a，叶子节点），然后在这个新页的基础上分裂出一个新页（页b），把插入的数据根据主键大小存放到页a或页b中，而根节点就升级成为目录项的页。
- 之后插入的所有数据，都会保存在和页a同层的叶子节点下，当目录项的页存放不下目录项后，就会把目录项页复制到一个新的页（页F），然后在页F的基础上分裂出一个新页（页E），把新的目录项根据主键大小存放在页F或页E中，而根节点则升级成为目录项页的上级目录项页。
一个页至少存储2条数据，一个B+树只需要很少的层级就可以轻松存储数亿条记录，查询速度相当不错！这是因为B+树本质上就是一个大的多层级目录，每经过一个目录时都会过滤掉许多无效的子目录，直到最后访问到存储真实数据的目录。那如果一个大的目录中只存放一个子目录是个啥效果呢？那就是目录层级非常非常多，而且最后的那个存放真实数据的目录中只存放一条数据。所以 InnoDB 的一个数据页至少可以存放两条记录。

三、B树和B+树的区别

1. B树

B 树的英文是 Balance Tree，也就是 多路平衡查找树。简写为 B-Tree。它的高度远小于平衡二叉树的高度。
每一个节点的最多可以包含M个字节，M就是树的阶。
每个节点都包含data数据和孩子节点的指针。
中间节点都会包含k个孩子节点的指针和k-1个data数据。
叶子节点没有孩子节点，只有k-1个data数据。
假设中间节点节点的关键字为：Key[1], Key[2], …, Key[k-1]，且关键字按照升序排序，即 Key[i]<Key[i+1]。此时 k-1 个关键字相当于划分了 k 个范围，也就是对应着 k 个指针，即为：P[1], P[2], …, P[k]，其中 P[1] 指向关键字小于 Key[1] 的子树，P[i] 指向关键字属于 (Key[i-1], Key[i]) 的子树，P[k] 指向关键字大于 Key[k-1] 的子树。
B树的查找性能相当于在所有的data中，做一次二分法查找。

在这里插入图片描述