数据库笔记——分析总结聚集索引、非聚集索引和覆盖索引

最新推荐文章于 2024-09-15 08:03:51 发布

学习BigData

最新推荐文章于 2024-09-15 08:03:51 发布

阅读量1k

点赞数 23

文章标签：数据库笔记 oracle sql 数据结构

本文链接：https://blog.csdn.net/weixin_52010459/article/details/136032814

版权

本文详细介绍了数据库索引的两种主要类型（聚集索引和非聚集索引），以及它们的工作原理，包括索引的物理结构与逻辑结构。同时探讨了覆盖索引的概念及其在查询优化中的作用。

摘要由CSDN通过智能技术生成

一、首先深入浅出理解索引结构

来自聚集索引和非聚集索引
实际上我们可以将索引理解为一种目录，索引可分为聚类索引和非聚类索引。
　　我们的汉语字典的正文本身就是一个聚集索引。比如，我们要查“安”字，就会很自然地翻开字典的前几页，因为“安”的拼音是“an”，而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的，那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字，那么就说明您的字典中没有这个字；同样的，如果查“张”字，那您也会将您的字典翻到最后部分，因为“张”的拼音是“zhang”。也就是说，字典的正文部分本身就是一个目录，您不需要再去查其他目录来找到您需要找的内容。我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。
　　如果您认识某个字，您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字，不知道它的发音，这时候，您就不能按照刚才的方法找到您要查的字，而需要去根据“偏旁部首”查到您要找的字，然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法，比如您查“张”字，我们可以看到在查部首之后的检字表中“张”的页码是672页，检字表中“张”的上面是“驰”字，但页码却是63页，“张”的下面是“弩”字，页面是390页。很显然，这些字并不是真正的分别位于“张”字的上下方，现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序，是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字，但它需要两个过程，先找到目录中的结果，然后再翻到您所需要的页码。我们把这种目录纯粹是目录，正文纯粹是正文的排序方式称为“非聚集索引”。
　　通过以上例子，我们可以理解到什么是“聚集索引”和“非聚集索引”。进一步引申一下，我们可以很容易的理解：每个表只能有一个聚集索引，因为字典只能按照一种方法进行排序。

二、索引的原理

一文总结分析聚类索引，非聚类索引和覆盖索引
想要理解索引原理必须清楚一种数据结构「平衡树」(非二叉)，也就是b tree或者 b+ tree，重要的事情说三遍：“平衡树，平衡树，平衡树”。当然，有的数据库也使用哈希桶作用索引的数据结构，然而，主流的RDBMS(关系型数据库)都是把平衡树当做数据表默认的索引数据结构的。
假如一张表有一亿条数据，需要查找其中某一条数据，按照常规逻辑，一条一条的去匹配的话，最坏的情况下需要匹配一亿次才能得到结果，用大O标记法就是O(n)最坏时间复杂度，这是无法接受的，而且这一亿条数据显然不能一次性读入内存供程序使用，因此，这一亿次匹配在不经缓存优化的情况下就是一亿次IO开销，以现在磁盘的IO能力和CPU的运算能力，有可能需要几个月才能得出结果。
如果把这张表转换成平衡树结构（一棵非常茂盛和节点非常多的树），假设这棵树有10层，那么只需要10次IO开销就能查找到所需要的数据，速度以指数级别提升，用大O标记法就是O(log n)，n是记录总树，底数是树的分叉数，结果就是树的层次数。
然而，事物都是有两面的，索引能让数据库查询数据的速度上升，而使写入数据的速度下降，原因很简单的，因为平衡树这个结构必须一直维持在一个正确的状态，增删改数据都会改变平衡树各节点中的索引数据内容，破坏树结构，因此，在每次数据改变时， DBMS必须去重新梳理树（索引）的结构以确保它的正确，这会带来不小的性能开销，也就是为什么索引会给查询以外的操作带来副作用的原因。

三、关于索引的物理结构和逻辑结构问题

1、建立聚类索引后，数据不仅在逻辑上紧密相连，在物理存储上同样相连，类似数据结构中线性数组的概念。
2、建立非聚类索引后，数据只在逻辑上紧密相连，而在物理结构上不一定相连，类似数据结构中的链式存储。

四、覆盖索引

如果一个索引覆盖所有需要查询的字段的值，我们就称之为“覆盖索引“
举例：

//建立索引
create index index_birthday on user_info(birthday);
//查询生日在1991年11月1日出生用户的用户名
select	user_name from user_info where birthday = '1991-11-1'

这句SQL语句的执行如下：
1、首先，通过非聚类索引index_birthday查找birthday等于1991-11-1的所有记录的主键ID值。
2、然后，通过得到的主键ID值执行聚集索引查找，找到主键ID值对就的真实数据（数据行）存储的位置
3、最后，从得到的真实数据中取得user_name字段的值返回，也就是取得最终的结果

若将建立索引语句改为

create index index_birthday_and_user_name on user_info(birthday,user_name);

通过非聚集索引index_birthday_and_user_name查找birthday等于1991-11-1的叶节点的内容，然而，叶节点中除了有user_name表主键ID的值以外， user_name字段的值也在里面，因此不需要通过主键ID值的查找数据行的真实所在，直接取得叶节点中user_name的值返回即可。
在此再次感谢上文所引用文章的作者
引用文章：
https://developer.aliyun.com/article/283464
https://juejin.cn/post/6844904117081473031