索引的介绍
索引是一种用于快速查询和检索数据的数据结构。常见的索引结构有: B 树, B+树和 Hash。
索引的作用就相当于书的目录。打个比方: 我们在查字典的时候,如果没有目录,那我们就只能一页一页的去找我们需要查的那个字,速度很慢。如果有目录了,我们只需要先去目录里查找字的位置,然后直接翻到那一页就行了
索引结构的分类
Hash索引
哈希表是键值对的集合,通过键(key)即可快速取出对应的值(value),因此哈希表可以快速检索数据(接近 O(1))。
既然哈希表的查询速度这么快,为何没有作为索引的数据结构呢?
主要有俩个以下缺点:
- Hash 冲突问题
- Hash 索引不支持顺序和范围查询
B树和B+树
B 树也称 B-树,全称为 多路平衡查找树 ,B+ 树是 B 树的一种变体。B 树和 B+树中的 B 是 Balanced (平衡)的意思。
目前大部分数据库系统及文件系统都采用 B-Tree 或其变种 B+Tree 作为索引结构。
B 树& B+树两者有何异同呢?
- B树的所有节点即可以有key和data,而B+树只有其叶节点可以存放key和data,其他非叶子节点就只能存放key
- B树的叶子节点都是独立的;B+树的叶子节点有一条引用链指向与它相邻的叶子节点。
- B树的搜索方式是二分查找,检索时间不定,而B+树一定是要从根节点一直搜到到叶节点,所以B+树的检索效率就很稳定了。
在 MySQL 中,MyISAM 引擎和 InnoDB 引擎都是使用 B+Tree 作为索引结构,但是,两者的实现方式不太一样
MyISAM中,b+数的叶节点的data域存放的是数据记录的地址,所以在搜索的时候,查找对应的key,然后根据data域去取对应的数据地址,所以数据文件和索引文件是分开的,又称为“非聚簇索引”
InnoDB中本身数据文件就是索引结构,其中叶节点的key就是主键,而其data域就保存了完整的数据记录,因此 InnoDB 表数据文件本身就是主索引。这被称为“聚簇索引(或聚集索引)”,而其余为二级索引,二级索引比如唯一索引,普通索引,全文索引等,其叶节点保存的是改对应记录的主键而不是其完整的数据记录,所以要再取出其data域的主键,再去走一遍主索引,这也称为回表操作
索引的类型
主键索引
数据表的主键列使用的就是主键索引。
一张数据表有只能有一个主键,并且主键不能为 null,不能重复。
在 MySQL 的 InnoDB 的表中,当没有显示的指定表的主键时,InnoDB 会自动先检查表中是否有唯一索引且不允许存在null值的字段,如果有,则选择该字段为默认的主键,否则 InnoDB 将会自动创建一个 6Byte 的自增主键
二级索引
二级索引又称为辅助索引,是因为二级索引的叶子节点存储的数据是主键。也就是说,通过二级索引,可以定位主键的位置。
聚集索引
聚集索引即索引结构和数据一起存放的索引,主键索引属于聚集索引
对于InnoDB引擎来说,该表的每个非叶子节点存储索引,该叶子节点存储索引和对应的行数据
聚集索引的优点
- 查询速度非常快,根据B+树为一个多叉平衡树的性质,每个节点都是经过排序的,所以根据排序的规则,就能很快找到节点,定位到数据
聚集索引的缺点
- 依赖于有序的数据:因为B+树为一个多叉平衡树,所以在插入不是有序的数据的时候,还需要排序,根据左旋右旋重新对整个树结构进行修改,那速度就比较慢了
更新代价大: 如果对索引列的数据被修改时,那么对应的索引也将会被修改,而且聚集索引的叶子节点还存放着数据,修改代价肯定是较大的
非聚集索引
非聚集索引即索引结构和数据分开存放的索引,二级索引属于非聚集索引。
非聚集索引的叶子节点并不一定存放数据的指针,因为二级索引的叶子节点就存放的是主键,根据主键再回表查数据
非聚集索引的优点
- 更新代价比聚集索引要小 那就跟聚集索引相比,因为非聚集索引的叶节点不存放数据,所以修改来说,就要容易的多
非聚集索引的缺点
跟聚集索引一样,都依赖有序的数据
可能会二次查询(回表) 这也是非聚集索引的最大不足之处,当查到索引对应的指针或主键后,可能还需要根据指针或主键再到数据文件或表中查询
联合索引
联合索引指一个索引包含了多个列,在业务场景中,如果存在多个查询条件,考虑针对于查询字段建立索引时,建议建立联合索引, 因为索引也会占用内存空间,用最少的索引覆盖更多的业务场景,提升资源利用效率。
联合索引在使用时需要注意最左匹配原则,否则会有索引失效等问题。
最左前缀匹配原则指的是,在使用联合索引时,MySQL 会根据联合索引中的字段顺序,从左到右依次到查询条件中去匹配,如果查询条件中存在与联合索引中最左侧字段相匹配的字段,则就会使用该字段过滤一批数据,直至联合索引中全部字段匹配完成