SQL进阶理论篇(五):什么是Hash索引

简介

hash,即哈希,也被称为是散列函数。

Hash在数据库中的应用,可以帮助我们大幅度提升检索数据的效率。

大名鼎鼎的MD5其实就是Hash函数的一种变体。

Hash算法,是通过某种确定性的算法(如MD5、SHA1、SHA2、SHA3)来将输入转换为输出。相同的输入永远会得到相同的输出。

MySQL中的Hash索引

采用Hash进行检索的效率非常高,基本上一次检索就可以找到数据,而B+树需要从上至下依次访问多个节点之后才能找到数据,从效率上来讲,Hash的效率要高于B+树。

Hash索引的示意图如下:

在这里插入图片描述

键值Key通过Hash映射后找到自己的桶bucket。这里的bucket指的是一个能存储一条或者多条记录的存储单位。一个桶可以理解成是一个链表,当遇到Hash冲突的时候(Hash值相同),会在桶里进一步进行键值的查找,从而找到最终的数据行。

什么是Hash冲突呢?

如果桶的数量小于输入的数量,那么势必会出现不同的输入被映射到同一个桶里的情况,这时候就会产生Hash冲突,如果Hash冲突的量很大,就会影响读取的性能。

在简单的应用下,Hash的字节数一般比较少,比如4个字节。多的情况下可以是16位或者是32位。比如说采用MD5函数,就可以得到一个16位或者32位的数值,32位的MD5就已经足够安全了,重复率非常低。

与B+树的区别

  • Hash索引无法进行区间查询,因为Hash索引指向的数据是无序的。B+树可以,是因为B+树的叶子节点是个有序链表。
  • Hash索引不支持联合索引的最左侧原则(其无法使用联合索引的部分索引,要用的话只能全用),而B+树支持。这是因为Hash索引在计算Hash值的时候,是将所有索引键合并后统一计算Hash值,而不会对每个索引键单独计算Hash。
  • Hash索引不支持order by排序,因为其指向的数据是无序的,无法排序优化;
  • Hash索引无法进行模糊匹配,因为即使输入数据有一丁点差异,输出都会千差万别。

对于等值查询来讲,通常Hash索引的效率更高,除非是索引项的重复值过多,即Hash冲突的现象过于严重。这是因为遇到Hash 冲突的时候,就需要遍历桶中的链表来一个一个比较,从而找到待查询的关键字,这个遍历的过程是很耗时的。所以,Hash索引通常不会用到重复值多的列上。比如说性别。

总结

可以看到,Hash索引有着诸多的限制,因此在数据库中,B+树索引的应用面是更加广泛的。但也有一些特殊的场景下,使用Hash索引会更好,比如说键值型数据库中,redis存储的核心就是Hash表。

另外,MySQL的Memory存储引擎也支持Hash存储。而InnoDB引擎也有一个“自适应Hash索引”的功能,就是当某个索引值使用的非常频繁的时候,它会在 B+ 树索引的基础上再创建一个 Hash 索引,这样让 B+ 树也具备了 Hash 索引的优点。

参考文献

  1. 25丨Hash索引的底层原理是什么?
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值