SQL进阶理论篇（五）：什么是Hash索引

最新推荐文章于 2024-04-29 20:57:20 发布

经年藏殊

最新推荐文章于 2024-04-29 20:57:20 发布

阅读量395

点赞数

分类专栏： # SQL基础文章标签： sql 哈希算法数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wlh2220133699/article/details/135024468

版权

SQL基础专栏收录该内容

37 篇文章 2 订阅

订阅专栏

文章目录

简介
MySQL中的Hash索引
与B+树的区别
总结
参考文献

简介

hash，即哈希，也被称为是散列函数。

Hash在数据库中的应用，可以帮助我们大幅度提升检索数据的效率。

大名鼎鼎的MD5其实就是Hash函数的一种变体。

Hash算法，是通过某种确定性的算法（如MD5、SHA1、SHA2、SHA3）来将输入转换为输出。相同的输入永远会得到相同的输出。

MySQL中的Hash索引

采用Hash进行检索的效率非常高，基本上一次检索就可以找到数据，而B+树需要从上至下依次访问多个节点之后才能找到数据，从效率上来讲，Hash的效率要高于B+树。

Hash索引的示意图如下：

在这里插入图片描述

键值Key通过Hash映射后找到自己的桶bucket。这里的bucket指的是一个能存储一条或者多条记录的存储单位。一个桶可以理解成是一个链表，当遇到Hash冲突的时候（Hash值相同），会在桶里进一步进行键值的查找，从而找到最终的数据行。

什么是Hash冲突呢？

如果桶的数量小于输入的数量，那么势必会出现不同的输入被映射到同一个桶里的情况，这时候就会产生Hash冲突，如果Hash冲突的量很大，就会影响读取的性能。

在简单的应用下，Hash的字节数一般比较少，比如4个字节。多的情况下可以是16位或者是32位。比如说采用MD5函数，就可以得到一个16位或者32位的数值，32位的MD5就已经足够安全了，重复率非常低。

与B+树的区别

Hash索引无法进行区间查询，因为Hash索引指向的数据是无序的。B+树可以，是因为B+树的叶子节点是个有序链表。
Hash索引不支持联合索引的最左侧原则（其无法使用联合索引的部分索引，要用的话只能全用），而B+树支持。这是因为Hash索引在计算Hash值的时候，是将所有索引键合并后统一计算Hash值，而不会对每个索引键单独计算Hash。
Hash索引不支持order by排序，因为其指向的数据是无序的，无法排序优化；
Hash索引无法进行模糊匹配，因为即使输入数据有一丁点差异，输出都会千差万别。

对于等值查询来讲，通常Hash索引的效率更高，除非是索引项的重复值过多，即Hash冲突的现象过于严重。这是因为遇到Hash 冲突的时候，就需要遍历桶中的链表来一个一个比较，从而找到待查询的关键字，这个遍历的过程是很耗时的。所以，Hash索引通常不会用到重复值多的列上。比如说性别。

总结

可以看到，Hash索引有着诸多的限制，因此在数据库中，B+树索引的应用面是更加广泛的。但也有一些特殊的场景下，使用Hash索引会更好，比如说键值型数据库中，redis存储的核心就是Hash表。

另外，MySQL的Memory存储引擎也支持Hash存储。而InnoDB引擎也有一个“自适应Hash索引”的功能，就是当某个索引值使用的非常频繁的时候，它会在 B+ 树索引的基础上再创建一个 Hash 索引，这样让 B+ 树也具备了 Hash 索引的优点。

参考文献

25丨Hash索引的底层原理是什么？

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SQL进阶理论篇（五）：什么是Hash索引

简单介绍了什么是哈希索引，及其与B+树的区别
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。