MySQL 中的HASH详解

ShiningStar_Li

已于 2024-07-11 15:44:35 修改

阅读量2.7k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： # MYSQL 文章标签： mysql 哈希算法数据库

于 2024-05-07 11:17:25 首次发布

本文链接：https://blog.csdn.net/weixin_72610956/article/details/138523791

MYSQL 专栏收录该内容

88 篇文章

订阅专栏

MySQL中的哈希索引（Hash Index）是一种特殊的数据库索引类型，它利用哈希表（Hash Table）的数据结构来存储索引项。哈希表通过哈希函数（Hash Function）将索引列的值转化为一个固定长度的哈希码（Hash Code），然后用这个哈希码作为索引项在表中定位数据记录的位置。这种方式使得对于等值查询（例如 WHERE column = value）能够非常快速，理想情况下接近O(1)的时间复杂度。

HASH表结构

哈希表的基础结构设计主要包括以下几个关键组成部分：

哈希函数（Hash Function）：哈希函数是哈希表的核心，它的作用是将输入的键转换为一个确定的索引值，这个索引值用于决定数据在表中的存储位置。理想的哈希函数应能均匀分布不同的键值，减少冲突，并且计算速度快。常用的哈希函数有直接定址法、除留余数法、平方取中法、折叠法、随机数法等。
数组（Bucket Array）：哈希表通常由一个较大的数组构成，数组的每个元素称为一个“桶”（Bucket）。哈希函数计算出的索引值就是数组的下标，指向存放相应键值对的位置。
冲突解决策略（Collision Resolution Strategy）：当两个或多个不同的键经过哈希函数计算后得到相同的索引值，就会发生冲突。解决冲突的方法有多种：
- 开放寻址法：在数组中寻找下一个可用的位置（例如线性探测、二次探测、双重散列等）。
- 链地址法：在每个桶内使用链表或其它动态数据结构存储具有相同哈希值的元素。
- 再哈希法：使用第二个哈希函数来寻找下一个槽位。
- 建立公共溢出区：为所有冲突的元素分配一个公共的区域。
装载因子（Load Factor）：装载因子定义为哈希表中已填入的元素数量与表总容量的比例。一个合适的装载因子可以平衡查找效率与空间利用率，过高会导致冲突增多，查找效率下降。
动态调整（Resizing）：为了维持高效的查找性能，当装载因子达到某个预设阈值时，哈希表会自动调整大小，通常是扩大数组长度并重新哈希所有元素。这一过程称为重哈希（Rehashing）。

装载因子（Load Factor）

装载因子是衡量哈希表中元素填充程度的一个重要指标，计算公式为：[ \text{装载因子} = \frac{\text{哈希表中实际存储的元素数量}}{\text{哈希表的容量}} ]，或者更简洁地表示为 ( \alpha = \frac{n}{m} )，其中 ( n ) 是哈希表中元素的数量，( m ) 是哈希表的容量（即桶的数量）。

装载因子反映了哈希表的饱和度。较小的装载因子意味着哈希表有更多的空闲空间，可以减少哈希冲突，提高查找效率，但同时也会浪费更多的存储空间；相反，较大的装载因子虽然提高了空间利用率，但会增加冲突概率，降低操作效率，特别是在冲突较多时，查找、插入和删除操作可能退化为链表遍历或线性查找，时间复杂度可能变为O(n)。

动态调整

为了平衡存储效率和查询效率，哈希表通常会采用动态调整机制，即根据装载因子的变化自动调整哈希表的大小。主要涉及以下两个方面：

扩容（Resizing Up）：当装载因子达到或超过一个预设的阈值（比如0.7或0.8），表明哈希表已较为拥挤，冲突增多，性能可能开始下降。此时，哈希表会自动进行扩容操作。扩容通常涉及以下步骤：

新建一个更大的数组，其容量通常是原容量的两倍或更高倍数。
将原有数组中的所有元素通过哈希函数重新映射到新数组中。因为容量变大，之前冲突的元素可能在新数组中找到不冲突的位置。
更新哈希表的容量和装载因子阈值。

缩容（Resizing Down）：少数情况下，如果哈希表中的元素数量显著减少，为了节省空间，也可以考虑缩容。缩容的决策较为复杂，因为它涉及到效率和空间使用的权衡，而且频繁缩容可能导致不必要的性能开销。因此，实际应用中，缩容的触发条件往往设置得比较保守，或者根本不实施自动缩容，仅在必要时手动干预。

动态调整机制确保了哈希表在不同负载下的高效运行，是实现高效哈希表的关键技术之一。通过适时调整哈希表的大小，可以在保证查询效率的同时，合理利用内存资源。

HASH冲突

哈希冲突（Hash Collision或Hash Collision），也称为哈希碰撞，是指在使用哈希函数将数据（如关键字key）映射到哈希表或哈希结构中的索引位置时，两个或多个不同的数据经过哈希处理后得到相同的哈希值，从而导致它们被映射到同一个索引位置的现象。由于哈希函数的输出范围通常是有限的，而输入数据的范围可能是无限的，因此在实际应用中，特别是在较大的数据集中，哈希冲突几乎是不可避免的。

例：如下图我们依次将这些数对 12取余，将这些数添加到对应的关键字里，但是当我们添加16时，我们发现，16和4在散列表的位置冲突了，我们必须给16安排到别的位置去。