散列表(上)

最新推荐文章于 2024-07-20 11:22:21 发布

我取的名字

最新推荐文章于 2024-07-20 11:22:21 发布

阅读量1k

点赞数 33

分类专栏：数据结构与算法文章标签：散列表哈希算法数据结构

本文链接：https://blog.csdn.net/weixin_45620557/article/details/139849682

版权

数据结构与算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

散列表用的就是数组支持按照下标随机访问的时候，时间复杂度是O(1)的特性。我们通过散列函数把元素的键值映射为下标，然后将数据存储在数组中对应下标的位置。当我们按照键值查询元素时，我们用同样的散列函数，将键值转化数组下标，从对应的数组下标的位置取数据。

散列思想

存在散列思想的例子：

运动会上，根据运动员的编号快速找到对应选手的信息，编号由6位数字组成，前两位表示年级，中间两位表示班级，最后两位表示递增序号，比如051167表示05年级，11班，67号选手。这时我们可以截取参赛编号的后两位作为数组下标，来存取选手信息数据。当通过参赛编号查询选手信息的时候，我们用同样的方法，取参赛编号的后两位，作为数组下标，来读取数组中的数据。

参赛选手的编号叫作键(key)或关键字；
参赛编号转为数组下标的映射方法叫作散列函数（哈希函数或hash函数）;
散列函数计算的值叫作散列值（hash值或哈希值）。

散列函数

一个函数，可以把它定义为hash(key)，key表示元素的键值，hash(key)的值表示经过散列函数计算得到的散列值。

运动员的散列函数如下所示：

int hash(String key) {
  // 获取后两位字符
  string lastTwoChars = key.substr(length-2, length);
  // 将后两位字符转换为整数
  int hashValue = convert lastTwoChas to int-type;
  return hashValue;
}

散列函数的设计需要符合下面3个基本要求:

散列函数计算得到的散列值是一个非负整数；

数组下标是从0开始的。
如果key1 = key2，那hash(key1) == hash(key2)；

相同的key经过散列函数得到的散列值应该相同。
如果key1 ≠ key2，那hash(key1) ≠ hash(key2)。
- 不同的key对应的散列值不一样，这是理想情况下，MD5、SHA等著名的哈希算法也无法避免散列冲突；
- 数组的存储空间有限，也会加大散列的冲突概率。

散列冲突

再好的散列函数也无法避免散列冲突。

常见的散列冲突解决方法有：

开放寻址法(open addressing)
链表法(chaining)

装载因子：

散列表的装载因子=填入表中的元素个数/散列表的长度

装载因子越大，说明空闲位置越少，冲突越多，散列表的性能会下降。

开放寻址法

如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。

线性探测

当我们往散列表中插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。

在这里插入图片描述

上图中，黄色代表空闲位置，橙色代表已经存储了数据。散列表大小为10，元素x插入散列表之前，已经有6个元素插入了。

x元素插入过程如下：

x经过hash算法，被散列到了位置7，存在冲突；
顺序往下找空闲位置，遍历到尾部没有，继续从头遍历，找到空闲位置2，将其插入。

元素查找过程，比如要查找元素x，过程如下：

x通过hash函数计算对应的散列值；
对比数组下标为散列值的元素和查找元素x：
1. 若相等，则找到要查找的元素x；
2. 若不相等，依次往后查找，若一直遍历到数组中的空闲位置还没找到，则说明要查找的元素不在散列表中。

元素删除过程，线性探测法不能真正删除元素，因为查找过程中找到一个空闲位置，就认定散列表中不存在该数据，但空闲位置是后面删除的，就会导致原来的查找算法失效。

将要删除的元素标记为deleted，当线性探测查找时，遇见标记元素，不是停下来，而是继续向下探测。

存在问题：

当散列表中插入的数据越多，散列表的冲突概率越大，查找、插入、删除最坏的情况下需要探索整个散列表，时间复杂度为O(n)。

二次探测

线性探测每次探测的步长是 1，探测的下标序列为hash(key)+0，hash(key)+1，hash(key)+2……二次探测的步长则为原来的二次方，它探测的下标序列就是 hash(key)+0，hash(key)+1²，hash(key)+2²……

双重散列

不仅要使用一个散列函数，使用一组散列函数 hash1(key)，hash2(key)，hash3(key)……

先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

链表法

在散列表中，每个“桶（bucket）”或者“槽（slot）”会对应一条链表，所有散列值相同的元素我们都放到相同槽位对应的链表中。

如下图所示：
在这里插入图片描述

插入时：

只需要通过散列函数计算出对应的散列槽位，将其插入到对应链表中，时间复杂度为O(1)；
查找、删除时：

通过散列函数计算出对应的槽，然后遍历链表查找或者删除，时间复杂度跟链表长度k成正比，对于散列比较均匀的散列函数来说，k=n/m，其中 n 表示散列中数据的个数，m 表示散列表中“槽”的个数。

例子

问题：

Word中单词拼写检查功能是如何实现的？

存储分析

常用的英文单词有20万个左右，假设单词的平均长度是10个字母，平均一个单次占10个字节，那20万单词大约占2MB的存储空间，放大10倍也才20MB。所以完全可以用散列表来存储英文单词词典。
实现
1. 当用户输入某个英文单词时，我们拿用户输入的单词去散列表中查找；
2. 如果查到，则说明拼写正确；如果没有查到，则说明拼写可能有误，给予提示。