散列表(上)

散列表用的就是数组支持按照下标随机访问的时候,时间复杂度是O(1)的特性。我们通过散列函数把元素的键值映射为下标,然后将数据存储在数组中对应下标的位置。当我们按照键值查询元素时,我们用同样的散列函数,将键值转化数组下标,从对应的数组下标的位置取数据。

散列思想

存在散列思想的例子:

运动会上,根据运动员的编号快速找到对应选手的信息,编号由6位数字组成,前两位表示年级,中间两位表示班级,最后两位表示递增序号,比如051167表示05年级,11班,67号选手。这时我们可以截取参赛编号的后两位作为数组下标,来存取选手信息数据。当通过参赛编号查询选手信息的时候,我们用同样的方法,取参赛编号的后两位,作为数组下标,来读取数组中的数据。

  • 参赛选手的编号叫作键(key)或关键字
  • 参赛编号转为数组下标的映射方法叫作散列函数(哈希函数或hash函数);
  • 散列函数计算的值叫作散列值(hash值或哈希值)。

散列函数

一个函数,可以把它定义为hash(key),key表示元素的键值,hash(key)的值表示经过散列函数计算得到的散列值。

运动员的散列函数如下所示:

int hash(String key) {
  // 获取后两位字符
  string lastTwoChars = key.substr(length-2, length);
  // 将后两位字符转换为整数
  int hashValue = convert lastTwoChas to int-type;
  return hashValue;
}

散列函数的设计需要符合下面3个基本要求:

  1. 散列函数计算得到的散列值是一个非负整数;

    数组下标是从0开始的。

  2. 如果key1 = key2,那hash(key1) == hash(key2);

    相同的key经过散列函数得到的散列值应该相同。

  3. 如果key1 ≠ key2,那hash(key1) ≠ hash(key2)。

    • 不同的key对应的散列值不一样,这是理想情况下,MD5SHA等著名的哈希算法也无法避免散列冲突;
    • 数组的存储空间有限,也会加大散列的冲突概率。

散列冲突

再好的散列函数也无法避免散列冲突。

常见的散列冲突解决方法有:

  • 开放寻址法(open addressing)
  • 链表法(chaining)

装载因子:

散列表的装载因子=填入表中的元素个数/散列表的长度

装载因子越大,说明空闲位置越少,冲突越多,散列表的性能会下降。

开放寻址法

如果出现了散列冲突,我们就重新探测一个空闲位置,将其插入。

线性探测

当我们往散列表中插入数据时,如果某个数据经过散列函数散列之后,存储位置已经被占用了,我们就从当前位置开始,依次往后查找,看是否有空闲位置,直到找到为止。

在这里插入图片描述

上图中,黄色代表空闲位置,橙色代表已经存储了数据。散列表大小为10,元素x插入散列表之前,已经有6个元素插入了。

x元素插入过程如下:

  1. x经过hash算法,被散列到了位置7,存在冲突;
  2. 顺序往下找空闲位置,遍历到尾部没有,继续从头遍历,找到空闲位置2,将其插入。

元素查找过程,比如要查找元素x,过程如下:

  1. x通过hash函数计算对应的散列值;
  2. 对比数组下标为散列值的元素和查找元素x:
    1. 若相等,则找到要查找的元素x;
    2. 若不相等,依次往后查找,若一直遍历到数组中的空闲位置还没找到,则说明要查找的元素不在散列表中。

元素删除过程,线性探测法不能真正删除元素,因为查找过程中找到一个空闲位置,就认定散列表中不存在该数据,但空闲位置是后面删除的,就会导致原来的查找算法失效。

将要删除的元素标记为deleted,当线性探测查找时,遇见标记元素,不是停下来,而是继续向下探测。

存在问题:

当散列表中插入的数据越多,散列表的冲突概率越大,查找、插入、删除最坏的情况下需要探索整个散列表,时间复杂度为O(n)

二次探测

线性探测每次探测的步长是 1,探测的下标序列为hash(key)+0,hash(key)+1,hash(key)+2……二次探测的步长则为原来的二次方,它探测的下标序列就是 hash(key)+0,hash(key)+1²,hash(key)+2²……

双重散列

不仅要使用一个散列函数,使用一组散列函数 hash1(key),hash2(key),hash3(key)……

先用第一个散列函数,如果计算得到的存储位置已经被占用,再用第二个散列函数,依次类推,直到找到空闲的存储位置。

链表法

在散列表中,每个“桶(bucket)”或者“槽(slot)”会对应一条链表,所有散列值相同的元素我们都放到相同槽位对应的链表中。

如下图所示:
在这里插入图片描述

  • 插入时:

    只需要通过散列函数计算出对应的散列槽位,将其插入到对应链表中,时间复杂度为O(1);

  • 查找、删除时:

    通过散列函数计算出对应的槽,然后遍历链表查找或者删除,时间复杂度跟链表长度k成正比,对于散列比较均匀的散列函数来说,k=n/m,其中 n 表示散列中数据的个数,m 表示散列表中“槽”的个数。

例子

问题:

Word中单词拼写检查功能是如何实现的?

  1. 存储分析

    常用的英文单词有20万个左右,假设单词的平均长度是10个字母,平均一个单次占10个字节,那20万单词大约占2MB的存储空间,放大10倍也才20MB。所以完全可以用散列表来存储英文单词词典。

  2. 实现

    1. 当用户输入某个英文单词时,我们拿用户输入的单词去散列表中查找;
    2. 如果查到,则说明拼写正确;如果没有查到,则说明拼写可能有误,给予提示。
  • 33
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值