散列表及hash冲突

拉链法 解决hash冲突

在这里插入图片描述
拉链法平均查找长度
ASL=(17+24+3*1)/12=1.5 平均查找长度越短(比较字数越少) 效率越高

哈希表的本质是一个数组,数组中每一个元素称为一个箱子(bin),箱子中存放的是键值对。

哈希表的存储过程如下:

  1. 根据 key 计算出它的哈希值 h。
  2. 假设箱子的个数为 n,那么这个键值对应该放在第 (h % n) 个箱子中。
  3. 如果该箱子中已经有了键值对,就使用开放寻址法或者拉链法解决冲突

在使用拉链法解决哈希冲突时,每个箱子其实是一个链表,属于同一个箱子的所有键值对都会排列在链表中。

哈希表还有一个重要的属性: 负载因子(load factor),它用来衡量哈希表的 空/满 程度,一定程度上也可以体现查询的效率,计算公式为负载因子=总键值对个数/箱子个数

负载因子越大,意味着哈希表越满,越容易导致冲突,性能也就越低。因此,一般来说,当负载因子大于某个常数(可能是 1,或者 0.75 等)时,哈希表将自动扩容

哈希表在自动扩容时,一般会创建两倍于原来个数的箱子,因此即使 key 的哈希值不变,对箱子个数取余的结果也会发生改变,因此所有键值对的存放位置都有可能发生改变,这个过程也称为重哈希(rehash)

哈希表的扩容并不总是能够有效解决负载因子过大的问题。假设所有 key 的哈希值都一样,那么即使扩容以后他们的位置也不会变化。虽然负载因子会降低,但实际存储在每个箱子中的链表长度并不发生改变,因此也就不能提高哈希表的查询性能。

如上述12个箱子的数据均一致,则ASL=6.5,查询效率降低

基于以上总结,细心的读者可能会发现哈希表的两个问题:

  • 如果哈希表中本来箱子就比较多,扩容时需要重新哈希并移动数据,性能影响较大。
  • 如果哈希函数设计不合理,哈希表在极端情况下会变成线性表,性能极低。
线性探查法 解决hash冲突

在这里插入图片描述
由于负载因子最好不大于1,因此假设箱子个数13 ,因此负载因子是10/13=0.77;取余方式获取元素的位置H(K)=K mod 13

数据的位置分别是[0,10,2,3,5,2,3,12,6,12],前五个插入至位置,元素28的位置是2,但是2已经被占了,所以往后移动一位,到下标是3的位置。以此类推。
元素77的位置是12,但是下标12的位置已经被占,0,1,2,3,4,5,6的位置均被占,所以77放在下标7的位置

ASL=(1+1+1+1+1+2+2+3+1+9)/13=1.69 其中数字表示该找到该元素被比较的次数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值