哈希表(数据结构)

最新推荐文章于 2024-06-01 13:06:35 发布

cloud的弟弟

最新推荐文章于 2024-06-01 13:06:35 发布

阅读量401

点赞数 1

分类专栏：数据结构与算法

原文链接：https://blog.csdn.net/u011109881/article/details/80379505

版权

数据结构与算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考链接：数据结构（严蔚敏）

一、什么是Hash表

要想知道什么是哈希表，那得先了解哈希函数
哈希函数

对比之前博客讨论的二叉排序树二叉平衡树红黑树 B B+树，它们的查找都是先从根节点进行查找，从节点取出数据或索引与查找值进行比较。那么，有没有一种函数H，根据这个函数和查找关键字key，可以直接确定查找值所在位置，而不需要一个个比较。这样就**“预先知道”**key所在的位置，直接找到数据，提升效率。
即
地址index=H（key）
说白了，hash函数就是根据key计算出应该存储地址的位置，而哈希表是基于哈希函数建立的一种查找表

二、哈希函数的构造方法

根据前人经验，统计出如下几种常用hash函数的构造方法：
直接定制法
哈希函数为关键字的线性函数如 H（key）=a*key+b
这种构造方法比较简便，均匀，但是有很大限制，仅限于地址大小=关键字集合的情况
使用举例：
假设需要统计中国人口的年龄分布，以10为最小单元。今年是2018年，那么10岁以内的分布在2008-2018，20岁以内的分布在1998-2008……假设2018代表2018-2008直接的数据，那么关键字应该是2018，2008，1998……
那么可以构造哈希函数H（key）=（2018-key）/10=201-key/10
那么hash表建立如下

index	key	年龄	人数（假设数据）
0	2018	0-10	200W
1	2008	10-20	250W
2	1998	20-30	253W
3	1988	30-40	300W
……

数字分析法
假设关键字集合中的每个关键字key都是由s位数字组成（ $k1,k2,……,knk1,k2,……,kn k_1,k_2,……,k_n$ $d_{i}$ 是一组伪随机数列
注意
增量di应该具有以下特点（完备性）：产生的Hi（地址）均不相同，且所产生的s（m-1）个Hi能覆盖hash表中的所有地址

平方探测时表长m必须为4j+3的质数（平方探测表长有限制）
随机探测时m和di没有公因子（随机探测di有限制）
三种开放定址法解决冲突方案的例子

废话不多说，上例子就明白了
有一组数据
19 01 23 14 55 68 11 86 37要存储在表长11的数组中，其中H（key）=key MOD 11
那么按照上面三种解决冲突的方法，存储过程如下：
（表格解释：从前向后插入数据，如果插入位置已经占用，发生冲突，冲突的另起一行，计算地址，直到地址可用，后面冲突的继续向下另起一行。最终结果取最上面的数据（因为是最“占座”的数据））
线性探测再散列
我们取di=1，即冲突后存储在冲突后一个位置，如果仍然冲突继续向后

index	0	1	2	3	4	5	6	7	8	9	10
key	55	1		14					19	86
		23冲突	23
			68冲突	68冲突	68
	11冲突	11冲突	11冲突	11冲突	11冲突	11
					37冲突	37冲突	37
最终存储结果	55	1	23	14	68	11	37		19	86

**平方探测再散列**

index	0	1	2	3	4	5	6	7	8	9	10
key	55	1		14	37				19	86
		23冲突	H（23）+1
		H（68）-1冲突	68冲突	H（68）+1冲突			H（68）+4
	11冲突	H（11）+1冲突									H（11）-1
最终存储结果	55	1	23	14	37		68		19	86	11

**随机探测在散列（双探测再散列）** 发生冲突后 H（key）‘=(H(key)+di)MOD m 在该例子中 H（key）=key MOD 11 我们取di=key MOD 10 +1 则有如下结果：

index	0	1	2	3	4	5	6	7	8	9	10
key	55	1	68	14					19	86
		23冲突				H（23）+3+1
	11冲突		H（11）+1+1冲突		H（11）+1+1+1+1
		（H（37）+8）模11冲突			37冲突			（H（37）+8+8+8）模11		（H（37）+8+8）模11冲突
最终存储结果	55	1	68	14	23		11	37	19	86

链地址法

产生hash冲突后在存储数据后面加一个指针，指向后面冲突的数据
上面的例子，用链地址法则是下面这样：

四、hash表的查找

查找过程和造表过程一致，假设采用开放定址法处理冲突，则查找过程为：
对于给定的key，计算hash地址index = H（key）
如果数组arr【index】的值为空则查找不成功
如果数组arr【index】== key 则查找成功
否则使用冲突解决方法求下一个地址，直到arr【index】== key或者 arr【index】==null

hash表的查找效率

决定hash表查找的ASL因素：
1）选用的hash函数
2）选用的处理冲突的方法
3）hash表的饱和度，装载因子 α=n/m(n表示实际装载数据长度 m为表长)
一般情况，假设hash函数是均匀的，则在讨论ASL时可以不考虑它的因素
hash表的ASL是处理冲突方法和装载因子的函数
前人已经证明，查找成功时如下结果：

这里写图片描述
可以看到无论哪个函数，装载因子越大，平均查找长度越大，那么装载因子α越小越好？也不是，就像100的表长只存一个数据，α是小了，但是空间利用率不高啊，这里就是时间空间的取舍问题了。通常情况下，认为α=0.75是时间空间综合利用效率最高的情况。