散列表(Hash Table)

最新推荐文章于 2022-07-18 22:17:40 发布

fourye007

最新推荐文章于 2022-07-18 22:17:40 发布

阅读量348

点赞数

分类专栏： Algorithm 文章标签：散列表哈希表双重散列开放寻址法

本文链接：https://blog.csdn.net/yzf0011/article/details/63250486

版权

Algorithm 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

散列表也称作为哈希表，它是一个动态表，然而它支持字典的操作，因为它的存储一个值，需要相应的键。在查找一个值时，也需要一个键。最基本的操作就是:insert, search以及delete。散列表作为一个动态表，它的性能表现的异常好。甚至在合理的假设条件下，它的操作只需要 $O(1)$ 的代价。
本章主要内容：
这里写图片描述

1. 直接地址法（Direct-address tables）

当我们的关键字全域 $U$ 比较小时，直接寻址就显得十分有效，直接上图：
这里写图片描述
上图展示了，全域的大小就是表的大小，同时关键字只映射一个值。这个明显的一个缺点时，当我们的全域变得很大时，它就很会浪费空间。

2. 哈希函数(Hash function)

哈希函数的主要作用就是将我们的关键字映射成一个在哈希表中的位置。最基本的方法有除留余法，乘法散列，以及全域散列。在实际过程中我们用的更是复杂的哈希函数（如RS，JS），在这里我们只介绍全域散列。

全域散列

因为在实际当中，可能一个散列函数，会把许多关键子散列成同一个值，而实际当中最有效的方法就是，我们在一组不错的散列列函数，选择 $1$ 个散列函数作为我们这 $1$ 次的散列函数。如果又有一个关键字要散列的话，我们就从散列函数组中重新随机话选择 $1$ 个散列函数进行散列。这样选中同一个的散列函数的可能性就会比较低，从而散列到同一个位置的可能性也十分低。因此它的平均性能也十分突出。

3. 碰撞冲突

碰撞冲突，主要是因为我们在散列的时候可能散列到同一个值，这样就会形成冲突。在这里我们主要有种方法解决冲突。链接法，再哈希以及开放定址法。开放地址法还有线性探查，二次探查以及双重散列。

链接法

直接上图更容易清楚：
这里写图片描述
从途中我们可以看出，当我们有散列值冲突的时候，我们就需要用一个双向链表将冲突的具有相同的散列值得关键字链在一起。这样就能够很好的解决冲突。
我们来分析其一般的性能：假设表长为 $m$ , 共有 $n$ 个关键要散列。则我们可以算出表中每一个位置对应的元素长度： $\Theta(1 + \alpha)$ （其中的O(1)是用来计算哈希值的。
个人觉得其有一个不好的点：就是对于频繁删除和添加的操作则，要不断频繁的创造节点和删除节点，可能会消耗大量的时间，不过它的实现过程十分简单而且解决冲突的效果也是十分不错。

再哈希

当我们关键字在 $hash$ 函数 $h_1$ 映射的时候发生了碰撞，然后选择另一个 $hash$ 函数 $h_2, h_3, ... h_n$ 直至没有冲突。这样做的缺点很明显， $1$ 是需要大量的 $hash$ 函数，另外 $1$ 个就是要不断的计算 $hash$ 值。

开放定址法(open addressing)

线性探测(linear probing)

假设表长为 $m$ , 则散列函数如下：

h (k, i) = (h' (k) + i) m o d m, i = 0, 1, 2, . . ., m - 1

$h(k, i) = (h'(k) +i)mod \ m, \ \ \ \ i = 0, 1, 2, ..., m - 1$
给定一个关键字

k $k$ , 先用

hash $hash$ 函数

h′() $h'()$ 算出散列地址，探测这个位置是否冲突，如果冲突，则将地址

+1 $+1$ 直到没有冲突的位置。

二次探测(quadratic probing)

直接看散列函数：

h (k, i) = (h' (k) + c 1 i + c 2 i 2) m o d m, i = 0, 1, . . ., m - 1

$h(k, i) = (h'(k) + c_1 i + c_2 i^2) mod \ m, \ \ \ \ i = 0, 1, ..., m - 1$
和线性探测不同的时探测函数用的是二次函数。

双重散列(double hashing)

直接看散列函数:

h (k, i) = (h 1 (k) + i h 2 (k)) m o d m, i = 0, 1, . . ., m - 1

$h(k, i) = (h_1(k) + ih_2(k)) mod \ m, \ \ \ \ i = 0, 1, ..., m- 1$

$3$ 种开放定址法对比

通过图我们可以很容易看出他们之间的区别
$1）$ 线性探测
这里写图片描述
$2）二次探测$

$3）双重散列$

从上面我们可以看出，双重散列更接近均匀散列。线性探测，可能导致查找的平均时间变长，而二次探测为了能够充分利用散列表，则 $c_1, c_2, m$ 要受到限制。

均匀散列分析

定理3.1 $^{[1]}$

给定一个装载因子 $(load factor)$ $\alpha= n /m < 1$ 的开放寻址散列表，则对于一次不成功的探查次数至多为 $1/ (1-\alpha)$

定理3.2 $^{[2]}$

对于一个装载因子为 $\alpha < 1$ 的开放寻址散列表，一次从成功查找中的探查期望数至多为

1 α l n 1 1 - α

$\frac{1}{\alpha}ln\frac{1}{1-\alpha}$
证明略，当

nm=12 $\frac{n}{m}= \frac{1}{2}$ 时，探查期望小于

1.387 $1.387$ , 而当

nm=0.9 $\frac{n}{m}= 0.9$ 时, 探查期望小于2.559.

[3] $^{[3]}$

4. 源码

本人在clion IDE中实现的 $\color{Red}{双重散列}$ , 下载请转此下载：http://download.csdn.net/detail/yzf0011/9772449

5. 感谢

本文是基于《算法导论》写的，最主要的是有本人大量的心得体会，感谢《算法导论》的那些作者Thomas H.Cormen、Charles E.Leiserson等人。如果有错误的请留言，不甚感激。谢谢。

6. 参考

[1]《算法导论》Thomas H.Cormen、Charles E.Leiserson等第三版第11章 “散列表” p155
[2]《算法导论》Thomas H.Cormen、Charles E.Leiserson等第三版第11章 “散列表” p155
[3]《算法导论》Thomas H.Cormen、Charles E.Leiserson等第三版第11章 “散列表” p155

转载，请注明

fourye007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
散列表(Hash Table)

散列表也称作为哈希表，它是一个动态表，然而它支持字典的操作，因为它的存储一个值，需要相应的键。在查找一个值时，也需要一个键。最基本的操作就是:insert, search以及delete。散列表作为一个动态表，它的性能表现的异常好。甚至在合理的假设条件下，它的操作只需要O(1)O(1)的代价。
复制链接

扫一扫