算法导论(八)--全域哈希

算法导论(八)--全域哈希

全域哈希的定义

哈希有一个根本的缺陷,对于任意哈希函数而言,都存在一个不好的键集,所有键都会哈希到同一个槽,这样如果有人知道你用的什么哈希函数,就会故意给你这些映射到同一个槽的键值,这就相当于运行一个链表,很大程度上减缓了运行速度。
解决的方法就是随机性,在运行时随机地选择哈希函数,这个方法叫全域哈希(Universal Hashing)。

定义
设U为键的全域,H是哈希函数的有限集,H中的哈希函数将U映射到哈希表的槽0, 1, ⋯, m-1里。如果满足
∀ x , y ∈ U 且 x ≠ y , ∣ h ∈ H : h ( x ) = h ( y ) ∣ = ∣ H ∣ m ∀x,y∈U且x≠y,|{h∈H:h(x)=h(y)}|=\frac{|H|}{m} x,yUx̸=y,hH:h(x)=h(y)=mH

我们称H是全域的。等式左边表示把x和y映射到同一个槽的哈希函数的数目。

这样的话,如果从H中随机选择一个哈希函数,那么x和y发生碰撞的概率就是1/m。怎么得到的,就是在所有的函数集H中选出一个满足条件(x和y发生碰撞)的h,满足条件的h有|H|/m个,因此用满足条件的数目除以总数目,|H|/m除以|H|得到1/m。就像下面这个图,随机从H中选一个函数h,落在左边区域的概率是1/m。
在这里插入图片描述

于是我们可以得出下面的定理:

定理:从H中随机选择哈希函数,将n个键放进T表的m个槽里,对于给定的键x,发生碰撞的期望次数小于n/m,也就是α。

证明:设Cx为一个随机变量,表示哈希表T里的键与x发生碰撞的总次数,定义指标随机变量Cxy
C x y = { 1 如 果 h ( x ) = h ( y ) 0 其 他 C_{xy} = \begin{cases} 1 & 如果h(x)=h(y) \\ 0 & 其他 \end{cases} Cxy={ 10h(x)=h(y)

首先Cxy的期望E(Cxy)=1·1/m=1/m,并且可以把Cx表示成当y取T中非x元素时对应的Cxy值之和,即 C x = ∑ y ∈ T − { x } C x y C_x=\sum_{y∈T-\{x\}}{C_{xy}} Cx=yT{ x}Cxy
那么我们就可以求出E(Cx):
E ( C x ) = E ( ∑ y ∈ T − { x } C x y ) = ∑ y ∈ T − { x } E ( C x y ) = ∑ y ∈ T − { x } 1 m = n − 1 m < n m E(C_x)=E(\sum_{y∈T-\{x\}}{C_{xy}})=\sum_{y∈T-\{x\}}E(C_{xy})=\sum_{y∈T-\{x\}}\frac{1}{m}=\frac{n-1}{m}<\frac{n}{m} E(Cx)=E(yT{ x}C

  • 10
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值