全域哈希的定义
哈希有一个根本的缺陷,对于任意哈希函数而言,都存在一个不好的键集,所有键都会哈希到同一个槽,这样如果有人知道你用的什么哈希函数,就会故意给你这些映射到同一个槽的键值,这就相当于运行一个链表,很大程度上减缓了运行速度。
解决的方法就是随机性,在运行时随机地选择哈希函数,这个方法叫全域哈希
(Universal Hashing)。
定义:
设U为键的全域,H是哈希函数的有限集,H中的哈希函数将U映射到哈希表的槽0, 1, ⋯, m-1里。如果满足
∀ x , y ∈ U 且 x ≠ y , ∣ h ∈ H : h ( x ) = h ( y ) ∣ = ∣ H ∣ m ∀x,y∈U且x≠y,|{h∈H:h(x)=h(y)}|=\frac{|H|}{m} ∀x,y∈U且x̸=y,∣h∈H:h(x)=h(y)∣=m∣H∣
我们称H是全域的。等式左边表示把x和y映射到同一个槽的哈希函数的数目。
这样的话,如果从H中随机选择一个哈希函数,那么x和y发生碰撞的概率就是1/m。怎么得到的,就是在所有的函数集H中选出一个满足条件(x和y发生碰撞)的h,满足条件的h有|H|/m个,因此用满足条件的数目除以总数目,|H|/m除以|H|得到1/m。就像下面这个图,随机从H中选一个函数h,落在左边区域的概率是1/m。
于是我们可以得出下面的定理:
定理:从H中随机选择哈希函数,将n个键放进T表的m个槽里,对于给定的键x,发生碰撞的期望次数小于n/m,也就是α。
证明:设Cx为一个随机变量,表示哈希表T里的键与x发生碰撞的总次数,定义指标随机变量Cxy:
C x y = { 1 如 果 h ( x ) = h ( y ) 0 其 他 C_{xy} = \begin{cases} 1 & 如果h(x)=h(y) \\ 0 & 其他 \end{cases} Cxy={
10如果h(x)=h(y)其他
首先Cxy的期望E(Cxy)=1·1/m=1/m,并且可以把Cx表示成当y取T中非x元素时对应的Cxy值之和,即 C x = ∑ y ∈ T − { x } C x y C_x=\sum_{y∈T-\{x\}}{C_{xy}} Cx=∑y∈T−{
x}Cxy。
那么我们就可以求出E(Cx):
E ( C x ) = E ( ∑ y ∈ T − { x } C x y ) = ∑ y ∈ T − { x } E ( C x y ) = ∑ y ∈ T − { x } 1 m = n − 1 m < n m E(C_x)=E(\sum_{y∈T-\{x\}}{C_{xy}})=\sum_{y∈T-\{x\}}E(C_{xy})=\sum_{y∈T-\{x\}}\frac{1}{m}=\frac{n-1}{m}<\frac{n}{m} E(Cx)=E(y∈T−{
x}∑C