定义
散列是一种用于以常数平均时间执行插入、删除和查找的技术。但是并不支持元素间需要排序信息的操作,比如FindMin()、FindMax()等。
散列表数据结构
理想的散列表数据结构不过是一个包含有关键字的具有固定大小的数组。
每个关键字被映射到0~TableSize-1中的某个数,这个映射被称为散列函数(hash function)。理想状况下的散列函数应该运算简单且保证任何两个不同的关键字映射到不同的单元,但是对于有限长度的散列表,不可能容纳无限的关键字,所以我们要寻找一个合适的散列函数将关键字均匀的映射到不同的单元。
当两个关键字散列到同一个单元时,我们称之为发生冲突(collision)。
散列函数
- 通常保证表的大小为素数。
- emmm,找到一个好的散列函数——足够大,足够快,平均分布。
- 当冲突发生时,我们通过两种方法来解决冲突:
- 分离链接法
- 开放定址法
- 以后补充。
分离链接法
做法:将散列到同一个值的所有元素保留到一个表中。
具体实现:(待补)
缺点:需要指针,给新单元分配地址需要空间,导致速度减慢。
开放定址法
装填因子(load factor)λ为散列表中的元素个数与散列表大小的比值。
做法:如果有冲突发生,尝试另外的单元,直到找出空的单元为止。一般来说,对于开放定址法的散列表,装填因子应该低于0.5。
hi(x)=(Hash(x)+F(i)) mod TableSize
F(0)=0
线性探测法
F(i)= i //F是i的线性函数
从图中可以看出插入49时发生冲突以及解决的办法——不断地试选单元至被选单元为空单元。即使当表相对较空时,占据的单元也渐渐的行成一些区块,我们称之为一次聚集(primary clustering)。- 开销推导(待补)
平方探测法
平方探测法用于消除线性探测中一次聚集问题的冲突解决方法——冲突函数为二次函数的探测方法。
F(i)=i^2
- 最多有表的一半可以用做解决冲突的备选位置。
如果表有一半是空的,而且表的大小是素数,那么总能够插入一个新的元素。
证明:令表的大小TableSize为一个大于三的素数,(h(X)+i^2)mod TableSize 和 (h(X)+j^2)mod TableSize 是前TableSize/2 之中的两个,0 < i,j < TableSize/2 。 假设i,j不同,但两位置相同。 (h(X)+i^2)=(h(X)+j^2) (mod TableSize) i^2=j^2 (mod TableSize) (i-j)(i+j)=0 (mod TableSize) 已知i,j不同,且均大于零,则前TableSize/2中不存在两个不同的值i,j映射到同一个位置上——前TableSize/2个元素互异。
双散列
一般选择将第二个散列函数应用到x并在距离hash2(x),2hash2(x)等处探测。
F(i)=i*hash2(x) hash2(x)=R-(X mod R)//R为小于TableSize的素数
再散列
对于使用开放定址法的表,如果表的元素填的太满,那么操作的运行时间将开始消耗过长,Insert操作可能失败。此时通过建立一个大约两倍大的表(并且使用一个新的散列函数),扫描整个原始散列表,计算每个元素的新散列值并将其插入到新表中。- 建立两倍大的表
- 使用新的散列函数
- 重新插入到新表之中
可扩散列(待补)