Hash表的查找
- 理想的查找方法是:对给定的k,不经任何比较便能获取所需的记录,其查找的时间复杂度为常数级O©。
- 这就要求再建立记录表的时候,确定记录的key与其存储地址之间的关系f,即使key与记录的存放地址H相对应:
- 当要查找key=k的记录时,通过关系f就可以得到相应记录的地址而获取激流,从而免去了key的比较过程。
- 这个关系f就是所谓的Hash函数(或称散列函数、杂凑函数),记为H(key)。
- 它实际上是一个地址影响函数,其自变量为记录的key,函数值为记录的函数地址(或称Hash地址)。
- 出现地址相同的情况叫做冲突,哈希表的设计一个尽量减少冲突的出现。
- 选取(或构造)Hash函数的方法很多,原则时尽可能将记录均匀分布,以减少冲突现象的发生。以下介绍几种常用的构造方法。
- 直接地址法
- 平方取中法
- 叠加法
- 保留除数法
- 随机函数法
保留除数法
又称质数除于法,设Hash表空间长度为m,选取一个不大于m的最大质数p,令:
$H(key)= key%p $
处理冲突的方法
- 处理冲突的方法一般为:再地址j的前面找一个空闲单元存放冲突的记录,或将相冲突的诸记录拉成链表。
- 冲突现象的发生有时并不是完全由于Hash函数的随机性不好引起的,聚积的发生也会加重冲突。
- 还有一个因素是表的装填因子a, a = n / m a=n/m a=n/m,其中m为表长,n为表中记录的个数。一般a在0.7~0.8之间,使表保持一定的空闲余量,以减少冲突和聚积现象。