上一篇文章已经说了Hash Table作为一个数组以开放式寻址的方式实现 ,用开放式寻址去解决Key的冲突比较麻烦,不管是用线性探针,二次方探针,即便是二次Hash也还是有缺陷,一旦数组变的比较满的时候,算法的效率就会大打折扣,而且用开放式寻址就不能真正意义上的去删除一个数据项,如果删除一个数据项,以后的搜索某个数据就会发生错误。
用Linked List来代替数组中的元素就可以比较好的解决Key冲突的问题,而为此付出的代价仅仅是代码复杂一点,要在数组的基础上实现Linked List。但是得到的好处却是非同凡响的。
用Linked List来实现Hash Table的代码就不在赘述了,虽然比Open Addressing要复杂,但是也不难,相对与Binary Tree来说,还是要简单点的。
下面再来说下Hash Function,为什么要用Hash Function,最根本的目的当然是为了搜索起来更加的节省时间,所以Hash Function的算法不能复杂,越简单越好,多用些位操作则更好,比如将2进制数右移一位以达到除以2的目的。一个所谓的完美的Hash Function可以将每一个Key随机的映射到不同的位置上,这种情况只有在Key很好的分布,以及范围足够的小,可以直接作为Index.当然这种情况很少见,就算出现了也会直接用数组,何必去用Hash Table呢!用Hash Table大多都是要把比较大的Key压缩到一个相对容量较小的数组中。总的来说一个好的Hash Function要做到简单,快速,排除Key的非有用数据部分,包括Key的所有有用的数据部分。
还有就是Table Size最好是质数,Table Size是质数在二次方探针和二次Hash中很重要,但是在其他的搜索方式中也最好用质数,因为有的时候Key并不是一个随机的数,比如,有一串Key,他们都是50的倍数,如果Table Size是50,那么所有的数都会被Hash到同一个地方,导致了聚合严重。在这种情况下用53最为数组的大小就不会导致聚合情况的严重了。
如果探讨到Hash Table的效率,在大多数的情况下用Linked List实现的Hash Table效率要好点,因为不会像开放式寻址那样去不断的寻找特定的Cell,而是只要在特定的Linked List里面去寻找。当然对于很小的Hash Table,用开放式寻址的线性探针是个不错的选择,因为他的编码简单!