散列表

最新推荐文章于 2022-09-02 13:48:13 发布

今天你学习了么

最新推荐文章于 2022-09-02 13:48:13 发布

阅读量278

点赞数

分类专栏： Java集合框架

原文链接：https://blog.csdn.net/fenglibing/article/details/8905007

版权

Java集合框架专栏收录该内容

32 篇文章 1 订阅

订阅专栏

简单介绍

哈希表（Hash table，也叫散列表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

也就是说我们通过哈希函数来构建了一个确定的映射，它能把关键字映射到一个唯一的存储位置。这种映射应该是我们可以进行计算的。已知关键字，我们应该能算出其地址；反之，已知地址，我们可以检索到对应的关键字。一旦建立起这种关系，那么给定关键字，我就能直接利用这个映射(即所谓的哈希函数)直接算出其地址并寻址。这可大大缩减确定关键字存储位置所花的时间。

Hash基本思路

设要存储对象的个数为num, 那么我们就用len个内存单元来存储它们(len>=num);
以每个对象ki的关键字为自变量，用一个函数h(ki)来映射出ki的内存地址，也就是ki的下标，将ki对象的元素内容全部存入这个地址中就行了。这个就是Hash的基本思路。

Hash为什么这么想呢？换言之，为什么要用一个函数来映射出它们的地址单元呢？
this is a good question.明白了这个问题，Hash不再是问题。

面我就通俗易懂地向你来解答一下这个问题。

现在我要你存储4个元素 13 7 14 11
显然，我们可以用数组来存。也就是：a[1] = 13; a[2] = 7; a[3] = 14; a[4] = 11;

当然，我们也可以用Hash来存。下面给出一个简单的Hash存储：
先来确定那个函数。我们就用h(ki) = ki%5;(这个函数不用纠结，我们现在的目的是了解为什么要有这么一个函数)。那么

对于第一个元素 h(13) = 13%5 = 3; 也就是说13的下标为3；即Hash[3] = 13;
对于第二个元素 h(7) = 7 % 5 = 2; 也就是说7的下标为2; 即Hash[2] = 7;
同理，Hash[4] = 14; Hash[1] = 11;

好了，存现在是存好了。但是，这并没有体现出Hash的妙处，也没有回答刚才的问题。
下面就让我来揭开它神秘的面纱吧。

现在我要你查找11这个元素是否存在。你会怎么做呢？
当然，对于数组来说，那是相当的简单，一个for循环就可以了。也就是说我们要找4次。这是很笨的办法，因为为了找一个数需要把整个序列循环一遍才行，太慢！

下面我们来用Hash找一下。

首先，我们将要找的元素11代入刚才的函数中来映射出它所在的地址单元。也就是h(11) = 11%5 = 1 了。下面我们来比较一下Hash[1]?=11, 这个问题就很简单了。

也就是说我们就找了1次。我咧个去，这个就是Hash的妙处了。至此，刚才的问题也就得到了解答。至此，你也就彻底的明白了Hash了。

所以Hash Table的查询速度非常的快，几乎是O(1)的时间复杂度

Hash冲突

毕竟一个数组容量是有限的，如果对于2个要存储的值，通过hash函数计算出来他们要存储在散列表中的位置相同怎么办。解决该问题的方法很多，我首先想到的就是用“链表”。我遇到的很多算法都可以转化成链表来解决，只要在哈希表的每个入口挂一个链表，保存所有对应的字符串就OK了
在这里插入图片描述

哈希算法

哈希算法是一类算法而不是特定的一个，他所能做的就是从不同的输入中，通过一些计算摘取出来一段输出数据，值可以用以区分输入数据。

这类算法接受任意长度的二进制输入值，对输入值做换算（切碎），最终给出固定长度的二进制输出值；

① 信息安全领域
Hash算法可用作加密算法。
如文件校验：通过对文件摘要，可以得到文件的“数字指纹”，你下载的任何副本的“数字指纹”只要和官方给出的“数字指纹”一致，那么就可以知道这是未经篡改的。例如著名的MD5 ；

② 数据结构领域
Hash算法通常还可用作快速查找。
根据Hash函数我们可以实现一种叫做哈希表（Hash Table）的数据结构。这种结构可以实现对数据进行快速的存取

Java中的hashCode

官方文档定义

hashcode方法返回该对象的哈希码值。支持该方法是为哈希表提供一些优点，例如，java.util.Hashtable 提供的哈希表。

hashCode 的常规协定是：在 Java 应用程序执行期间，在同一对象上多次调用 hashCode方法时，必须一致地返回相同的整数，前提是对象上 equals比较中所用的信息没有被修改。从某一应用程序的一次执行到同一应用程序的另一次执行，该整数无需保持一致。如果根据equals(Object) 方法，两个对象是相等的，那么在两个对象中的每个对象上调用 hashCode 方法都必须生成相同的整数结果。

以下情况不是必需的：如果根据 equals(java.lang.Object) 方法，两个对象不相等，那么在两个对象中的任一对象上调用hashCode 方法必定会生成不同的整数结果。但是，程序员应该知道，为不相等的对象生成不同整数结果可以提高哈希表的性能。实际上，由Object 类定义的 hashCode方法确实会针对不同的对象返回不同的整数。（这一般是通过将该对象的内部地址转换成一个整数来实现的，但是 JavaTM编程语言不需要这种实现技巧。）
当equals方法被重写时，通常有必要重写 hashCode 方法，以维护 hashCode方法的常规协定，该协定声明相等对象必须具有相等的哈希码

也就是说
① hashCode的存在主要是用于查找的快捷性，如Hashtable，HashMap等，hashCode是用来在散列存储结构中确定对象的存储地址的；

② 如果两个对象相同，就是适用于equals(java.lang.Object) 方法，那么这两个对象的hashCode一定要相同；（但是hashCode相同，equals()方法的返回值不一定相同）

③ 如果对象的equals方法被重写，那么对象的hashCode也尽量重写，并且产生hashCode使用的对象，一定要和equals方法中使用的一致，否则就会违反上面提到的第2点；

④ 两个对象的hashCode相同，并不一定表示两个对象就相同，也就是不一定适用于equals(java.lang.Object) 方法，只能够说明这两个对象在散列存储结构中，如Hashtable，他们“存放在同一个篮子里”。

再归纳一下就是hashCode是用于查找使用的，而equals是用于比较两个对象的是否相等的。以下这段话是从别人帖子回复拷贝过来的：

1.hashcode是用来查找的，如果你学过数据结构就应该知道，在查找和排序这一章有
例如内存中有这样的位置
0 1 2 3 4 5 6 7
而我有个类，这个类有个字段叫ID,我要把这个类存放在以上8个位置之一，如果不用hashcode而任意存放，那么当查找时就需要到这八个位置里挨个去找，或者用二分法一类的算法。
但如果用hashcode那就会使效率提高很多。
我们这个类中有个字段叫ID,那么我们就定义我们的hashcode为ID％8，然后把我们的类存放在取得得余数那个位置。比如我们的ID为9，9除8的余数为1，那么我们就把该类存在1这个位置，如果ID是13，求得的余数是5，那么我们就把该类放在5这个位置。这样，以后在查找该类时就可以通过ID除 8求余数直接找到存放的位置了。

2.但是如果两个类有相同的hashcode怎么办那（我们假设上面的类的ID不是唯一的），例如9除以8和17除以8的余数都是1，那么这是不是合法的，回答是：可以这样。那么如何判断呢？在这个时候就需要定义equals了。也就是说，我们先通过 hashcode来判断两个类是否存放某个桶里，但这个桶里可能有很多类，那么我们就需要再通过equals 来在这个桶里找到我们要的类。那么。重写了equals()，为什么还要重写hashCode()呢？想想，你要在一个桶里找东西，你必须先要找到这个桶啊，你不通过重写hashcode()来找到桶，光重写equals()有什么用啊