集合Set和Map之哈希表和链表结构浅谈

最新推荐文章于 2023-03-17 21:02:33 发布

wzj_110

最新推荐文章于 2023-03-17 21:02:33 发布

阅读量1.1k

点赞数

分类专栏： Java 算法与数据结构文章标签：数据结构 hashCode与hash的爱恨情仇散列表

本文链接：https://blog.csdn.net/wzj_110/article/details/78558129

版权

Java 同时被 2 个专栏收录

67 篇文章 1 订阅

订阅专栏

算法与数据结构

7 篇文章 1 订阅

订阅专栏

1 哈希表

数组中元素的值(键对象)和位置有确定(一一对应)的对应关系，这样的数组叫做哈希表（散列表），这种对应关系叫做映射(类似数学中的映射)，实际是函数关系。

哈希表最大的优点：是就是把数据的存储和查找消耗的时间大大降低，几乎可以看成是常数时间----查询速度快；其次是编码比较容易

代价：仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下，用空间换时间的做法是值得的。

形如：index=hash(value)----元素与索引的映射

哈希表的例子：

映射规则：index=value%10-1

也即：元素值直接映射到元素的位置

问题：上图只是一种理想的情况，并不能够保证每个元素的关键字与函数值是一一对应的，因此极有可能出现对于不同的元素，却计算出了相同的函数值，这样就产生了“冲突”，换句话说，就是把不同的元素分在了相同的位置中去；例如：现在出现了54该放到哪呢？

结论：在一些简单的例子中可以直接把哈希码作为元素的值，但在以下情况中，不能直接把哈希码作为元素的位置

1---哈希码很大，超过了数组的索引，显然不合理

2---多个元素具有相同的哈希码，这种情况称之为哈希冲突，为了保证每个元素有不同的位置，不能把哈希码直接作为元素的位置

因此产生了如下的映射机制：

元素值-----------→hash(value)--------------→哈希码(hashCode()方法得到的)---------------→某种映射-------------------→元素位置

明确一个概念：散列值-----索引-----位置，我们查询的时候是根据键值找到索引(键值对存储位置)---得到值对象

幸运的是我们有方法来解决哈希冲突，后续会提到(拉链法)，散列值分布均匀，有效降低hash冲突

明确一点：每种类型的键都要有一个与之对应的散列函数

1.1 散列函数(hashCode()方法)计算

看各种类型的散列函数，键对象是对应类型；

正整数：除留余数法----选择大小为M的素数数组，对于任意正整数k，计算k除以M的余数;

问题：但是如果M不为素数，如：键是10进制数而M为10的k次幂，我们只能利用键的后k位，会发现大量的键散列为小于某个值的索引，即：分布不均匀，哈希冲突未减弱(参考Algorithms第四版的p294)

浮点数：如果键是[0,1)之间的实数，可以将它乘以M并四舍五入到一个[0,M-1]之间的索引值

缺陷：键的高位起的作用更大，最低位对散列的结果没有影响

java是如何弥补的：将键表示为二进制然后再用除留余数法(高低位都考虑了)

字符串：

其实还是除留余数法来计算字符串value的散列值

String类型hashCode的源码

public class DemoDemo {
	 public int hashCode() {
	        int h = hash;
	        //private int hash; -----String的成员变量：默认为0
	        if (h == 0 && value.length > 0) {
	            char val[] = value;
	            for (int i = 0; i < value.length; i++) {
	                h = 31 * h + val[i];
	             //说明：val[i]=val.charAt(i);R=31
	            }
	            hash = h;
	        }
	        return h;
	    }
}

特点：R=31可以保证字符串的所有位都能发挥作用

乘法、加法---------hashCode(哈希值)------取余来计算一个字符串的散列值

组合键

键的类型含有多个整形变量，将这多个整形变量整合起来

自定义的hashCode()

看API文档，会发现每个数据类型都需要相应的散列函数，于是Java令所有的数据类型都继承了一个能返回一个32位整数的hashCode方法，32位----返回值类型是int；由于我们需要的是数组的索引而不是一个32位的整数，所以在实现的过程中我们会将默认的hashCode()方法和除留余数法结合起来长生一个[0,M-1]的整数,方法如下：

hash=(x.hashCode()&0x7fffffff)%M;一般会将数组的大小M取为素数，以充分利用原散列值的所有位

自定义数据类型hashCode()产生方法：将对象中的每个变量(Integer,String等)的hashCode()返回值转化为32位整数并计算得到散列值

代码

1.2 软缓存

散列值计算很耗时，将每个键的散列值缓存起来，即：用一个变量(hash)保存它的hashCode()的返回值；第一次调用hashCode()方法会计算对象的散列值，之后对此对象hashCode()方法的调用会直接返回hash变量的值(不用再计算了)，感兴趣的可以看看String的hashCode方法的源码

优秀的散列方法需要满足三个条件

一致性-------等价的键对象产生相等的散列值

高效性-------计算方便

均匀性-------均匀地散落所有的键-----等价说法-----键的散列值均匀分布

提一点：均匀性----保证键的每一位都在散列值的计算中起到相同的作用，实际中容易忽略键的高位，这也就是后来为什么