文章目录
1. 哈希表
1.1 哈希表-概念
顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键 码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(log2N),搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。如果构造一种存储结构,通过某种函 数 (hashFunc) 使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
增删查改的时间复杂度为O(1)。
当向该结构中:
- 插入元素
根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。 - 搜索元素
对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若 关键码相等,则搜索成功。
该方式即为哈希(散列)方法, 哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表 (Hash Table) (或者称散列表)
例如:数据集合{1 ,7 ,6 ,4 ,5 ,9};
哈希函数设置为: hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
- 存储元素的顺序不代表该元素在哈希表中的相对位置。
- 元素存储到哪个位置与哈希函数有关。
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。
问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?
解:此时两个不同的关键字key,通过相同的哈希函数找到了同一个位置。把这种现象叫做哈希冲突。
1.2 哈希冲突-概念
对于两个数据元素的关键字ki 和 kj(i != j),有 ki != kj ,但有: Hash( ki ) == Hash( kj),即: 不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。
把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。
在哈希表中,冲突是必然发生的,可以认为一般情况下:要存储的元素是远远大于表的长度的。
1.3 冲突-避免
首先,我们需要明确一点,由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的,这就导致一个问题, 冲突的发生是必然的(即哈希冲突是不可避免的),但我们能做的应该是尽量的降低冲突率。
1.4 冲突-避免-哈希函数设计
引起哈希冲突的一个原因可能是: 哈希函数设计不够合理。
哈希函数设计原则:
- 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间。
- 哈希函数计算出来的地址能均匀分布在整个空间中。
- 哈希函数应该比较简单。
常见哈希函数:
- 1.直接定制法–(常用)
取关键字的某个线性函数为散列地址: Hash ( Key) = A*Key + B 。
优点:简单、均匀 。
缺点:需要事先知道关键字的分布情况 。
使用场景:适合查找比较小且连续的情况。
面试题: 字符串中第一个只出现一次字符
class Solution {
public int firstUniqChar(String s) {
int[] count=new int[26];//题目说了只有小写字母
for(int i=0;i<s.length();i++){
char ch=s.charAt(i);
count[ch-97]++;
}
for(int i=0;i<s.length();i++){
if(count[ch-97]==1){
return i;
}
}
return -1;
}
}
- 2.除留余数法–(常用)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:
Hash(key) = key% p(p<=m),将关键码转换成哈希地址
1.5 冲突-避免-负载因子调节(重要)
1.6 冲突-解决
解决哈希冲突两种常见的方法是: 闭散列和开散列
1.7 冲突-解决-闭散列
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以 把key存放到冲突位置中的“下一个” 空位置中去。 那如何寻找下一个空位置呢?
1. 线性探测
比如上面的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,下标为4,因此44理论上应该插在该 位置,但是该位置已经放了值为4的元素,即发生哈希冲突。
线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
- 插入
- 通过哈希函数获取待插入元素在哈希表中的位置
- 如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到 下一个空位置,插入新元素。
- 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他
元素的搜索。比如删除元素4,如果直接删除掉, 44查找起来可能会受影响。因此线性探测采用标 记的伪删除法来删除一个元素。
弊端:线性探测会把尽可能冲突的元素放在一起。并且不好删除。(假设直接删除了元素4,会影响到14,24,34等冲突的元素)
2. 二次探测
线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为 : Hi = (H0 +i2 )% m, 或者: Hi = (H0 -i2 )% m。 其中: i = 1,2,3… ,(i表示第几次冲突 ) 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置, m是表的大小。 对于2.1中如果要插入44,产生冲突,使用解决后的情况为:
研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不 会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情 况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容。
因此:比散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。
1.8 冲突-解决-开散列/哈希桶(重点)
开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子 集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
开散列,可以认为是把一个在大集合中的搜索问题转化为在小集合中做搜索了。
1.9 冲突严重时的解决办法
哈希桶其实可以看作将大集合的搜索问题转化为小集合的搜索问题了,那如果冲突严重,就意味 着小集合的搜索性能其实也时不佳的,这个时候我们就可以将这个所谓的小集合搜索问题继续进行转化,例如:
- 每个桶的背后是另一个哈希表
- 每个桶的背后是一棵搜索树
Java当中的HashMap就是采用:数组+链表+红黑树。
1.10 实现开散列
- 1、先根据key定位到数组的位置。
- 2、检查当前数组位置的链表,是否存在相同的key,存在则更新对应的value.
- 3、如果链表当中不存在,则进行插入。
- 4、在JDK8当中使用的是尾插法,而此处使用头插法实现。
hashMap在扩容的时候需要注意什么?在数组扩容的时候需要重新哈希。
问题:如果key是引用数据类型,应该怎么办?重写hashcode和equals方法。
1、两个对象的hashcode一样,则equals一定一样吗?不一定。
2、两个对象的equals一样,则hashcode一定一样吗?一定。
举例:和查字典一样。要查找美女二字。
(1)hashcode:美
(2)equals:美景,美食,美女。。。很多词语
1、HashMap<String.String> map=new HashMap<>();底层的数组多大?本质上没有给底层的数组开辟空间
2、HashMap<String.String> map=new HashMap<>(25);底层数组多大?32。由源码分析可以知道,返回一个接近于给定容量的容量,并且是2次幂的,向上取整。即不管给的指定的容量是多少,都会返回一个接近当前数字的2次幂。
3、扩容需要注意什么?
4、讲一下你知道或者了解的HashMap的源码?
源码分析:
putVal源码
resize源码:
1.11 性能分析
虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的, 也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是 O(1) 。
1.12 和 java 类集的关系
- HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set
- java 中使用的是哈希桶方式解决冲突的
- java会在冲突链表长度大于一定阈值后,将链表转变为搜索树(红黑树)
- java 中计算哈希值实际上是调用的类的 hashCode 方法,进行 key 的相等性比较是调用 key 的 equals 方 法。所以如果要用自定义类作为 HashMap 的 key 或者 HashSet 的值, 必须覆写 hashCode 和 equals 方 法,而且要做到 equals 相等的对象, hashCode 一定是一致的。