HashMap面试常见的底层问题

数据结构( HashMap就是一个插入慢、查询快的数据结构)

数组:采用一段连续的存储单元来存储数据。对于指定下标的查找,时间复杂度为O(1)

线性链表:对于链表的新增,删除等操作(在找到指定操作位置后),仅需处理结点间的引用即可,时间复杂度为O(1),而查找操作需要遍历链表逐一进行比对,复杂度为O(n)( HashMap中的链表出现越少,性能才会越好。链表的节点存储的是一个 Entry 对象,每个Entry 对象存储四个属性(hash,key,value,next)

在这里插入图片描述

二叉树:对一棵相对平衡的有序二叉树,对其进行插入,查找,删除等操作,平均复杂度均为O(logn)。

工作原理

首先,初始化 HashMap,提供了有参构造和无参构造,无参构造中,容器默认的数组大小 initialCapacity 为 16,加载因子loadFactor 为0.75。容器的阈(yu)值为 initialCapacity * loadFactor,默认情况下阈值为 16 * 0.75 = 12;

我们拿 PUT 方法来做研究:

第一步:通过 HashMap 自己提供的hash 算法算出当前 key 的hash 值

第二步:通过计算出的hash 值去调用 indexFor 方法计算当前对象应该存储在数组的几号位置

第三步:判断size 是否已经达到了当前阈值,如果没有,继续;如果已经达到阈值,则先进性数组扩容,将数组长度扩容为原来的2倍。

请注意:size 是当前容器中已有 Entry 的数量,不是数组长度。

HashMap和HashTable 的异同?

  1. 二者的存储结构和解决冲突的方法都是相同的。

  2. HashTable在不指定容量的情况下的默认容量为11,而HashMap为16,Hashtable不要求底层数组的容量一定要为2的整数次幂,而HashMap则要求一定为2的整数次幂。

  3. HashTable 中 key和 value都不允许为 null,而HashMap中key和value都允许为 null(key只能有一个为null,而value则可以有多个为 null)。但是如果在 Hashtable中有类似 put( null, null)的操作,编译同样可以通过,因为 key和 value都是Object类型,但运行时会抛出 NullPointerException异常。

  4. Hashtable扩容时,将容量变为原来的2倍+1,而HashMap扩容时,将容量变为原来的2倍。

  5. Hashtable计算hash值,直接用key的hashCode(),而HashMap重新计算了key的hash值,Hashtable在计算hash值对应的位置索引时,用 %运算,而 HashMap在求位置索引时,则用 &运算。

如何优化 HashMap?

初始化 HashMap 的时候,我们可以自定义数组容量及加载因子的大小。所以,优化 HashMap 从这两个属性入手,但是,如果你不能准确的判别你的业务所需的大小,请使用默认值,否则,一旦手动配置的不合适,效果将适得其反。

threshold = (int)( capacity * loadFactor );

阈值 = 容量 X 负载因子;

初始容量默认为16,负载因子(loadFactor)默认是0.75; map扩容后,要重新计算阈值;当元素个数 大于新的阈值时,map再自动扩容;以默认值为例,阈值=16*0.75=12,当元素个数大于12时就要扩容;那剩下的4个数组位置还没有放置对象就要扩容,造成空间浪费,所以要进行时间和空间的折中考虑;

loadFactor过大时,map内的数组使用率高了,内部极有可能形成Entry链,影响查找速度;

loadFactor过小时,map内的数组使用率较低低,不过内部不会生成Entry链,或者生成的Entry链很短,由此提高了查找速度,不过会占用更多的内存;所以可以根据实际硬件环境和程序的运行状态来调节loadFactor;

问题

如果两个人名字一样可咋办,查到的到底是谁的信息呢?前者信息会被覆盖吗?

da:

​ HashMap 中equals 相同的两个key, 容器中只会保留后进来的key 的value。进入问题中即:我先存储了 Lucy的信息,后来又有一个 Lucy,这个时候再存储 Lucy,容器中保留的是第二个 Lucy 的信息,这种情况,我们可以考虑使用 List 作为 value,把相同名字的职员信息存在 list 中;或者给相同名字的职员编号,使得每个key 都是唯一的。

为什么HashMap需要加载因子?

加载因子越大,填满的元素越多,空间利用率越高,但发生冲突的机会变大了;

加载因子越小,填满的元素越少,冲突发生的机会减小,但空间浪费了更多了,而且还会提高扩容rehash操作的次数。

解决冲突有什么方法?

1. 开放定址法

1.1 线性探查法(Linear Probing):di = 1,2,3,…,m-1

1.2 平方探测法(Quadratic Probing):di = ±12, ±22,±32,…,±k2(k≤m/2)

2. 再哈希法

3. 链地址法(拉链法)

在这里插入图片描述

为什么加载因子一定是0.75?而不是0.8,0.6?

这个跟一个统计学里很重要的原理——泊松分布有关。

在这里插入图片描述

等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量。等号的右边,λ 表示事件的频率。

HashMap中除了哈希算法之外,有两个参数影响了性能:初始容量和加载因子。初始容量是哈希表在创建时的容量,加载因子是哈希表在其容量自动扩容之前可以达到多满的一种度量。

在维基百科来描述加载因子:

 对于开放定址法,加载因子是特别重要因素,应严格限制在0.7-0.8以下。超过0.8,查表时的CPU缓存不命中(cache missing)按照指数曲线上升。因此,一些采用开放定址法的hash库,如Java的系统库限制了加载因子为0.75,超过此值将resize散列表。 

选择0.75作为默认的加载因子,完全是时间和空间成本上寻求的一种折衷选择。

哈希冲突

然而万事无完美,如果两个不同的元素,通过哈希函数得出的实际存储地址相同怎么办?也就是说,当我们对某个元素进行哈希运算,得到一个存储地址,然后要进行插入的时候,发现已经被其他元素占用了,其实这就是所谓的哈希冲突,也叫哈希碰撞

解决方案

开放定址法(发生冲突,继续寻找下一块未被占用的存储地址),再散列函数法,链地址法,而HashMap即是采用了链地址法,也就是数组+链表的方式。

为何初始容量要是2的指数幂

原理:

h是通过k的hashCode最终计算出来的哈希值,并不是hashCode本身,而是hashCode之上又经过一层运算的hash值,length是目前容量。当容量是2^n时,h & (length -1) == h % length。(当容量不是2^n时,h & (length -1) != h % length)

这个等式实际上可以推理出来,2^n转换成二进制就是1+n个0,减1之后就是0+n个1,如16 -> 10000,15 -> 01111,那根据&位运算的规则,都为1(真)时,才为1,那0≤15运算后的结果≤15,假设h <= 15,那么运算后的结果就是h本身,h >15,运算后的结果就是最后三位二进制做&运算后的值,最终,就是%运算后的余数。(理解位运算、与运算)

static int indexFor(int h,int length){
    return h & (length - 1);
}

hashMap环形链(死锁)

环形链的形成:

  1. 主要在这扩容的过程。当多个线程同时对这个HashMap进行put操作,而察觉到内存容量不够,需要进行扩容时,多个线程会同时执行resize操作 (扩容:拷贝旧的数据元素,从新新建一个更大容量的空间,然后进行数据复制)
 /**
     * Transfers all entries from current table to newTable.
     */
    void transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
        for (Entry<K,V> e : table) {
            while(null != e) {
                Entry<K,V> next = e.next;
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }

图解:

假设杨过的next为小龙女

小龙女的next为null

T1,T2两个线程进行操作

经过两次扩容复制,最终得到下面的结构:

在这里插入图片描述

主要问题就是多次的扩容复制将Entry中 A的next置换成了B,B的next置换成了A,(B的next原本是null)

扩容优化,如何做到无需rehash

简单说就是换一个更大的数组重新映射。下面我们讲解下JDK1.8做了哪些优化。经过观测可以发现,我们使用的是2次幂的扩展(指长度扩为原来2倍),所以,元素的位置要么是在原位置,要么是在原位置再移动2次幂的位置(原位置+oldCap)

concurrentHashMap

1.7和1.8底层原理的实现

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值